X



【統計分析】機械学習・データマイニング29

■ このスレッドは過去ログ倉庫に格納されています
0001デフォルトの名無しさん (ワッチョイ 7301-KCZZ [60.86.178.93])
垢版 |
2020/08/20(木) 09:16:43.41ID:Av1Lrhjm0
!extend:on:vvvvvv:1000:512
!extend:on:vvvvvv:1000:512
↑すれたてる毎に1行ずつ減るので、減ってたら3回に増やしてたてること。

機械学習とデータマイニングについて語れ若人

*機械学習に意識・知能は存在しません。
  人の意識に触れたい方はスレ違いです。

■前スレ
【統計分析】機械学習・データマイニング28
https://mevius.5ch.net/test/read.cgi/tech/1588293154/
-EOF-
VIPQ2_EXTDAT: default:vvvvvv:1000:512:: EXT was configured
0750デフォルトの名無しさん (アウアウエー Sa5f-YXDh [111.239.191.86])
垢版 |
2020/12/06(日) 11:37:15.62ID:soxd67i8a
>>746
ベイズ推定でα・βに何か確率分布を仮定するならともかく、普通の線形回帰で最小二乗法でα・βを決めるという話なら
α・βは何か決まった値がありそれを探すだけなので確率変数ですらないのでそもそもα・βの期待値を計算することなどない
ベイズ的でない最小二乗法ではεだけが確率変数でそれを正規分布と仮定している
0753デフォルトの名無しさん (ワッチョイ 7f55-jrSk [59.147.205.222])
垢版 |
2020/12/06(日) 15:20:36.42ID:u9kukm0H0
バックプロパゲーションについて質問です.

これは結局のところ,与えられた多変数関数のある点での偏導関数の値を求めるのに,素朴な方法よりも計算量が少なくて済む方法ということで間違っていないでしょうか?

日本語のディープラーニングの入門書を見ても,偏導関数の値のバックプロパゲーションによる計算方法だけ載っていて,計算量についての考察がないものばかりのような気がします.
0760デフォルトの名無しさん (ワッチョイ 6302-CWdK [118.154.96.7])
垢版 |
2020/12/06(日) 20:28:21.98ID:8X+3nqvD0
>>753
素朴な方法って総当たり法のことかな?

バックプロパゲーションで学習ができることは理論的裏付けがなくて単なる経験則らしい
条件によって収束までのステップ数はえらく変わるし、そもそも収束する保証もないので
見積りもできないのだろう
0761デフォルトの名無しさん (スッップ Sdaf-l649 [49.98.172.22])
垢版 |
2020/12/06(日) 20:35:30.68ID:19ceK5s6d
746です。
とりあえずα=0とした場合、
平均が(βx_1, ... , βx_n)、共分散行列が(σ^2)I_nとなる適当な確率分布でやれば全てうまくいきそうです。
ありがとうございました。
0763デフォルトの名無しさん (オッペケ Sr27-l649 [126.194.204.198])
垢版 |
2020/12/06(日) 21:33:14.20ID:goV+sQHPr
>>762
仮説検定とかをするなら流石に正規分布まで仮定しないとうまくいかないですが、
βハットが最良線形不偏推定量であることやσ^2の推定までは全てうまくいってしまってます。
間違ってるんですかね?
0767デフォルトの名無しさん (オッペケ Sr27-l649 [126.194.204.198])
垢版 |
2020/12/06(日) 21:47:49.35ID:goV+sQHPr
>>764
推定量がyに関して2次以下ならこの仮定だけで計算できませんか?

>>766
nがサンプル数でβ∈Rを想定していますが、特に変更なくm変数でも議論できる気がしています。
0769デフォルトの名無しさん (ワッチョイ 1363-jrSk [114.150.119.49])
垢版 |
2020/12/06(日) 21:55:08.75ID:+8xXEz990
>推定量がyに関して2次以下ならこの仮定だけで計算できませんか?

意味不明

>nがサンプル数でβ∈Rを想定していますが、特に変更なくm変数でも議論できる気がしています。

これも意味不明だが、回帰分析において推定したいパラメータの次元は
2でも一般のmでも(サンプルサイズを下回っている限りは)特に議論は変わらない


というか、こんなの学部生レベルのお話なんだからこんなところで聞かなくても
ググれば計算過程込みでいくらでも出てくるだろ…
答えだけ書けば(仮定にもよるが標準的な仮定の下では)
\hat{α}, \hat{β}は不偏推定量になる
0770デフォルトの名無しさん (オッペケ Sr27-l649 [126.194.204.198])
垢版 |
2020/12/06(日) 21:58:03.70ID:goV+sQHPr
>>768
R^n上の確率分布pで、
平均μ=E_p[x]=(βかけるx_1,...,βかけるx_n)で、
分散共分散行列がn×n行列で対角線上にσ^2が並んだものを想定しています。
例えば正規分布などはこれに当てはまると思います。
0771デフォルトの名無しさん (ワッチョイ 7f55-jrSk [59.147.205.222])
垢版 |
2020/12/06(日) 22:01:55.24ID:u9kukm0H0
岡谷貴之の本のバックプロパゲーションの説明が一番わかり易いようです.
0773デフォルトの名無しさん (オッペケ Sr27-l649 [126.194.204.198])
垢版 |
2020/12/06(日) 22:10:30.75ID:goV+sQHPr
>>772
推定しようとしている傾きβはスカラーですよ?
0776デフォルトの名無しさん (オッペケ Sr27-l649 [126.194.204.198])
垢版 |
2020/12/06(日) 22:28:19.17ID:goV+sQHPr
>>774
確率分布pの平均です。
μ=E_p[x]でちゃんと明示したつもりでした。
0780デフォルトの名無しさん (オッペケ Sr27-l649 [126.194.204.198])
垢版 |
2020/12/06(日) 22:34:23.05ID:goV+sQHPr
>>777
(Y_1, ... , Y_n) ~ pです。
0781デフォルトの名無しさん (オッペケ Sr27-l649 [126.194.204.198])
垢版 |
2020/12/06(日) 22:36:01.56ID:goV+sQHPr
>>779
あ、ごめんなさい。
E_p[y]ですね。ここでy=(y_1,...,y_n)∈R^nです。
0783デフォルトの名無しさん (オッペケ Sr27-l649 [126.194.204.198])
垢版 |
2020/12/06(日) 22:43:41.40ID:goV+sQHPr
>>782
簡単のために定数項なしのモデルで考えています。
761で言及したのでずっとそのつもりでした。
0785デフォルトの名無しさん (ワッチョイ 7f55-jrSk [59.147.205.222])
垢版 |
2020/12/07(月) 12:44:07.26ID:n2wcT9Ah0
みなさん,ありがとうございました.

岡谷の本を見ていますが,やはり,バックプロパゲーションは偏導関数のある点での値をより速く求める方法にすぎないということのようですね.
そしてその偏導関数の値を勾配降下法で利用するということですね.

ディープラーニングというのは結局の所,あるタイプの最小化したい誤差関数を一つ定め,それを勾配降下法でできる限り小さくする手法ということのようですね.

最適化の一分野ということですね.
0786デフォルトの名無しさん (ワッチョイ 7f55-jrSk [59.147.205.222])
垢版 |
2020/12/07(月) 12:48:00.49ID:n2wcT9Ah0
パラメーターで変化する誤差関数のテストデータに対する値をパラメーターを変化させて,できる限り小さくするというだけのことのようですね.

夢も何もないただの最適化法の一分野ですね.
0790デフォルトの名無しさん (ワッチョイ 7f55-jrSk [59.147.205.222])
垢版 |
2020/12/07(月) 13:49:29.21ID:n2wcT9Ah0
https://www.youtube.com/playlist?list=PLUl4u3cNGP63oMNUHXqIUcrkS2PivhN3k

Strang教授のこのビデオ講義シリーズを見た人はいませんか?
なんか非常に簡単なことでつっかえて,結局何も示せずに,簡単だから自分でやってくださいとかいう場面が多すぎます.
0797デフォルトの名無しさん (ワッチョイ 0b10-/9i7 [153.131.102.129])
垢版 |
2020/12/09(水) 19:08:22.67ID:+JEohQBS0
>>793
評価関数を最適化するって事で
学習データに対して最適化すると
過学習して汎化性能が悪い事になる

学習データと運用データの差があるのが問題の1つ
実運用データを完全網羅して学習したら過学習にはならないんじゃないかと思う
0799デフォルトの名無しさん (ワッチョイ 3901-LBAI [220.56.102.222])
垢版 |
2020/12/09(水) 19:19:54.28ID:kJMhAlw60
Ars Technicaはこの点について、「歩行者がいる場面では、Waymoは慎重すぎます。人間のドライバーであれば、
間違いなくもっと速く動けるでしょう。しかし、このことでWaymoを責めるのは困難です。人をはねる危険を冒すくらいなら、
多少待たされた方がはるかにマシですから」とコメントしました。

不満はあれど批判できないってところだろうな
0803デフォルトの名無しさん (ワッチョイ 3901-LBAI [220.56.102.222])
垢版 |
2020/12/09(水) 23:05:26.02ID:kJMhAlw60
日本は装置内のハードやソフトだけで成り立たせて製品単体として売るぐらいだろう
「危ないところは人が見てくださいね」っていう仕様で
IT云々と絡めたり、別のサービスと絡むようなことはないだろう
日本が出来るのは
製品単体をマニアック仕様にして高く売りつけることぐらいで

車内のカメラも踏まえ、、、いろんなデータをいち早く収集し
売上に繋げて行くんだろうな
0804デフォルトの名無しさん (ワッチョイ 5952-ojTD [118.243.75.50])
垢版 |
2020/12/10(木) 11:21:32.39ID:+ZlzWDd90
Transformer-based Double-token Bidirectional Autoregressive Decodingin Neural Machine Translation
https://www.aclweb.org/anthology/2020.wat-1.3.pdf

精度を上げるつもりでL2RとR2Lを組み込んだんだろうけど
精度を下げてて草

しょうもなくて「速度が〜」に方針転換しててさらに草
0805デフォルトの名無しさん (ワッチョイ 1355-orE1 [59.147.205.222])
垢版 |
2020/12/10(木) 16:34:54.00ID:7nBpTtaz0
茨木俊秀著『AI時代の離散数学』に以下の記述があります.

「ディープラーニングがいろいろな分野で成功を収めているのは,多層NNは,複雑でありながら柔軟な構造をもっているので,全体的な最適解でなくても,
品質の高い局所最適解が多数存在するため,最急降下法によってそれらへ至る経路を見出しやすいからではないかと考えられる.」

確かにそうなのではないかと思わざるを得ないのですが,「品質の高い局所最適解が多数存在する」ことについての研究はあるのでしょうか?
0806デフォルトの名無しさん (ワッチョイ 1355-orE1 [59.147.205.222])
垢版 |
2020/12/10(木) 16:36:55.29ID:7nBpTtaz0
損失関数のグラフが一般にどういう形状をしているのかについての研究はないのでしょうか?
0808デフォルトの名無しさん (アウアウエー Sae3-6xLJ [111.239.185.234])
垢版 |
2020/12/10(木) 17:33:01.48ID:sa6E7lY5a
>>806
Visualizing the Loss Landscape of Neural Nets
https://arxiv.org/abs/1712.09913
0810デフォルトの名無しさん (ワッチョイ 1355-orE1 [59.147.205.222])
垢版 |
2020/12/10(木) 19:07:23.07ID:7nBpTtaz0
>>808
ありがとうございます.

>>809
たとえば,f(x) = a*x^2 + b*x + cという関数のグラフは(a≠0であれば)パラメータによらず放物線です.
0811デフォルトの名無しさん (ワッチョイ 1355-orE1 [59.147.205.222])
垢版 |
2020/12/10(木) 19:11:38.70ID:7nBpTtaz0
ところで,ディープラーニングでは,ニューラルネットワークを使って,誤差関数を決めます.

誤差関数を全く別の考え方で決めてやるともっと性能の良い人工知能ができないかと考えて研究している人はいるのでしょうか?
0816デフォルトの名無しさん (ワッチョイ 1355-orE1 [59.147.205.222])
垢版 |
2020/12/10(木) 20:53:11.62ID:7nBpTtaz0
>>812
どういうことでしょうか?

>>813-815
ありがとうございました.


岡谷貴之著『深層学習』を読んでいるのですが,確率的勾配降下法についての素朴な質問です.

Nは全訓練サンプルの数です.
E(w) = Σ_{n=1}^{N} E_n(w)

確率的勾配降下法では,極端な場合,サンプル1つだけを使ってパラメータの更新を行うと書いてあります.
たとえば,n=1のサンプルを使って,wを更新したとします.
このとき,E_1(w)の値は,(学習係数の値が十分小さければ,)少し小さくなりますが,他のnについてのE_n(w)の値は逆に増えてしまい,
トータルの誤差E(w)は増えてしまうということになる恐れはないのでしょうか?

岡谷の本にはそのことについて全く触れていません.
0820デフォルトの名無しさん (ワッチョイ 1355-orE1 [59.147.205.222])
垢版 |
2020/12/10(木) 21:15:25.35ID:7nBpTtaz0
>>819
確率的勾配降下法によって,極小値を与えるwにかならず近づいていくということは証明できるのでしょうか?

勾配降下法では,学習係数が十分小さければ,単調に誤差が減少していき,最終的に,極小値を与えるwに近づいていくことは自明ですが.
0823デフォルトの名無しさん (ワッチョイ 5902-LBAI [118.154.96.7])
垢版 |
2020/12/10(木) 21:40:43.82ID:4I880zB/0
>>820
確率的勾配降下でも、学習率εが十分に小さければ近づく、とされてるね
証明もされてるんだとは思うけど、どこ見ればいいとかは俺はわからない

ところで、欲しいのは極小解じゃなくて大域的最適解だよね?
極小値でよければ最急降下法が一番収束が速い
1サンプルずつ学習する確率的…は極小値にはまらない可能性は高いけど重すぎる
バランスを取ったのがバッチ学習
0824デフォルトの名無しさん (ワッチョイ 0b10-t6eo [153.131.102.129])
垢版 |
2020/12/10(木) 21:40:45.06ID:3MNDS+Jy0
>>816
自分で実験してみるのが1つの方法
初期化後に全データで評価値を計算して
簡単なNNを作ってデータ1つで重みを更新してから
全データで評価値を再計算する

多分増える事もあると思うけどデータを変えて重みを更新していく事で徐々に出力と正解の誤差が小さくなっていくと思う

同じ出力をする入力は同じニューロンが発火して
別の出力をする入力はそれと違うニューロンが発火するよつな感じに学習が進んでいくのかな
0830デフォルトの名無しさん (ワッチョイ 1355-orE1 [59.147.205.222])
垢版 |
2020/12/11(金) 11:31:24.82ID:SUhg1yPU0
みなさん,ありがとうございました.

いろいろな日本語のディープラーニングの本を見てみましたが,確率的勾配降下法がなぜうまくいのかについての説明は全くありませんでした.
0831デフォルトの名無しさん (ワッチョイ 1355-orE1 [59.147.205.222])
垢版 |
2020/12/11(金) 11:34:06.26ID:SUhg1yPU0
まるで,うまくいくのが自明であるかのような扱いです.
確率的勾配降下法に限らず,この分野は常にこのような感じですよね.
0835デフォルトの名無しさん (オッペケ Sra5-6xLJ [126.208.198.69])
垢版 |
2020/12/11(金) 12:57:31.82ID:P9V8rC1yr
>>830
この辺の理論が解明され始めたのは去年頃からだから、まだ本にはなってないよ
知りたければ論文読むかslideshareを探すといい
0846デフォルトの名無しさん (アウアウエー Sae3-6xLJ [111.239.185.234])
垢版 |
2020/12/11(金) 20:04:32.76ID:BgeuQOWca
>>837
深層学習を従来の理論に当てはめると過学習しまくって使い物にならんはず
だが実際学習できて性能も良い
この差は既存の理論では最適化(勾配降下法)のダイナミクスが考慮されていないから
最適化までを考慮して統計理論に結びつける研究が近年進んでいる
0849デフォルトの名無しさん (アウアウエー Sae3-6xLJ [111.239.185.234])
垢版 |
2020/12/11(金) 20:32:43.52ID:BgeuQOWca
していないなんて言ってないよ。考慮されていないと言っただけ
従来はそれで多いな問題はなかったが、深層学習ではパラメーター空間が広大になり最適化法それ自体の制約としての側面が目立つようになった
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況