!extend:on:vvvvvv:1000:512
!extend:on:vvvvvv:1000:512
↑すれたてる毎に1行ずつ減るので、減ってたら3回に増やしてたてること。
機械学習とデータマイニングについて語れ若人
*機械学習に意識・知能は存在しません。
人の意識に触れたい方はスレ違いです。
■前スレ
【統計分析】機械学習・データマイニング28
https://mevius.5ch.net/test/read.cgi/tech/1588293154/
-EOF-
VIPQ2_EXTDAT: default:vvvvvv:1000:512:: EXT was configured
【統計分析】機械学習・データマイニング29
■ このスレッドは過去ログ倉庫に格納されています
1デフォルトの名無しさん (ワッチョイ 7301-KCZZ [60.86.178.93])
2020/08/20(木) 09:16:43.41ID:Av1Lrhjm0751デフォルトの名無しさん (ワッチョイ df10-Emls [153.131.102.129])
2020/12/06(日) 12:57:43.40ID:IFrNRKVs0752デフォルトの名無しさん (ワッチョイ a363-jrSk [180.16.245.192])
2020/12/06(日) 15:10:59.18ID:5Q0wgkp20 >>750
理解してないんだったら書き込まない方がいい
理解してないんだったら書き込まない方がいい
753デフォルトの名無しさん (ワッチョイ 7f55-jrSk [59.147.205.222])
2020/12/06(日) 15:20:36.42ID:u9kukm0H0 バックプロパゲーションについて質問です.
これは結局のところ,与えられた多変数関数のある点での偏導関数の値を求めるのに,素朴な方法よりも計算量が少なくて済む方法ということで間違っていないでしょうか?
日本語のディープラーニングの入門書を見ても,偏導関数の値のバックプロパゲーションによる計算方法だけ載っていて,計算量についての考察がないものばかりのような気がします.
これは結局のところ,与えられた多変数関数のある点での偏導関数の値を求めるのに,素朴な方法よりも計算量が少なくて済む方法ということで間違っていないでしょうか?
日本語のディープラーニングの入門書を見ても,偏導関数の値のバックプロパゲーションによる計算方法だけ載っていて,計算量についての考察がないものばかりのような気がします.
754デフォルトの名無しさん (ワッチョイ df10-Emls [153.131.102.129])
2020/12/06(日) 15:24:12.01ID:IFrNRKVs0 750の表現も間違いではないように思うけどな
正規分布で最尤推定した時と結果が等しくなることもあると思う
確率変数ではないから信頼区間とか検定とかはできないんだろうし
正規分布で最尤推定した時と結果が等しくなることもあると思う
確率変数ではないから信頼区間とか検定とかはできないんだろうし
755デフォルトの名無しさん (ワッチョイ df10-Emls [153.131.102.129])
2020/12/06(日) 15:27:36.98ID:IFrNRKVs0756デフォルトの名無しさん (ワッチョイ a363-jrSk [180.16.245.192])
2020/12/06(日) 15:34:16.59ID:5Q0wgkp20 >>754
理解してないんだったら書き込まない方がいいよ
理解してないんだったら書き込まない方がいいよ
757デフォルトの名無しさん (ワッチョイ 4bda-1fWK [118.16.65.177])
2020/12/06(日) 16:24:23.25ID:jgMLA0Dn0 滑らかな関数なら数値計算した方がいいに決まってるだろう、度勘違い
758デフォルトの名無しさん (アウアウエー Sa5f-YXDh [111.239.191.86])
2020/12/06(日) 16:39:20.46ID:soxd67i8a >>752
どこが間違っているのか分からんので教えて
どこが間違っているのか分からんので教えて
759デフォルトの名無しさん (ワッチョイ df10-Emls [153.131.102.129])
2020/12/06(日) 19:00:06.21ID:IFrNRKVs0 微分するのは評価関数を最小化する、最適化するため
評価関数の値が小さくなる方向にに重みを更新する
評価関数の値が小さくなる方向にに重みを更新する
760デフォルトの名無しさん (ワッチョイ 6302-CWdK [118.154.96.7])
2020/12/06(日) 20:28:21.98ID:8X+3nqvD0 >>753
素朴な方法って総当たり法のことかな?
バックプロパゲーションで学習ができることは理論的裏付けがなくて単なる経験則らしい
条件によって収束までのステップ数はえらく変わるし、そもそも収束する保証もないので
見積りもできないのだろう
素朴な方法って総当たり法のことかな?
バックプロパゲーションで学習ができることは理論的裏付けがなくて単なる経験則らしい
条件によって収束までのステップ数はえらく変わるし、そもそも収束する保証もないので
見積りもできないのだろう
761デフォルトの名無しさん (スッップ Sdaf-l649 [49.98.172.22])
2020/12/06(日) 20:35:30.68ID:19ceK5s6d 746です。
とりあえずα=0とした場合、
平均が(βx_1, ... , βx_n)、共分散行列が(σ^2)I_nとなる適当な確率分布でやれば全てうまくいきそうです。
ありがとうございました。
とりあえずα=0とした場合、
平均が(βx_1, ... , βx_n)、共分散行列が(σ^2)I_nとなる適当な確率分布でやれば全てうまくいきそうです。
ありがとうございました。
762デフォルトの名無しさん (ワッチョイ 9b63-jrSk [122.24.72.247])
2020/12/06(日) 21:13:36.24ID:sTMJqw3/0 そんなもんでうまくいくわけないだろ
763デフォルトの名無しさん (オッペケ Sr27-l649 [126.194.204.198])
2020/12/06(日) 21:33:14.20ID:goV+sQHPr >>762
仮説検定とかをするなら流石に正規分布まで仮定しないとうまくいかないですが、
βハットが最良線形不偏推定量であることやσ^2の推定までは全てうまくいってしまってます。
間違ってるんですかね?
仮説検定とかをするなら流石に正規分布まで仮定しないとうまくいかないですが、
βハットが最良線形不偏推定量であることやσ^2の推定までは全てうまくいってしまってます。
間違ってるんですかね?
764デフォルトの名無しさん (ワッチョイ 1363-jrSk [114.150.119.49])
2020/12/06(日) 21:37:03.88ID:+8xXEz990 推定量の次元がα、βの2次元なのに
>平均が(βx_1, ... , βx_n)、共分散行列が(σ^2)I_nとなる適当な確率分布でやれば全てうまくいきそうです。
とか言っている時点で間違っていると気づくべき
>平均が(βx_1, ... , βx_n)、共分散行列が(σ^2)I_nとなる適当な確率分布でやれば全てうまくいきそうです。
とか言っている時点で間違っていると気づくべき
765デフォルトの名無しさん (ワッチョイ ef52-7bzM [118.243.75.50])
2020/12/06(日) 21:37:16.47ID:Xe0eSxQ/0 えー(笑)
766デフォルトの名無しさん (ワッチョイ df10-bzs8 [153.131.102.129])
2020/12/06(日) 21:41:38.03ID:IFrNRKVs0 回帰式はn個って事なのか?
α、βってスカラーじゃないのか
データ数はいくつあるのかな?
α、βってスカラーじゃないのか
データ数はいくつあるのかな?
767デフォルトの名無しさん (オッペケ Sr27-l649 [126.194.204.198])
2020/12/06(日) 21:47:49.35ID:goV+sQHPr768デフォルトの名無しさん (ワッチョイ df10-Emls [153.131.102.129])
2020/12/06(日) 21:53:18.02ID:IFrNRKVs0 平均が(βx_1,,,)って何?
769デフォルトの名無しさん (ワッチョイ 1363-jrSk [114.150.119.49])
2020/12/06(日) 21:55:08.75ID:+8xXEz990 >推定量がyに関して2次以下ならこの仮定だけで計算できませんか?
意味不明
>nがサンプル数でβ∈Rを想定していますが、特に変更なくm変数でも議論できる気がしています。
これも意味不明だが、回帰分析において推定したいパラメータの次元は
2でも一般のmでも(サンプルサイズを下回っている限りは)特に議論は変わらない
というか、こんなの学部生レベルのお話なんだからこんなところで聞かなくても
ググれば計算過程込みでいくらでも出てくるだろ…
答えだけ書けば(仮定にもよるが標準的な仮定の下では)
\hat{α}, \hat{β}は不偏推定量になる
意味不明
>nがサンプル数でβ∈Rを想定していますが、特に変更なくm変数でも議論できる気がしています。
これも意味不明だが、回帰分析において推定したいパラメータの次元は
2でも一般のmでも(サンプルサイズを下回っている限りは)特に議論は変わらない
というか、こんなの学部生レベルのお話なんだからこんなところで聞かなくても
ググれば計算過程込みでいくらでも出てくるだろ…
答えだけ書けば(仮定にもよるが標準的な仮定の下では)
\hat{α}, \hat{β}は不偏推定量になる
770デフォルトの名無しさん (オッペケ Sr27-l649 [126.194.204.198])
2020/12/06(日) 21:58:03.70ID:goV+sQHPr >>768
R^n上の確率分布pで、
平均μ=E_p[x]=(βかけるx_1,...,βかけるx_n)で、
分散共分散行列がn×n行列で対角線上にσ^2が並んだものを想定しています。
例えば正規分布などはこれに当てはまると思います。
R^n上の確率分布pで、
平均μ=E_p[x]=(βかけるx_1,...,βかけるx_n)で、
分散共分散行列がn×n行列で対角線上にσ^2が並んだものを想定しています。
例えば正規分布などはこれに当てはまると思います。
771デフォルトの名無しさん (ワッチョイ 7f55-jrSk [59.147.205.222])
2020/12/06(日) 22:01:55.24ID:u9kukm0H0 岡谷貴之の本のバックプロパゲーションの説明が一番わかり易いようです.
772デフォルトの名無しさん (ワッチョイ df10-Emls [153.131.102.129])
2020/12/06(日) 22:04:28.76ID:IFrNRKVs0 n次元ベクトルでデータ数はn?
データ足りないような
最小二乗法ならn次元ベクトルは確率変数じゃなくても良いんじゃないの?
回帰式がn個あるのと実質同じじゃないのかな?
データ足りないような
最小二乗法ならn次元ベクトルは確率変数じゃなくても良いんじゃないの?
回帰式がn個あるのと実質同じじゃないのかな?
773デフォルトの名無しさん (オッペケ Sr27-l649 [126.194.204.198])
2020/12/06(日) 22:10:30.75ID:goV+sQHPr >>772
推定しようとしている傾きβはスカラーですよ?
推定しようとしている傾きβはスカラーですよ?
774デフォルトの名無しさん (ワッチョイ cf63-jrSk [153.169.28.216])
2020/12/06(日) 22:18:21.61ID:qwI8u5MK0775デフォルトの名無しさん (ワッチョイ 4bda-1fWK [118.16.65.177])
2020/12/06(日) 22:23:26.26ID:jgMLA0Dn0 俺俺
776デフォルトの名無しさん (オッペケ Sr27-l649 [126.194.204.198])
2020/12/06(日) 22:28:19.17ID:goV+sQHPr777デフォルトの名無しさん (ワッチョイ cf63-jrSk [153.169.28.216])
2020/12/06(日) 22:31:39.99ID:qwI8u5MK0 その確率分布pに従うのはなに?それを聞いてるんだが
778デフォルトの名無しさん (ワッチョイ 17b2-GNfD [202.221.186.197])
2020/12/06(日) 22:32:43.51ID:E6YSEnmp0 例えば、株価予測にCNNを使う場合、畳み込みのカーネルはどんなの用意すればええんや?
779デフォルトの名無しさん (ワッチョイ cf63-jrSk [153.169.28.216])
2020/12/06(日) 22:32:59.63ID:qwI8u5MK0 ん?μ=E_p[x]ってことは説明変数の期待値がμだって言いたいの?
780デフォルトの名無しさん (オッペケ Sr27-l649 [126.194.204.198])
2020/12/06(日) 22:34:23.05ID:goV+sQHPr >>777
(Y_1, ... , Y_n) ~ pです。
(Y_1, ... , Y_n) ~ pです。
781デフォルトの名無しさん (オッペケ Sr27-l649 [126.194.204.198])
2020/12/06(日) 22:36:01.56ID:goV+sQHPr782デフォルトの名無しさん (ワッチョイ cf63-jrSk [153.169.28.216])
2020/12/06(日) 22:41:05.48ID:qwI8u5MK0 yの平均値ならαを足さないとだめでしょ
それとも定数項なしのモデルでも考えたいの?
それとも定数項なしのモデルでも考えたいの?
783デフォルトの名無しさん (オッペケ Sr27-l649 [126.194.204.198])
2020/12/06(日) 22:43:41.40ID:goV+sQHPr784デフォルトの名無しさん (ワッチョイ 6302-CWdK [118.154.96.7])
2020/12/06(日) 23:02:45.31ID:8X+3nqvD0785デフォルトの名無しさん (ワッチョイ 7f55-jrSk [59.147.205.222])
2020/12/07(月) 12:44:07.26ID:n2wcT9Ah0 みなさん,ありがとうございました.
岡谷の本を見ていますが,やはり,バックプロパゲーションは偏導関数のある点での値をより速く求める方法にすぎないということのようですね.
そしてその偏導関数の値を勾配降下法で利用するということですね.
ディープラーニングというのは結局の所,あるタイプの最小化したい誤差関数を一つ定め,それを勾配降下法でできる限り小さくする手法ということのようですね.
最適化の一分野ということですね.
岡谷の本を見ていますが,やはり,バックプロパゲーションは偏導関数のある点での値をより速く求める方法にすぎないということのようですね.
そしてその偏導関数の値を勾配降下法で利用するということですね.
ディープラーニングというのは結局の所,あるタイプの最小化したい誤差関数を一つ定め,それを勾配降下法でできる限り小さくする手法ということのようですね.
最適化の一分野ということですね.
786デフォルトの名無しさん (ワッチョイ 7f55-jrSk [59.147.205.222])
2020/12/07(月) 12:48:00.49ID:n2wcT9Ah0 パラメーターで変化する誤差関数のテストデータに対する値をパラメーターを変化させて,できる限り小さくするというだけのことのようですね.
夢も何もないただの最適化法の一分野ですね.
夢も何もないただの最適化法の一分野ですね.
787デフォルトの名無しさん (アウアウエー Sa5f-odBm [111.239.254.198])
2020/12/07(月) 12:58:43.69ID:IRFWetkha 昔はそれが出来なかったんやで
788デフォルトの名無しさん (ワッチョイ ef52-7bzM [118.243.75.50])
2020/12/07(月) 13:21:17.07ID:hKQAJJ360 当たり前の事をw
最近はバックグラウンドまで教えないのかな
最近はバックグラウンドまで教えないのかな
789デフォルトの名無しさん (アウアウエー Sa5f-odBm [111.239.254.198])
2020/12/07(月) 13:47:12.12ID:IRFWetkha 夢でもなんでもないことを組み合わせたら精度が人間並になる場合があり、こいつらの得意分野は任せちゃっていいかもな。って感じだっしょ
790デフォルトの名無しさん (ワッチョイ 7f55-jrSk [59.147.205.222])
2020/12/07(月) 13:49:29.21ID:n2wcT9Ah0 https://www.youtube.com/playlist?list=PLUl4u3cNGP63oMNUHXqIUcrkS2PivhN3k
Strang教授のこのビデオ講義シリーズを見た人はいませんか?
なんか非常に簡単なことでつっかえて,結局何も示せずに,簡単だから自分でやってくださいとかいう場面が多すぎます.
Strang教授のこのビデオ講義シリーズを見た人はいませんか?
なんか非常に簡単なことでつっかえて,結局何も示せずに,簡単だから自分でやってくださいとかいう場面が多すぎます.
791デフォルトの名無しさん (ワッチョイ 4bda-1fWK [118.16.65.177])
2020/12/07(月) 13:53:25.11ID:BAhcRg/D0 ID:n2wcT9Ah0は馬鹿アスペという荒らしなのでスルーしてね
792デフォルトの名無しさん (ワッチョイ df10-Emls [153.131.102.129])
2020/12/07(月) 19:29:51.63ID:HAgX6+pQ0 最適化も局所最適解でしかないかもしれない
大極的な最適解かどうかは組合せ爆発して解けない事が多い
大極的な最適解かどうかは組合せ爆発して解けない事が多い
793デフォルトの名無しさん (ワッチョイ 1701-x2Qk [126.25.239.8])
2020/12/08(火) 20:56:04.92ID:4EYeOh4b0 技術的にフルバッチで最適化できてたら汎化性能が出なかったわけで、deep learningが最適化というと
なんか違う気はする。
なんか違う気はする。
794デフォルトの名無しさん (ワッチョイ ef52-7bzM [118.243.75.50])
2020/12/08(火) 22:45:24.29ID:WiM29EDw0 それってノーフリーランチ定理と関係ある?
795デフォルトの名無しさん (ワッチョイ 59da-9ESD [118.16.65.177])
2020/12/09(水) 15:22:39.17ID:4uClczgm0 ノーブリーフは気持ちがいい
796デフォルトの名無しさん (ワッチョイ 3901-LBAI [220.56.102.222])
2020/12/09(水) 17:41:00.51ID:kJMhAlw60 「Waymo」の自動運転車に60回以上乗って分かったその安全性とは?
https://gigazine.net/news/20201208-waymo-driverless-tech/
「Waymo」の完全自動運転は評価いいみたいだぞ
https://gigazine.net/news/20201208-waymo-driverless-tech/
「Waymo」の完全自動運転は評価いいみたいだぞ
797デフォルトの名無しさん (ワッチョイ 0b10-/9i7 [153.131.102.129])
2020/12/09(水) 19:08:22.67ID:+JEohQBS0 >>793
評価関数を最適化するって事で
学習データに対して最適化すると
過学習して汎化性能が悪い事になる
学習データと運用データの差があるのが問題の1つ
実運用データを完全網羅して学習したら過学習にはならないんじゃないかと思う
評価関数を最適化するって事で
学習データに対して最適化すると
過学習して汎化性能が悪い事になる
学習データと運用データの差があるのが問題の1つ
実運用データを完全網羅して学習したら過学習にはならないんじゃないかと思う
798デフォルトの名無しさん (ワッチョイ 5952-74Z4 [118.243.75.50])
2020/12/09(水) 19:12:58.69ID:O9/kA4vd0 >>796
慎重すぎるって批判されてるやん
慎重すぎるって批判されてるやん
799デフォルトの名無しさん (ワッチョイ 3901-LBAI [220.56.102.222])
2020/12/09(水) 19:19:54.28ID:kJMhAlw60 Ars Technicaはこの点について、「歩行者がいる場面では、Waymoは慎重すぎます。人間のドライバーであれば、
間違いなくもっと速く動けるでしょう。しかし、このことでWaymoを責めるのは困難です。人をはねる危険を冒すくらいなら、
多少待たされた方がはるかにマシですから」とコメントしました。
不満はあれど批判できないってところだろうな
間違いなくもっと速く動けるでしょう。しかし、このことでWaymoを責めるのは困難です。人をはねる危険を冒すくらいなら、
多少待たされた方がはるかにマシですから」とコメントしました。
不満はあれど批判できないってところだろうな
800デフォルトの名無しさん (ワッチョイ 5902-LBAI [118.154.96.7])
2020/12/09(水) 20:15:28.61ID:EU/X14pa0 パナソニックがこんなのを始めるらしいが、人込みでは遠隔手動操作なんだな。。。
https://news.yahoo.co.jp/articles/e8eb753857c1b796b95d9f5346b9af0a9873f921
https://news.yahoo.co.jp/articles/e8eb753857c1b796b95d9f5346b9af0a9873f921
801デフォルトの名無しさん (ワッチョイ 5952-74Z4 [118.243.75.50])
2020/12/09(水) 21:13:02.28ID:O9/kA4vd0 まあこういう実証実験を積み重ねていけばいつかはものになるだろ
802デフォルトの名無しさん (ワッチョイ 59da-9ESD [118.16.65.177])
2020/12/09(水) 21:47:02.66ID:4uClczgm0 どこでもやってる
803デフォルトの名無しさん (ワッチョイ 3901-LBAI [220.56.102.222])
2020/12/09(水) 23:05:26.02ID:kJMhAlw60 日本は装置内のハードやソフトだけで成り立たせて製品単体として売るぐらいだろう
「危ないところは人が見てくださいね」っていう仕様で
IT云々と絡めたり、別のサービスと絡むようなことはないだろう
日本が出来るのは
製品単体をマニアック仕様にして高く売りつけることぐらいで
車内のカメラも踏まえ、、、いろんなデータをいち早く収集し
売上に繋げて行くんだろうな
「危ないところは人が見てくださいね」っていう仕様で
IT云々と絡めたり、別のサービスと絡むようなことはないだろう
日本が出来るのは
製品単体をマニアック仕様にして高く売りつけることぐらいで
車内のカメラも踏まえ、、、いろんなデータをいち早く収集し
売上に繋げて行くんだろうな
804デフォルトの名無しさん (ワッチョイ 5952-ojTD [118.243.75.50])
2020/12/10(木) 11:21:32.39ID:+ZlzWDd90 Transformer-based Double-token Bidirectional Autoregressive Decodingin Neural Machine Translation
https://www.aclweb.org/anthology/2020.wat-1.3.pdf
精度を上げるつもりでL2RとR2Lを組み込んだんだろうけど
精度を下げてて草
しょうもなくて「速度が〜」に方針転換しててさらに草
https://www.aclweb.org/anthology/2020.wat-1.3.pdf
精度を上げるつもりでL2RとR2Lを組み込んだんだろうけど
精度を下げてて草
しょうもなくて「速度が〜」に方針転換しててさらに草
805デフォルトの名無しさん (ワッチョイ 1355-orE1 [59.147.205.222])
2020/12/10(木) 16:34:54.00ID:7nBpTtaz0 茨木俊秀著『AI時代の離散数学』に以下の記述があります.
「ディープラーニングがいろいろな分野で成功を収めているのは,多層NNは,複雑でありながら柔軟な構造をもっているので,全体的な最適解でなくても,
品質の高い局所最適解が多数存在するため,最急降下法によってそれらへ至る経路を見出しやすいからではないかと考えられる.」
確かにそうなのではないかと思わざるを得ないのですが,「品質の高い局所最適解が多数存在する」ことについての研究はあるのでしょうか?
「ディープラーニングがいろいろな分野で成功を収めているのは,多層NNは,複雑でありながら柔軟な構造をもっているので,全体的な最適解でなくても,
品質の高い局所最適解が多数存在するため,最急降下法によってそれらへ至る経路を見出しやすいからではないかと考えられる.」
確かにそうなのではないかと思わざるを得ないのですが,「品質の高い局所最適解が多数存在する」ことについての研究はあるのでしょうか?
806デフォルトの名無しさん (ワッチョイ 1355-orE1 [59.147.205.222])
2020/12/10(木) 16:36:55.29ID:7nBpTtaz0 損失関数のグラフが一般にどういう形状をしているのかについての研究はないのでしょうか?
807デフォルトの名無しさん (アウアウウー Safd-Y1oi [106.180.10.34])
2020/12/10(木) 17:05:54.60ID:/Tdm9YCRa 一般にかあ。それは大変な研究になりそう
808デフォルトの名無しさん (アウアウエー Sae3-6xLJ [111.239.185.234])
2020/12/10(木) 17:33:01.48ID:sa6E7lY5a809デフォルトの名無しさん (ワッチョイ 5952-74Z4 [118.243.75.50])
2020/12/10(木) 19:01:42.77ID:+ZlzWDd90 問題やパラメータによって形状は変わるんじゃないの?
一般的な議論をするのって難しくない?
一般的な議論をするのって難しくない?
810デフォルトの名無しさん (ワッチョイ 1355-orE1 [59.147.205.222])
2020/12/10(木) 19:07:23.07ID:7nBpTtaz0811デフォルトの名無しさん (ワッチョイ 1355-orE1 [59.147.205.222])
2020/12/10(木) 19:11:38.70ID:7nBpTtaz0 ところで,ディープラーニングでは,ニューラルネットワークを使って,誤差関数を決めます.
誤差関数を全く別の考え方で決めてやるともっと性能の良い人工知能ができないかと考えて研究している人はいるのでしょうか?
誤差関数を全く別の考え方で決めてやるともっと性能の良い人工知能ができないかと考えて研究している人はいるのでしょうか?
812デフォルトの名無しさん (アウアウウー Safd-Y1oi [106.180.10.34])
2020/12/10(木) 19:17:10.67ID:/Tdm9YCRa 誤差関数ってネットワークそのもの?
813デフォルトの名無しさん (ワッチョイ 5952-74Z4 [118.243.75.50])
2020/12/10(木) 19:19:51.95ID:+ZlzWDd90814デフォルトの名無しさん (ワッチョイ 7901-MC0k [60.69.230.42])
2020/12/10(木) 19:34:03.65ID:qJWGxKCt0 目的関数が異なるモデル同士は性能を比較できないんじゃない?
目的関数の他に最適性の指標となる評価関数があるなら別だけど。
目的関数の他に最適性の指標となる評価関数があるなら別だけど。
815デフォルトの名無しさん (ワッチョイ 5902-LBAI [118.154.96.7])
2020/12/10(木) 20:12:15.89ID:4I880zB/0816デフォルトの名無しさん (ワッチョイ 1355-orE1 [59.147.205.222])
2020/12/10(木) 20:53:11.62ID:7nBpTtaz0 >>812
どういうことでしょうか?
>>813-815
ありがとうございました.
岡谷貴之著『深層学習』を読んでいるのですが,確率的勾配降下法についての素朴な質問です.
Nは全訓練サンプルの数です.
E(w) = Σ_{n=1}^{N} E_n(w)
確率的勾配降下法では,極端な場合,サンプル1つだけを使ってパラメータの更新を行うと書いてあります.
たとえば,n=1のサンプルを使って,wを更新したとします.
このとき,E_1(w)の値は,(学習係数の値が十分小さければ,)少し小さくなりますが,他のnについてのE_n(w)の値は逆に増えてしまい,
トータルの誤差E(w)は増えてしまうということになる恐れはないのでしょうか?
岡谷の本にはそのことについて全く触れていません.
どういうことでしょうか?
>>813-815
ありがとうございました.
岡谷貴之著『深層学習』を読んでいるのですが,確率的勾配降下法についての素朴な質問です.
Nは全訓練サンプルの数です.
E(w) = Σ_{n=1}^{N} E_n(w)
確率的勾配降下法では,極端な場合,サンプル1つだけを使ってパラメータの更新を行うと書いてあります.
たとえば,n=1のサンプルを使って,wを更新したとします.
このとき,E_1(w)の値は,(学習係数の値が十分小さければ,)少し小さくなりますが,他のnについてのE_n(w)の値は逆に増えてしまい,
トータルの誤差E(w)は増えてしまうということになる恐れはないのでしょうか?
岡谷の本にはそのことについて全く触れていません.
817デフォルトの名無しさん (ワッチョイ 59da-9ESD [118.16.65.177])
2020/12/10(木) 20:54:09.43ID:Zy+JpGE80 Courseraを勉強して自慢していた馬鹿アスペ
818デフォルトの名無しさん (ワッチョイ 1355-orE1 [59.147.205.222])
2020/12/10(木) 21:00:00.66ID:7nBpTtaz0 バッチ学習をした後で,テストデータに対して,誤差関数の値が本当に小さくなるのかというのと似たような問題かもしれませんね.
819デフォルトの名無しさん (ワッチョイ 5902-LBAI [118.154.96.7])
2020/12/10(木) 21:12:09.60ID:4I880zB/0 >>816
> トータルの誤差E(w)は増えてしまうということになる恐れはないのでしょうか?
普通にあるよ
増えたり減ったりしながら徐々に正解に近づいていくイメージ
振動するおかげで極小解から脱出できるチャンスが増える
> トータルの誤差E(w)は増えてしまうということになる恐れはないのでしょうか?
普通にあるよ
増えたり減ったりしながら徐々に正解に近づいていくイメージ
振動するおかげで極小解から脱出できるチャンスが増える
820デフォルトの名無しさん (ワッチョイ 1355-orE1 [59.147.205.222])
2020/12/10(木) 21:15:25.35ID:7nBpTtaz0 >>819
確率的勾配降下法によって,極小値を与えるwにかならず近づいていくということは証明できるのでしょうか?
勾配降下法では,学習係数が十分小さければ,単調に誤差が減少していき,最終的に,極小値を与えるwに近づいていくことは自明ですが.
確率的勾配降下法によって,極小値を与えるwにかならず近づいていくということは証明できるのでしょうか?
勾配降下法では,学習係数が十分小さければ,単調に誤差が減少していき,最終的に,極小値を与えるwに近づいていくことは自明ですが.
821デフォルトの名無しさん (ワッチョイ 0b10-t6eo [153.131.102.129])
2020/12/10(木) 21:27:23.48ID:3MNDS+Jy0 >>814
最終的な性能は正解率とか指標があるでしょう
最終的な性能は正解率とか指標があるでしょう
822デフォルトの名無しさん (ワッチョイ 0b10-t6eo [153.131.102.129])
2020/12/10(木) 21:30:19.62ID:3MNDS+Jy0823デフォルトの名無しさん (ワッチョイ 5902-LBAI [118.154.96.7])
2020/12/10(木) 21:40:43.82ID:4I880zB/0 >>820
確率的勾配降下でも、学習率εが十分に小さければ近づく、とされてるね
証明もされてるんだとは思うけど、どこ見ればいいとかは俺はわからない
ところで、欲しいのは極小解じゃなくて大域的最適解だよね?
極小値でよければ最急降下法が一番収束が速い
1サンプルずつ学習する確率的…は極小値にはまらない可能性は高いけど重すぎる
バランスを取ったのがバッチ学習
確率的勾配降下でも、学習率εが十分に小さければ近づく、とされてるね
証明もされてるんだとは思うけど、どこ見ればいいとかは俺はわからない
ところで、欲しいのは極小解じゃなくて大域的最適解だよね?
極小値でよければ最急降下法が一番収束が速い
1サンプルずつ学習する確率的…は極小値にはまらない可能性は高いけど重すぎる
バランスを取ったのがバッチ学習
824デフォルトの名無しさん (ワッチョイ 0b10-t6eo [153.131.102.129])
2020/12/10(木) 21:40:45.06ID:3MNDS+Jy0 >>816
自分で実験してみるのが1つの方法
初期化後に全データで評価値を計算して
簡単なNNを作ってデータ1つで重みを更新してから
全データで評価値を再計算する
多分増える事もあると思うけどデータを変えて重みを更新していく事で徐々に出力と正解の誤差が小さくなっていくと思う
同じ出力をする入力は同じニューロンが発火して
別の出力をする入力はそれと違うニューロンが発火するよつな感じに学習が進んでいくのかな
自分で実験してみるのが1つの方法
初期化後に全データで評価値を計算して
簡単なNNを作ってデータ1つで重みを更新してから
全データで評価値を再計算する
多分増える事もあると思うけどデータを変えて重みを更新していく事で徐々に出力と正解の誤差が小さくなっていくと思う
同じ出力をする入力は同じニューロンが発火して
別の出力をする入力はそれと違うニューロンが発火するよつな感じに学習が進んでいくのかな
825デフォルトの名無しさん (ワッチョイ 0b10-t6eo [153.131.102.129])
2020/12/10(木) 21:45:21.96ID:3MNDS+Jy0826デフォルトの名無しさん (ワッチョイ 0b10-t6eo [153.131.102.129])
2020/12/10(木) 22:51:59.08ID:3MNDS+Jy0 思い出した
鞍点とかあるとそこで止まるとかあったような
鞍点とかあるとそこで止まるとかあったような
827デフォルトの名無しさん (ワッチョイ e901-qdUP [126.25.239.8])
2020/12/10(木) 23:37:19.21ID:feZOjJB+0 正しいけれど全く意味のない話というやつだな。
828デフォルトの名無しさん (ササクッテロ Spa5-t6eo [126.33.131.200])
2020/12/11(金) 09:59:56.91ID:YXM/kAxOp 意味があるかは解釈によっても変わる
道具が同じでも上手く使える人とそうではない人がいる
既存の技術を上手く使って問題解決できた人もいるからな
道具が同じでも上手く使える人とそうではない人がいる
既存の技術を上手く使って問題解決できた人もいるからな
829デフォルトの名無しさん (ワッチョイ a1da-9ESD [114.183.142.212])
2020/12/11(金) 10:40:32.12ID:Fdk3ZWWm0 馬鹿アスペの相手してる5902-LBAIだろ
830デフォルトの名無しさん (ワッチョイ 1355-orE1 [59.147.205.222])
2020/12/11(金) 11:31:24.82ID:SUhg1yPU0 みなさん,ありがとうございました.
いろいろな日本語のディープラーニングの本を見てみましたが,確率的勾配降下法がなぜうまくいのかについての説明は全くありませんでした.
いろいろな日本語のディープラーニングの本を見てみましたが,確率的勾配降下法がなぜうまくいのかについての説明は全くありませんでした.
831デフォルトの名無しさん (ワッチョイ 1355-orE1 [59.147.205.222])
2020/12/11(金) 11:34:06.26ID:SUhg1yPU0 まるで,うまくいくのが自明であるかのような扱いです.
確率的勾配降下法に限らず,この分野は常にこのような感じですよね.
確率的勾配降下法に限らず,この分野は常にこのような感じですよね.
832デフォルトの名無しさん (ワッチョイ a1da-9ESD [114.183.142.212])
2020/12/11(金) 12:05:23.95ID:Fdk3ZWWm0 1355-orE1は馬鹿アスペなのでスルーよろしく
833デフォルトの名無しさん (ワッチョイ 5952-74Z4 [118.243.75.50])
2020/12/11(金) 12:12:51.28ID:vXWM25Of0 わかんないことがあれば自分で調べればいいのにね(笑)
834デフォルトの名無しさん (ワッチョイ a1da-9ESD [114.183.142.212])
2020/12/11(金) 12:31:18.86ID:Fdk3ZWWm0 馬鹿アスペは岡山県なんだ
835デフォルトの名無しさん (オッペケ Sra5-6xLJ [126.208.198.69])
2020/12/11(金) 12:57:31.82ID:P9V8rC1yr836デフォルトの名無しさん (ワッチョイ 7901-MC0k [60.69.230.42])
2020/12/11(金) 13:21:05.48ID:Wsx93R0l0 馬鹿と決めつけるより具体的に反論した方が生産的な気もする
837デフォルトの名無しさん (アウアウウー Safd-t6eo [106.154.8.245])
2020/12/11(金) 14:21:14.42ID:keBMi+cGa 深層学習じゃない機械学習では誤差が小さくなる事とか条件とか証明されていると思うけどな
深層学習もそれからの類推か包含しているかじゃないか?
深層学習もそれからの類推か包含しているかじゃないか?
838デフォルトの名無しさん (アウアウウー Safd-orE1 [106.154.128.125])
2020/12/11(金) 14:24:14.84ID:76SqqmH2a839デフォルトの名無しさん (ワッチョイ a1da-9ESD [114.183.142.212])
2020/12/11(金) 14:59:05.47ID:Fdk3ZWWm0 荒らしに反論するのが生産的w、2ch素人かよ
840デフォルトの名無しさん (アウアウウー Safd-Y1oi [106.180.11.203])
2020/12/11(金) 15:07:06.98ID:XbH1RnBla 暇な数学者が冷やかしに来たようだ
841デフォルトの名無しさん (ワッチョイ a1da-9ESD [114.183.142.212])
2020/12/11(金) 15:58:16.06ID:Fdk3ZWWm0 数学者?何処にいるの?
842デフォルトの名無しさん (アウアウウー Safd-Y1oi [106.180.11.203])
2020/12/11(金) 16:05:14.18ID:XbH1RnBla 数学徒にしとく
843デフォルトの名無しさん (ワッチョイ 7901-MC0k [60.69.230.42])
2020/12/11(金) 16:18:38.39ID:Wsx93R0l0 荒らしってほどでもないような…
判らないのであれば、判らないと答えればいい。
それか参考になりそうな論文を紹介するとかね。
判らないのであれば、判らないと答えればいい。
それか参考になりそうな論文を紹介するとかね。
844デフォルトの名無しさん (ワッチョイ a1da-9ESD [114.183.142.212])
2020/12/11(金) 16:23:08.91ID:Fdk3ZWWm0 ぷ板にあげるよ、遊んであげてw
845デフォルトの名無しさん (ワッチョイ a1da-kNbH [114.183.142.212])
2020/12/11(金) 17:08:46.05ID:Fdk3ZWWm0 それから馬鹿アスぺはアルゴリズムの本を読んでいてプログラムの才能はないとぷ板の住人にで言われてる
846デフォルトの名無しさん (アウアウエー Sae3-6xLJ [111.239.185.234])
2020/12/11(金) 20:04:32.76ID:BgeuQOWca >>837
深層学習を従来の理論に当てはめると過学習しまくって使い物にならんはず
だが実際学習できて性能も良い
この差は既存の理論では最適化(勾配降下法)のダイナミクスが考慮されていないから
最適化までを考慮して統計理論に結びつける研究が近年進んでいる
深層学習を従来の理論に当てはめると過学習しまくって使い物にならんはず
だが実際学習できて性能も良い
この差は既存の理論では最適化(勾配降下法)のダイナミクスが考慮されていないから
最適化までを考慮して統計理論に結びつける研究が近年進んでいる
847デフォルトの名無しさん (ワッチョイ 0b10-t6eo [153.131.102.129])
2020/12/11(金) 20:20:07.66ID:5sai34i/0 最適化関連の過去の研究結果が何一つ活用できない?
数学的にある値、例えば誤差がある範囲に入る確率とか、の上限が示されていたりする事は活用できるだろう
数学的にある値、例えば誤差がある範囲に入る確率とか、の上限が示されていたりする事は活用できるだろう
848デフォルトの名無しさん (ワッチョイ 0b10-t6eo [153.131.102.129])
2020/12/11(金) 20:21:49.67ID:5sai34i/0 他の機械学習に勾配降下と同等の操作をしていないと言うのは何故そう思う?
849デフォルトの名無しさん (アウアウエー Sae3-6xLJ [111.239.185.234])
2020/12/11(金) 20:32:43.52ID:BgeuQOWca していないなんて言ってないよ。考慮されていないと言っただけ
従来はそれで多いな問題はなかったが、深層学習ではパラメーター空間が広大になり最適化法それ自体の制約としての側面が目立つようになった
従来はそれで多いな問題はなかったが、深層学習ではパラメーター空間が広大になり最適化法それ自体の制約としての側面が目立つようになった
850デフォルトの名無しさん (アウアウエー Sae3-6xLJ [111.239.185.234])
2020/12/11(金) 20:36:27.83ID:BgeuQOWca http://ibis.t.u-tokyo.ac.jp/suzuki/lecture/2020/intensive2/KyusyuStatZemi2020.pdf
最近の深層学習理論が纏められている
読むと良い
最近の深層学習理論が纏められている
読むと良い
■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 【中国外務省】日中関係悪化は高市氏に責任と名指しで非難… [BFU★]
- 【中国外務省】日中関係悪化は高市氏に責任と名指しで非難… ★2 [BFU★]
- 外務省局長は無言で厳しい表情…日中の高官協議終了か 高市首相“台湾”発言で中国が強硬対応 発言撤回求めたか…★2 [BFU★]
- 小野田紀美・経済安保担当相「何か気に入らないことがあればすぐに経済的威圧をする国への依存はリスク」 [Hitzeschleier★]
- 政府、株式の配当など金融所得を高齢者の医療保険料や窓口負担に反映する方針を固めた [バイト歴50年★]
- 【維新】吉村知事「中国人観光客だけに頼るビジネスモデル変えていかないといけない」「高市総理の発言は撤回する必要はない」 [Hitzeschleier★]
- 中国高官と話す外務省局長の表情、やばい [175344491]
- 【悲報】ジャップ、どうやら中国が一方的に戦争仕掛けてくると思ってる模様😰 [616817505]
- 小野田経済安保相「すぐに経済的威圧するところへの依存はリスク」😲 [861717324]
- 中国外務省「日中関係の悪化は高市早苗首相が原因」と名指しで強く非難。キタ━(゚∀゚)━! [153490809]
- 【高市速報】明日から中国からの輸入が停止すれば2ヵ月で国内の生産業に53兆円の損失発生 [931948549]
- 日本政府「高市総理の発言は問題ないと伝え、中国総領事のSNS投稿は問題があると中国に伝えました😊」 [931948549]
