【統計分析】機械学習・データマイニング29

2020/12/10(木) 20:53:11.62

>>812
どういうことでしょうか？

>>813-815
ありがとうございました．

岡谷貴之著『深層学習』を読んでいるのですが，確率的勾配降下法についての素朴な質問です．

Nは全訓練サンプルの数です．
E(w) = Σ_{n=1}^{N} E_n(w)

確率的勾配降下法では，極端な場合，サンプル1つだけを使ってパラメータの更新を行うと書いてあります．
たとえば，n=1のサンプルを使って，wを更新したとします．
このとき，E_1(w)の値は，（学習係数の値が十分小さければ，）少し小さくなりますが，他のnについてのE_n(w)の値は逆に増えてしまい，
トータルの誤差E(w)は増えてしまうということになる恐れはないのでしょうか？

岡谷の本にはそのことについて全く触れていません．