>>812
どういうことでしょうか?

>>813-815
ありがとうございました.


岡谷貴之著『深層学習』を読んでいるのですが,確率的勾配降下法についての素朴な質問です.

Nは全訓練サンプルの数です.
E(w) = Σ_{n=1}^{N} E_n(w)

確率的勾配降下法では,極端な場合,サンプル1つだけを使ってパラメータの更新を行うと書いてあります.
たとえば,n=1のサンプルを使って,wを更新したとします.
このとき,E_1(w)の値は,(学習係数の値が十分小さければ,)少し小さくなりますが,他のnについてのE_n(w)の値は逆に増えてしまい,
トータルの誤差E(w)は増えてしまうということになる恐れはないのでしょうか?

岡谷の本にはそのことについて全く触れていません.