確率的勾配降下法について質問です。

E(W) = E_1(W) + … + E_N(W)

の値をできるだけ小さくするような W を求めたい。

E_i(W) は i 番目のデータに対するニューラルネットワークの出力と i 番目の正解データとの誤差です。

確率的勾配降下法では、 (grad D)(W) を計算するのではなく、ランダムに i ∈ {1, …, N} を選んで、 (grad D_i)(W) を計算して
重み W を更新します。

こうすると、 W を更新する際に、 i 番目のデータに対する E_i(W) の値は小さくなると思いますが、全体として E(W) の値が小さくなることはどうやって分かるのでしょうか?

例えば、

(grad E_1)(W) を計算して、 W を更新する。 → E_1(W) の値が小さくなる。
(grad E_2)(W) を計算して、 W を更新する。 → E_2(W) の値は小さくなるが、直前にせっかく小さくした E_1(W) や他の E_i(W) の値は大きくなってしまう。

というようなことが起こらないのでしょうか?