>>238
サンプルとして与えられたデータに対応し過ぎると 未経験のデータが来た時に大きく外れた対応をしてしまうというのが 過学習の理屈なんだが、
対戦相手からあまり影響を受け過ぎないようにしつつ その機会損失を上回って余りある回数をぶんまわすことで 少しずつ修正することで 過学習を避けてると思うんだぜ。

アルファ碁ゼロは レーティングが上がったということより、
教師付き学習を止めて 自己対戦の強化学習をしたら 前のより強くなった、というところでペーパーを書いた、という感じに見えるぜ。