▲コンピュータ将棋スレッド125

2017/10/23(月) 17:07:45.46

>>238
サンプルとして与えられたデータに対応し過ぎると　未経験のデータが来た時に大きく外れた対応をしてしまうというのが　過学習の理屈なんだが、
対戦相手からあまり影響を受け過ぎないようにしつつ　その機会損失を上回って余りある回数をぶんまわすことで　少しずつ修正することで　過学習を避けてると思うんだぜ。

アルファ碁ゼロは　レーティングが上がったということより、
教師付き学習を止めて　自己対戦の強化学習をしたら　前のより強くなった、というところでペーパーを書いた、という感じに見えるぜ。