【オセロ,将棋】ボードゲーム【囲碁,War】

**310** · 2017/06/06(火) 20:05:14.75

バグ見つけた。簡単かつ破壊力があるやつ。
教師あり学習の一致率が試行回数少ないのに８５％とかになっていて
おかしいとは思っていたんだけど。教師付学習も強化学習も同じバグ。
自分の盤面のところに、次の着手（要するに教師データ）を入れてた。

というわけで、教師付学習からやり直しています。
雰囲気的には、今のネットワークで一致率５０％近くまで行きそうです。

あと、GitHUBでAlpha Goクローンを作っているプロジェクトを発見。
解説ページで評価関数部分を結構細かく解説してくれています。

そこで、ポリシーネットの負けた側について「学習率をマイナス」にして
学習すると書かれていて(@o@)。こんなスマートな方法があったとは
やられました。