えびの放送でなんか言ってたな

ナイアガラ的に反省した局面を集めて学習した評価関数は、基本的には弱くなるんだけど
元の評価関数の穴を突いて逆転することも増えるらしい。
そういう元の関数の穴を突く敵対的な関数を作って、それで学習するみたいな口ぶりだった

効果は、何もしないよりは多少効率的に学習できたと信じたい。って感じだったな