>>877
自己対局だと局所解にはまっちゃう時ありますよね。

DBの内容がわからないので、以下頓珍漢かもしれませんが。

解消法としては、開始後数手については、ランダム着手にする。
途中でε-greedyみたいに、ランダムな着手を挟む。

こういった方法で、局所解から外れたところも学習対象に入れる工夫があります。

気持悪いやり方だけど、5手目だけif分で強制的に直して修正済み自己対戦データ
を蓄えて学習するという方法もあります。