強化学習は、適当にコーディングして結果からデバッグしているので時々不安になり
ますが、それなりに学習してくれているみたい。学習内容は同じく勝率で、これをアル
ファ碁で言うところのポリシーに使用してます。
強化学習のポリシーを導入した事で、遡りチェックも調子よく遡るようになり、最善手を
指している率が上がったように感じています。しょせん強化学習だし、まだ学習しはじめ
なので、精度は高くありませんが、使い方次第ではいける感じです。
強化学習続けたら、定石DBの代わりになるんじゃないかと期待。
しばらく学習フェーズになりますが、次はロールポリシーを改良したいかな。
【オセロ,将棋】ボードゲーム【囲碁,War】
レス数が950を超えています。1000を超えると書き込みができなくなります。
957310
2017/09/24(日) 01:47:25.30ID:1rFk/uJ5レス数が950を超えています。1000を超えると書き込みができなくなります。
