【オセロ,将棋】ボードゲーム Part2【囲碁,War】
レス数が1000を超えています。これ以上書き込みはできません。
比較的地味なボードゲーム専用のスレが欲しくて立ててみました。
前スレ
【オセロ,将棋】ボードゲーム【囲碁,War】
http://mevius.2ch.net/test/read.cgi/gamedev/1057763418/ 3日くらい計算回したけど全く強くなる気配がないなorz
もしかしたら微妙に強くなってるのかもしれないけどあまりに成長速度が遅すぎる
やっぱアルファゼロは計算時間が半端ないのかも? やっぱアルファゼロはいったん諦めて、囲連星でやったようにモンテカルロAIの棋譜取り&勝率DB作り&教師ありDNNでライフゲーム囲碁やるべきか?
うーむ DCNN強化学習はマシンパワーが恐ろしいほど必要だからね。
満足できる教師データがそろってから評価関数に使ってみる程度にしないと…。
自由度が高すぎるので、まともな評価関数に収束するまでに、相当な試行回数が
必要なんじゃないかと思う。
自分は棋譜作成をずーっとやっていますが、現在は棋譜作りの目的がBook充実
になりつつあります。なんというか、現在の形はいつの間にかQ学習+ε-Greedy
っぽくなってきています。
アルファ様のお陰で、目標を見失いましたので、手段のためなら目的を選ばない感じ
で、プログラム作る楽しみという方向になっています(^^; ライフゲーム囲碁、モンテカルロAIの棋譜取り始めました。
ヒューリスティックなしのモンテカルロで1手10000プレイアウトで1局に約1分かかります。
それを16並列で1分当たり約16局採取できる予定。
棋譜の質があまりよくないのが難点ですがとりあえず、これでやってみます。 18257局分棋譜が取れたようです。大体13.2局/分くらい取れるっぽい。
全コア動かすとシングルよりやっぱ少し遅くなるみたいですね。 DB作成まで来ました。
ライフゲーム囲碁は囲連星と比べてもっと沢山の棋譜が必要になるかもしれません。
オープニングのバリエーション的に。 評価関数を変えたくなってきた。
偶数手番と奇数手番の癖が顕著になってきたので、スムージングをしたく
なったのだけど、キーを手番優先にしているので、1手進むと盤面がひっくり
返ってしまい、連続性が無くなってしまう。
キーを黒番優先にして、評価値も黒番サイド(白番の場合は−1を掛ける)に
統一するとスムージングしやすくなる。
ただし、評価関数からBookから、あちこち影響が出る。
そろそろソースの整理がしたくなってきていたので、バッサリやっちゃおうかな。
台風で暇だし。 一晩考えてやっぱ辞めました(^^;
単純じゃない。 あ〜なんか情熱が湧いてこないな。
プログラム書くのがすごい億劫。 とりあえず、囲連星のコード流用してDNN学習回せるところまで来ました。
あとはAIプレイヤーのコードを移植すればひと段落かな。 モンテカルロAIとDNNAIで対戦できるところまで来ました。
DNNAIの動きはまあ第一弾にしては悪くない感じ。 パッと見DNNAIには知性の芽生えのようなものを感じる。
勝率に結びつくかは微妙だけど。 勝率に結びついてませんね…。
残念過ぎる…。
寝るか。。。 うーん、ハッキリと弱くなってますね。
ライフゲーム囲碁って昔勝率DB使った時も勝率落ちたし何でだろう? モンテカルロAIにトリプルスコアで負けてますね〜
かなc ここからどうしていけばいいのかわからんなぁ。
負けるDNNAIで棋譜取りして勝てるようになるのかといえばかなり期待薄。
でもやれることもないし一応やってみるか。 DNNの評価値を得点差から勝率と得点差/81の平均にしたところ
トリプルスコアで負けてたのがダブルスコアになったようです。
まだ負けてるけど。
囲碁では得点差で評価値を付けるのはほぼタブーで勝率を評価値にするのがセオリーなのですが、試してみたかった。 うーむ相手から攻撃されたときに反撃しない癖があるようだ。
反撃さえすれば楽に勝てるはずなんだが…。 DNNの入力にに盤面の情報だけじゃなくて、石がぶつかってるところの情報も与えてみるか。
かなり肝になる情報のはずだから。 うお、メモリがパンクしたorz
もー新スレッドリッパーにメモリ1TB載せたいorz データベースがでかすぎるのかなぁ。
500万局面を4対称で2000万局面分くらいあるんだが、初期アルファ碁でも3000万局面くらいだったっていうし減らそういかなぁ。
うーん。 前も言ったかもしれないけどいたずらにネットワークを巨大化するよりコンパクトにしてエポック数を稼いだほうがいいかもしれないな。 学習するほどに弱くなる理由がさっぱりわからんorz
ちょっと休憩 またgithubでアルファゼロ探ししようかなぁ(懲りてない) スレッドリッパー 32コア ベース3.7GHz ターボ4.5GHz 1999$
素晴らしい
金がないけど せっかく良さそうなの見つけたのに、イマイチモチベーション上がんないな〜
なんでだろ。ホントよさそうなのに。 コツコツpythonやってます。
リストの使い方がわかってくると書く速度あがりそう。 >>972にライフゲーム碁のロジックを実装しました。
ランダムプレーヤーと対戦できるところまで確認しました。
意外と拡張しやすい作りになってるっぽい。 インターフェースの作りがうまいプログラムは心が躍りますね。
見習いたい。 うおおお、遅えええええええ
6x6オセロだと結構速いけど9x9ライフゲーム囲碁だとめちゃ遅いorz
なにか高速化策を考えねば… 今日一日、強化学習回してたんですが途中でOS固まってたorz
でも一応、3回ベストポリシー更新されたみたい。
ランダムボットと対戦させてみます。 ランダムボットと黒白25戦づつやってディープラーニングAIの39勝11敗
でだしとしてはまあまあかな。
純モンテカルロAIともやってみよう。 うーむOS固まるなぁ。
今日も固まった。
グラボの熱が悪いのだろうか? パソコンの調子が悪いのならいっそAWSとか検討するという手も…
でも金が… 固まったけど少し更新されてたようです
ランダムボットと対戦したら48勝2敗
結構ハッキリ強くなってるな。 今日も当たり前のように固まってるorz
どうすりゃいいんだ? そろそろ次スレの季節ですね。
順番的に私の番か。
995くらいで立てたらいいですかね。 どもです。そろそろ次スレですね。
相変わらず、色々小改造しながら相変わらず棋譜作り続けています。
Book確認のデバッグ用プログラム作って、棋譜の間違い特定が飛躍的に早くなり、
その分、訂正用の棋譜が膨れて遡り探索がおろそかになっています。
評価関数の学習は進めていますが、どちらかというと評価関数が怪しくて間違えて
いそうなところで、わざと分岐させてBookで正解手順(に近い)の分岐を登録していく
事で、棋譜の精度を上げようとしています。BookをQ値と考えると、選択的なε-Greedy
でQ学習しているような感じになりつつあります。
もちろん、最終的には評価関数に反映しますが、今はBook構築が先みたいな。
VC++のバージョンアップ通知が来たので更新したら、あちこちワーニングや
エラーが出て来まして、ソースの整理をしながら、ワーニングにならないソース
に書き換え中です。急いでも仕方がないので、裏で棋譜作り動かしながら、
ちんたらやってます。
久々にMCTS部分を見たら、バグだらけだったので、直したところ、マシンパワーが
上がったことからか、残り30手程度ならすぐに終局まで枝が伸びて比較的正確に
最善手順が生成できそうかなと思っています。全てのプログラムの書き換えが
終わったところで、テストしてみたいと思っています。 昨日の晩からいままで連続で動いてます。
なかなかベストポリシーが更新されなくて焦れる ランダムボットに白黒25戦づつやって50勝0敗来ました!
このゲームはほかのゲームと比べてランダムボットが比較的強いから素晴らしいですね。 AWSでいいマシンを使うというのも憧れるが、
買うのとどっちが安いかは微妙かな。 スレッドリッパー11月30日発売。
コア数はいわずもがなベースクロックもかなり高い。 pythonの文法は結局何がいいのかよくわからんな。
ライブラリが充実してるってのはそうなんだろうけど。 1000 !
お疲れさまでした。
次スレでまたお会いしましょう。 このスレッドは1000を超えました。
新しいスレッドを立ててください。
life time: 769日 3時間 30分 53秒 レス数が1000を超えています。これ以上書き込みはできません。