比較的地味なボードゲーム専用のスレが欲しくて立ててみました。
前スレ
【オセロ,将棋】ボードゲーム【囲碁,War】
http://mevius.2ch.net/test/read.cgi/gamedev/1057763418/
【オセロ,将棋】ボードゲーム Part2【囲碁,War】
■ このスレッドは過去ログ倉庫に格納されています
1名前は開発中のものです。
2017/10/15(日) 17:34:58.03ID:RaMh0le2249310
2018/02/19(月) 23:56:04.01ID:KY7Wcd5F ここ数日強化学習の結果がよさげになってきたので、結果の良かった学習方法に
集中させたら、また変な学習になってしまったようで、迷走中です。
学習の具合が良いと、色々な探索も速度アップするんだけど、具合が悪いと全部
悪循環になってしまうという。
仕方無いので、中盤探索の反復深化を作り、その結果を置換表に溜めてオーダ
リングを行うようにしてみましたが、効果があったのかよくわからない罠。
こちらも、学習の具合が良くなったら、急激に効果が表れるのではないかと期待
しているんだけど。
集中させたら、また変な学習になってしまったようで、迷走中です。
学習の具合が良いと、色々な探索も速度アップするんだけど、具合が悪いと全部
悪循環になってしまうという。
仕方無いので、中盤探索の反復深化を作り、その結果を置換表に溜めてオーダ
リングを行うようにしてみましたが、効果があったのかよくわからない罠。
こちらも、学習の具合が良くなったら、急激に効果が表れるのではないかと期待
しているんだけど。
250535
2018/02/21(水) 01:00:17.47ID:65PdIEqg SWIGっての調べてます。
なかなか手ごわい
なかなか手ごわい
251535
2018/02/21(水) 22:17:30.79ID:65PdIEqg まずは簡単なC++関数一個だけのパイソンモジュール作成に成功しました。
つぎは囲連星ルールパイソンモジュールの作成ですね〜
つぎは囲連星ルールパイソンモジュールの作成ですね〜
252535
2018/02/21(水) 23:35:14.72ID:65PdIEqg なんかdeepcopyとかいうのに対応しなきゃいかんようなのだが。
253310
2018/02/22(木) 01:36:26.61ID:pKMuaeJh 評価関数がどんどん悪化していく罠。
頭に来たので、評価関数をステージ分割。
ステージ分割すると学習部分の全面書き直しとなる。
どうせニューラルネットは使わないと決めたので、線形回帰にスケールダウン。
またしてもゴチャゴチャしてきた部分を全面書き直しパターンへ。
もうGUIはすっかり忘れていますorz
頭に来たので、評価関数をステージ分割。
ステージ分割すると学習部分の全面書き直しとなる。
どうせニューラルネットは使わないと決めたので、線形回帰にスケールダウン。
またしてもゴチャゴチャしてきた部分を全面書き直しパターンへ。
もうGUIはすっかり忘れていますorz
254535
2018/02/24(土) 00:20:19.52ID:23+l5SrV キタ━━━━━━(゚∀゚)━━━━━━ !!!!!
動きました!
C++版囲連星ルールパイソンモジュール!!!
10倍くらい速くなりました!
でも1000プレイアウト1手約100秒
まだまだ遅い
でもこれ以上速くするアイディアもないし、とりあえず、これで進めるか。
動きました!
C++版囲連星ルールパイソンモジュール!!!
10倍くらい速くなりました!
でも1000プレイアウト1手約100秒
まだまだ遅い
でもこれ以上速くするアイディアもないし、とりあえず、これで進めるか。
255535
2018/02/24(土) 00:49:09.02ID:23+l5SrV なんかトレーニングが不正終了しますね。。。
zipから解凍したソースそのままで実行しても不正終了になるのでちょっと謎ですね。
zipから解凍したソースそのままで実行しても不正終了になるのでちょっと謎ですね。
256535
2018/02/24(土) 17:22:36.17ID:23+l5SrV なんかteanoてライブラリが悪いっぽいorz
上手くインストールできたと思ってたけど実はまだ駄目だったのかなぁorz
上手くインストールできたと思ってたけど実はまだ駄目だったのかなぁorz
257535
2018/02/24(土) 20:56:43.77ID:23+l5SrV あかん、さっぱりわからんorzorzorz
258535
2018/02/24(土) 23:35:51.51ID:23+l5SrV teano.functionってのが悪いっぽい
259名前は開発中のものです。
2018/02/24(土) 23:45:38.80ID:23+l5SrV teanoじゃなくてtheanoかスマソ
260535
2018/02/26(月) 23:09:59.32ID:iAzX3KQf Linuxインストールしてみようかなぁ(ボソ
261名前は開発中のものです。
2018/02/26(月) 23:28:03.39ID:HIL9tQPi 「インストールした」なら使ってもいい
262535
2018/02/28(水) 21:53:14.78ID:EHGfbJ7U linux入れるならVMWareお勧め?
他に候補ある?
他に候補ある?
263535
2018/02/28(水) 21:54:21.00ID:EHGfbJ7U ちなみにHDDはパーティション切りなおすのメンドイ
264310
2018/02/28(水) 22:12:43.27ID:4D1Jf52Q 評価関数変更ついでにまるっと作り直してます。
自己対戦など、汚いコードを綺麗に書き直し。
かけた工数的には自己対戦の方が大変だったかも。
評価関数を1手毎のステージ分割で60ステージにして、学習し直しです。
これで序盤を学習させると終盤が狂う問題は解消されると信じていますが、
学習に60倍の時間がかかる事が予想されるという状態で、記譜を幾ら作って
も追い付かない感じなので、強化学習主体にするつもりです。
というか、まだ、UCTの所は作りこんでいない。
まあ、ほとんどコピペですが。
で、ここまで来たところで、もういっちょ改造したくなってきた…。
自己対戦など、汚いコードを綺麗に書き直し。
かけた工数的には自己対戦の方が大変だったかも。
評価関数を1手毎のステージ分割で60ステージにして、学習し直しです。
これで序盤を学習させると終盤が狂う問題は解消されると信じていますが、
学習に60倍の時間がかかる事が予想されるという状態で、記譜を幾ら作って
も追い付かない感じなので、強化学習主体にするつもりです。
というか、まだ、UCTの所は作りこんでいない。
まあ、ほとんどコピペですが。
で、ここまで来たところで、もういっちょ改造したくなってきた…。
265535
2018/02/28(水) 23:51:16.48ID:EHGfbJ7U MVWareでubuntu入れました。
267535
2018/03/01(木) 21:09:31.45ID:Jxqcd31Q 囲連星ルールをubuntuに移植してみましたがエラーが出ますね。
合法手が無い、みたいな感じに見えますが…
合法手が無い、みたいな感じに見えますが…
268535
2018/03/01(木) 21:31:25.39ID:Jxqcd31Q くそ〜結局コツコツソース読み解くしかないかorz
いい線行ってると思うんだけどなぁ
いい線行ってると思うんだけどなぁ
269535
2018/03/01(木) 21:44:17.24ID:Jxqcd31Q うおお、しんどい、これはしんどいorzorzorz
270535
2018/03/01(木) 23:35:08.53ID:Jxqcd31Q ん、human_play.pyは動きますね…
train.pyと何が違うんだろう?
train.pyと何が違うんだろう?
271535
2018/03/03(土) 00:08:46.84ID:nviHj1ts C++のクラスをディクショナリのキーに突っ込んでさらに参照しようとしたときにキーの比較に失敗してるっぽく見える
272535
2018/03/03(土) 01:00:19.05ID:nviHj1ts __hash__と__eq__を定義するといいみたいです。
__eq__はC++のoperator==で良いみたいです。
__eq__はC++のoperator==で良いみたいです。
273535
2018/03/03(土) 01:33:37.87ID:nviHj1ts まだエラー出ますね。
行ったと思ったのにorz
行ったと思ったのにorz
274535
2018/03/03(土) 19:12:35.59ID:nviHj1ts お、処理が進み始めました。
Board.init_boardでC++のオブジェクトを初期化してなかったのがエラーの原因だったみたいです。
Board.init_boardでC++のオブジェクトを初期化してなかったのがエラーの原因だったみたいです。
275535
2018/03/03(土) 19:51:05.26ID:nviHj1ts やっぱ小路盤五目並べと比べて時間かかりますね。
焦れるw
とりあえず、これでウェイトファイルが出力されれば第一段階クリアですが…
焦れるw
とりあえず、これでウェイトファイルが出力されれば第一段階クリアですが…
276535
2018/03/03(土) 20:18:47.79ID:nviHj1ts あ〜これシングルスレッドなんですね。
まあ確かにコード読んでてもマルチスレッドには見えなかったけど。
まあ確かにコード読んでてもマルチスレッドには見えなかったけど。
277535
2018/03/06(火) 20:34:35.86ID:4NZM8BU2 ベストポリシーとか言うファイルは出力されましたが…
いかんせん遅すぎますねぇ
並列化してハードも強化してあと30倍は速くしないと…
いかんせん遅すぎますねぇ
並列化してハードも強化してあと30倍は速くしないと…
278535
2018/03/06(火) 22:28:34.91ID:4NZM8BU2 んんん、もしかして仮想環境だとディスクアクセスめっちゃ重くなる?
CPUがほとんど仕事してないんだが…
CPUがほとんど仕事してないんだが…
279535
2018/03/06(火) 22:40:05.64ID:4NZM8BU2 こりゃネイティブLinux環境構築も考えるか…
280535
2018/03/07(水) 20:16:56.97ID:Xay4EsKj ディスクアクセスが100近くいって処理がほとんど進まなくなっちまったorz
いったん止めるべきかな〜
いったん止めるべきかな〜
281310
2018/03/08(木) 00:53:26.17ID:KJS05rsc 新評価関数版ようやく一通りできた。
強化学習にすごーく時間がかかりそう(汗
というわけでNew PC見繕ってます。
ノートPCでi7-8700Kの6コア12スレッドにメモリー32メガで
GTX1080搭載のノートPCがある。
むむむ。
強化学習にすごーく時間がかかりそう(汗
というわけでNew PC見繕ってます。
ノートPCでi7-8700Kの6コア12スレッドにメモリー32メガで
GTX1080搭載のノートPCがある。
むむむ。
282535
2018/03/08(木) 18:17:36.63ID:GeAn+CtF お高いんでしょう?
283535
2018/03/08(木) 19:23:50.24ID:MQ3zVdYu 帰ってきてパソコン見てみたら学習が強制終了してました。
土曜からずっと動かしっぱなしでしたが、ここにきて強制終了は痛いですね。
解決しようにも再現させるだけで数日かかってしまうし目星を付けることすら難しそう。
土曜からずっと動かしっぱなしでしたが、ここにきて強制終了は痛いですね。
解決しようにも再現させるだけで数日かかってしまうし目星を付けることすら難しそう。
284535
2018/03/08(木) 20:05:12.94ID:MQ3zVdYu 途中で出力されたポリシーモデルで対戦してみましたが、
予想してたよりずっとまともな手を返してきますね。
ほぼランダムに着手すると思ってました。
これはちゃんと学習できる環境整えればかなり期待できるかも!
予想してたよりずっとまともな手を返してきますね。
ほぼランダムに着手すると思ってました。
これはちゃんと学習できる環境整えればかなり期待できるかも!
285535
2018/03/08(木) 20:11:16.29ID:MQ3zVdYu 俺も良い目のノート一台買ってLinux入れようかなぁ
デスクトップ2台は手狭だからなぁ
デスクトップ2台は手狭だからなぁ
286535
2018/03/08(木) 21:30:30.05ID:MQ3zVdYu とりあえず、Linuxならパイソン動くことはわかったから
他のもっと高速化に力入れたalpha zeroプロジェクトも試してみようかな
他のもっと高速化に力入れたalpha zeroプロジェクトも試してみようかな
287310
2018/03/08(木) 23:33:49.98ID:KJS05rsc どもです。
お高いですが、デスクトップのフルスペックの1/3以下で済むようです。
回しっぱなしの奴がレアケースで異常終了すると萎えますね。
自分の奴は、たぶん怪しいところはほぼ蓋をしているので、今は安心しています。
とはいえ、評価値の保存に数秒かかるようになってしまったので、保存中にうっかり
終了してウェイトファイルを破壊しないように、いくつか策を講じました。最近はOSの
アップデートで勝手に再起動されちゃうので。
お高いですが、デスクトップのフルスペックの1/3以下で済むようです。
回しっぱなしの奴がレアケースで異常終了すると萎えますね。
自分の奴は、たぶん怪しいところはほぼ蓋をしているので、今は安心しています。
とはいえ、評価値の保存に数秒かかるようになってしまったので、保存中にうっかり
終了してウェイトファイルを破壊しないように、いくつか策を講じました。最近はOSの
アップデートで勝手に再起動されちゃうので。
288535
2018/03/09(金) 20:26:00.14ID:wTwCUiOb デスクトップの1/3って性能がですか?
289310
2018/03/10(土) 19:53:38.63ID:jEGGoWyJ あ、価格と性能です(^^;
強化学習に凡ミス発見。
強化学習が良いのは、学習し続ければ何とか復旧できると思えるところorz
強化学習に凡ミス発見。
強化学習が良いのは、学習し続ければ何とか復旧できると思えるところorz
291310
2018/03/10(土) 23:47:40.15ID:jEGGoWyJ こいつです。
https://www.pc-koubou.jp/products/detail.php?product_id=617093
i9-7080XEのデスクトップだとメモリー頑張ると100万ですからね…
https://www.pc-koubou.jp/products/detail.php?product_id=617093
i9-7080XEのデスクトップだとメモリー頑張ると100万ですからね…
293535
2018/03/12(月) 23:17:36.89ID:t7pU5NWq うわパイソン部分でルール間違ってたorz
やっぱ軽くでもテストはやっておかないとあかんなorz
やっぱ軽くでもテストはやっておかないとあかんなorz
294310
2018/03/14(水) 21:17:53.41ID:Hsr0gVbu うぬぬ。強化学習でどこかおかしい。
強化学習単純化しすぎちゃったかなぁ。
暫定的にひたすら記譜作成&記譜学習に戻しました。
遡り30手が鬼門。記譜学習で、ここをクリアする事を当面の目標にします。
とはいえ、残り29手完全読み切りの記譜がそれなりにあるのは、以前では
考えられない状況ではありますが。
強化学習単純化しすぎちゃったかなぁ。
暫定的にひたすら記譜作成&記譜学習に戻しました。
遡り30手が鬼門。記譜学習で、ここをクリアする事を当面の目標にします。
とはいえ、残り29手完全読み切りの記譜がそれなりにあるのは、以前では
考えられない状況ではありますが。
295310
2018/03/15(木) 22:46:56.01ID:CxmBs8oA 強化学習がおかしいというより、記譜のパターンが圧倒的に足りていなかった
のかもと思い始めました。それによって、着手して分岐しても±0となっている
みたいな。
とりあえず、記譜の増殖手段を模索中。
今は、ヌルウィンドウサーチを使用して、遡り探索を行っている関係で、間違った
着手(石損となる手)を捨ててますが、ある程度までその手も読み切って、記譜に
加えても良いのかなぁと思っています。
とりあえず、βカット(もっと良い手があった)時の評価関数は明らかに読み間違い
をしているので、そこ限定で記譜に加えていますが、ある程度以上の手数は全て
付け足しても良いのかなぁと。
のかもと思い始めました。それによって、着手して分岐しても±0となっている
みたいな。
とりあえず、記譜の増殖手段を模索中。
今は、ヌルウィンドウサーチを使用して、遡り探索を行っている関係で、間違った
着手(石損となる手)を捨ててますが、ある程度までその手も読み切って、記譜に
加えても良いのかなぁと思っています。
とりあえず、βカット(もっと良い手があった)時の評価関数は明らかに読み間違い
をしているので、そこ限定で記譜に加えていますが、ある程度以上の手数は全て
付け足しても良いのかなぁと。
296310
2018/03/17(土) 02:14:23.31ID:Foa7nGV6 なんとなく想像しただけですが、何が悪かったのかわかり始めました。
今の学習は「良い手」しか学習していないという事です。
序盤はある程度ランダムな着手を入れて、結果がばらつくようにしていますが、
途中から読みを入れて、良い手だけで着手し、その結果を遡りで訂正しています。
遡りが有効なのは30手くらいまでで、序盤のランダムは20手程度までに抑えて
あります。とすると、遡れる範囲では、悪手を打ったらどういう事になるのかという
学習が抜けている。間違えた着手もちょっとだけ悪いだけでです。結果、最善手の
評価値はそこそこ正確なのですが、極端な悪手も、評価値としてはちょっとだけ
悪い数字でも問題が起きないという事になります。
これはこれで順序付けさえ合っていればそれで良いのですが、ちょっと学習が
進んで、微妙に係数が変わった時に、計算上0.1程度しか悪くない相当な悪手
をうっかり選択しやすくなってしまうという事で、これがオーダリングで悪さをして、
探索時間を長引かせてしまう可能性があります。
恐らく評価関数のステージ分割で、表現力がかなりアップした事から、こういう
学習漏れみたいな事が起きてくるのかなぁと。ほんと、評価関数はスカスカです。
というわけで、昨夜書いたように、ある程度深さを捨てて分岐をすべて記譜に残す
ようにしてみようかなぁと思っています。しばらく記譜作成しながら、この事を踏まえ
た強化学習をちょっと考えてみたいと思っています。
今の学習は「良い手」しか学習していないという事です。
序盤はある程度ランダムな着手を入れて、結果がばらつくようにしていますが、
途中から読みを入れて、良い手だけで着手し、その結果を遡りで訂正しています。
遡りが有効なのは30手くらいまでで、序盤のランダムは20手程度までに抑えて
あります。とすると、遡れる範囲では、悪手を打ったらどういう事になるのかという
学習が抜けている。間違えた着手もちょっとだけ悪いだけでです。結果、最善手の
評価値はそこそこ正確なのですが、極端な悪手も、評価値としてはちょっとだけ
悪い数字でも問題が起きないという事になります。
これはこれで順序付けさえ合っていればそれで良いのですが、ちょっと学習が
進んで、微妙に係数が変わった時に、計算上0.1程度しか悪くない相当な悪手
をうっかり選択しやすくなってしまうという事で、これがオーダリングで悪さをして、
探索時間を長引かせてしまう可能性があります。
恐らく評価関数のステージ分割で、表現力がかなりアップした事から、こういう
学習漏れみたいな事が起きてくるのかなぁと。ほんと、評価関数はスカスカです。
というわけで、昨夜書いたように、ある程度深さを捨てて分岐をすべて記譜に残す
ようにしてみようかなぁと思っています。しばらく記譜作成しながら、この事を踏まえ
た強化学習をちょっと考えてみたいと思っています。
297535
2018/03/18(日) 22:34:31.76ID:tUeDVO3T 結果が出るまで時間がかかり過ぎるなぁ。
もうちょっと様子見るけど。。。
やっぱマルチスレッド化された別のalpha zeroプロジェクト探そうかな…
もうちょっと様子見るけど。。。
やっぱマルチスレッド化された別のalpha zeroプロジェクト探そうかな…
298535
2018/03/20(火) 21:45:14.39ID:/Ra5toxr 駄目だぁ、強くなる気配がないorz
別のalpha zero プロジェクト本気で探すか…
ここまで来てもったいない気もするけど…
別のalpha zero プロジェクト本気で探すか…
ここまで来てもったいない気もするけど…
299535
2018/03/23(金) 21:13:02.23ID:Z4T42krD なんかバグ直して再学習したら、ランダムに打ったほうがマシ、くらいに変な手(1の1とか)打つんだが?
もう嫌になっちゃう。
もう嫌になっちゃう。
300535
2018/03/23(金) 21:21:30.45ID:Z4T42krD そういやLeela Zeroも学習過程では一線うってたな。。。
逆にいい傾向なのか???
逆にいい傾向なのか???
301310
2018/03/25(日) 02:23:39.84ID:Yig4cMbl 分岐をすべて記譜にリストアップするようにしてから、爆発的に記譜が増えてます。
2000程度だったのが、15000超えました。
が、まだまだスカスカみたいです。
ここまでするんなら、真面目に自己対戦して遡りせずに、ランダム着手に対して
分岐をリストアップさせても一緒というか、早い気がしてきています(汗
2000程度だったのが、15000超えました。
が、まだまだスカスカみたいです。
ここまでするんなら、真面目に自己対戦して遡りせずに、ランダム着手に対して
分岐をリストアップさせても一緒というか、早い気がしてきています(汗
302310
2018/03/31(土) 01:38:59.31ID:h3UgGfs1 ランダム着手も追加して記譜増殖中。ただいま32000超え。
もっとも、残り数手とかの記譜もあるけど(汗
ステージ分割しているので、記譜がなかなか生成されない25〜30手近辺で
非常に少ない教師データで何度も学習する事になり、そのあたりが極端な
過学習になってしまった。
解消方法をいくつか検討中です。
1)時間かかっても良いので、25〜30手の記譜ができるまで頑張る
2)前後の盤面を混ぜて、教師データを増やしてみる
3)ランダム強化学習してみる。
2)3)をやると、おそらく、平均化されて評価値がフラットになるが大小関係は
治ってくると思う。
というわけで、今夜は2)3)を試してみる予定。
もっとも、残り数手とかの記譜もあるけど(汗
ステージ分割しているので、記譜がなかなか生成されない25〜30手近辺で
非常に少ない教師データで何度も学習する事になり、そのあたりが極端な
過学習になってしまった。
解消方法をいくつか検討中です。
1)時間かかっても良いので、25〜30手の記譜ができるまで頑張る
2)前後の盤面を混ぜて、教師データを増やしてみる
3)ランダム強化学習してみる。
2)3)をやると、おそらく、平均化されて評価値がフラットになるが大小関係は
治ってくると思う。
というわけで、今夜は2)3)を試してみる予定。
303310
2018/03/31(土) 01:43:35.07ID:h3UgGfs1 あと、時々スコア指定(ヌルウィンドウサーチ)の記譜作成処理で
エラー(スコア間違い)が出る時がある。
運が悪い事にハンドリングミスその他で、記譜を残せていないので、
現象の特定ができていない。
頻度としては数日に1回くらい。
たぶん、全滅と直前のパスがらみだと思うんだけど。
エラー(スコア間違い)が出る時がある。
運が悪い事にハンドリングミスその他で、記譜を残せていないので、
現象の特定ができていない。
頻度としては数日に1回くらい。
たぶん、全滅と直前のパスがらみだと思うんだけど。
305535
2018/03/31(土) 23:46:58.88ID:4ltMn3J2 んーうごかん。
GPUありとなしでポリシーファイルに互換性がないんですかね?
もしかして。
初めからやり直すか…
GPUありとなしでポリシーファイルに互換性がないんですかね?
もしかして。
初めからやり直すか…
306310
2018/04/01(日) 01:07:10.57ID:OBeH+1OH おお。どんどん進んでますね。
こちらは、昨夜のバグの現象は特定しました。
スコアが62や−62で、mtd(f)の探索開始が64や−64の時に、
置換表に残った64や−64が悪さして、64や−64と誤答する模様。
とはいえ、どこを直すべきかはわかりません。探索開始が64や−64
の時に、62や−62にしてやる事で、姑息的に回避はできるので後回し。
あと、記譜作成に色々機能を加えていたら、どこかがおかしそうだという
不安な状態になってしまいまして。このまま記譜学習を進めて良いか自信
が無いので、今までのデータで安全な部分をテスト用に回して、新たに
記譜を作成開始。34手目までは全探索しながら普通に遡れる感じです。
33手目から先は探索時間がしんどいので、ひとしきり落ち着いてから、もう
一度、遡りチェックのプログラムをきちっと見直して、追加していこうかな
と思っています。この間に、強化学習混ぜて、過学習部分を解消して
いこうと思います。
こちらは、昨夜のバグの現象は特定しました。
スコアが62や−62で、mtd(f)の探索開始が64や−64の時に、
置換表に残った64や−64が悪さして、64や−64と誤答する模様。
とはいえ、どこを直すべきかはわかりません。探索開始が64や−64
の時に、62や−62にしてやる事で、姑息的に回避はできるので後回し。
あと、記譜作成に色々機能を加えていたら、どこかがおかしそうだという
不安な状態になってしまいまして。このまま記譜学習を進めて良いか自信
が無いので、今までのデータで安全な部分をテスト用に回して、新たに
記譜を作成開始。34手目までは全探索しながら普通に遡れる感じです。
33手目から先は探索時間がしんどいので、ひとしきり落ち着いてから、もう
一度、遡りチェックのプログラムをきちっと見直して、追加していこうかな
と思っています。この間に、強化学習混ぜて、過学習部分を解消して
いこうと思います。
307535
2018/04/01(日) 12:43:33.62ID:lACu3cfl お、ちゃんと時間測ってないからあれだけど、気持ち速くなってる気がする。
ちゃんと時間測りたいなぁ。
ちゃんと時間測りたいなぁ。
308310
2018/04/01(日) 13:49:33.48ID:DAl+8Sdv バグ問題は、結局姑息的手段では回避できず。
全滅がらみでほかのケースでも誤答するケースが発生しました。
元々FFO#59用にmin-Max探索に入れていた、全滅時の処理くらいしか
原因となりそうなものが思い当たらなかったので、とりあえずコメントアウト
して様子見です。全滅時の探索が速度低下しますが、仕方がありません。
全滅がらみでほかのケースでも誤答するケースが発生しました。
元々FFO#59用にmin-Max探索に入れていた、全滅時の処理くらいしか
原因となりそうなものが思い当たらなかったので、とりあえずコメントアウト
して様子見です。全滅時の探索が速度低下しますが、仕方がありません。
309310
2018/04/02(月) 20:15:06.48ID:9LYme7cN 結局バグ問題は…迷宮入り臭いです。
記譜作成で負荷テスト並みに探索を繰り返すと、全滅絡まなくても間違うケースが
出てきました。再現性が無いのが辛いところ。
その昔悩んでいた時も、やっぱり置換表がらみの問題で迷宮入りでしたが、
今回も、ケチって置換表を極力クリアせずに使用していた事から、何らかの
矛盾が起きているようです。それを言っちゃうと、置換表付mtd(f)でf値を変え
ながら探索することも、またその時に作成された置換表を流用して記譜作成
兼ねた読み切り処理を速度アップすることも、怪しいという事になるわけで。
間違えてしまった事が判明した時点で、その探索は捨てるくらいしか対策が
無いという事になります。
ネットで調べたら、将棋AI界隈でも置換表の問題点を書いている人がいまして。
少なくとも深さがあっていない置換表データは使うべきではない模様。
今の調子だと一晩動かすと結構な頻度で朝見たら止まっているとい状態なので
せめて発生率を下げるべく、mtd(f)に入る前に置換表をクリアする事にしました。
なぜしなかったかというと、記譜データからスコアが確定している盤面を置換表に
入れて、それを見ながら既に読み切りしている盤面は飛ばす処理をしていたから
です。置換表をクリアして盤面再構築に時間がかかるためです。別途盤面キャッシュ
を持って、そちらは追記、置換表は毎回クリアという形に変更しました。
記譜作成で負荷テスト並みに探索を繰り返すと、全滅絡まなくても間違うケースが
出てきました。再現性が無いのが辛いところ。
その昔悩んでいた時も、やっぱり置換表がらみの問題で迷宮入りでしたが、
今回も、ケチって置換表を極力クリアせずに使用していた事から、何らかの
矛盾が起きているようです。それを言っちゃうと、置換表付mtd(f)でf値を変え
ながら探索することも、またその時に作成された置換表を流用して記譜作成
兼ねた読み切り処理を速度アップすることも、怪しいという事になるわけで。
間違えてしまった事が判明した時点で、その探索は捨てるくらいしか対策が
無いという事になります。
ネットで調べたら、将棋AI界隈でも置換表の問題点を書いている人がいまして。
少なくとも深さがあっていない置換表データは使うべきではない模様。
今の調子だと一晩動かすと結構な頻度で朝見たら止まっているとい状態なので
せめて発生率を下げるべく、mtd(f)に入る前に置換表をクリアする事にしました。
なぜしなかったかというと、記譜データからスコアが確定している盤面を置換表に
入れて、それを見ながら既に読み切りしている盤面は飛ばす処理をしていたから
です。置換表をクリアして盤面再構築に時間がかかるためです。別途盤面キャッシュ
を持って、そちらは追記、置換表は毎回クリアという形に変更しました。
310535
2018/04/02(月) 22:24:32.85ID:3iK+AnRP Leela ZeroがKGSでかなり強くなってる。
俺がパクったプログラムも学習し続けたらあれくらい強くなるんだろうか?
俺がパクったプログラムも学習し続けたらあれくらい強くなるんだろうか?
311535
2018/04/04(水) 20:42:51.24ID:Y0WMbzNW え、ちょっとまってよ。
GPUありなしでポリシーファイルが違うってことは
成果物を配布しようとしたらGPU持ってる人しか遊べないってこと?
GPUありなしでポリシーファイルが違うってことは
成果物を配布しようとしたらGPU持ってる人しか遊べないってこと?
312535
2018/04/04(水) 20:54:25.72ID:Y0WMbzNW しかもCUDAとかも一緒にインストールしてもらわないといけない?
ええぇ?
ええぇ?
313310
2018/04/06(金) 22:00:28.44ID:952uhqxW 誤答問題は、置換表クリアで解消しました。
違う局面の探索で使用した置換表データは使いまわしてはいけないという事で。
なんか、結果的に、2年くらい前にも同じ事で騒いでいたような。
色々整ってきたので、あとはひたすら記譜作成しながら学習を回すだけになって
しまって、暇になってます。別PC買ってそっちで学習させながら、別の事をはじめ
ようかなぁと思い始めています。
違う局面の探索で使用した置換表データは使いまわしてはいけないという事で。
なんか、結果的に、2年くらい前にも同じ事で騒いでいたような。
色々整ってきたので、あとはひたすら記譜作成しながら学習を回すだけになって
しまって、暇になってます。別PC買ってそっちで学習させながら、別の事をはじめ
ようかなぁと思い始めています。
314535
2018/04/07(土) 20:43:17.69ID:SqbCC315 うーん、つよくならないorz
学習は継続しつつ別のalpha zero プロジェクトも物色するか…
学習は継続しつつ別のalpha zero プロジェクトも物色するか…
315535
2018/04/08(日) 22:10:18.77ID:ZB9Bj6DG ん、なんかメモリリークあんのかな…
swigでC++から移植したクラスってデフォルトでガベージコレクトされないのかなぁ?
もしかして。
swigでC++から移植したクラスってデフォルトでガベージコレクトされないのかなぁ?
もしかして。
316535
2018/04/08(日) 22:43:04.99ID:ZB9Bj6DG VMWareの設定がメモリ1GBになってた。
とりあえず8GBに増やしてみた。
とりあえず8GBに増やしてみた。
317535
2018/04/08(日) 22:53:48.62ID:ZB9Bj6DG お、メモリ増やして再起動かけたら結構いい感じで進みだした?
メモリ増やしたのと再起動かけたのどっちが効いたのかわからんが。
メモリ増やしたのと再起動かけたのどっちが効いたのかわからんが。
318535
2018/04/09(月) 20:58:16.91ID:500BArdX くそ〜ベストポリシー更新が全く来ないorz
もう何回目だ?TT
もう何回目だ?TT
319535
2018/04/11(水) 20:46:51.70ID:uiOmKVU+ お、メモリ増やしたせいか連続運転が安定している。
しかしベストポリシー更新は相変わらずなしorz
しかしベストポリシー更新は相変わらずなしorz
320535
2018/04/11(水) 23:07:04.06ID:uiOmKVU+ もしかして、ネットワークの初期値が糞すぎるんだろうか。
でも確かめようがないorz
でも確かめようがないorz
321535
2018/04/15(日) 20:07:24.81ID:8sCJrZFg ベストポリシー更新まじコネ〜
でも他のプロジェクトに浮気しようにもなかなか手ごろなのがないんだよなぁ
でも他のプロジェクトに浮気しようにもなかなか手ごろなのがないんだよなぁ
322535
2018/04/15(日) 20:21:37.51ID:8sCJrZFg いっそ実績のあるLeelaZeroを本気でパクりに行ってみるべきか…
でも多分、難解なんだろうな〜
でも多分、難解なんだろうな〜
323535
2018/04/16(月) 20:30:05.64ID:6KBtspgu あんまりおかしいんでソースをオリジナルとdiffとったら学習係数が1/100になってたんだがwww
え〜何時いじったかな全く記憶にないwww
これで学習が進んでくれれば!!
え〜何時いじったかな全く記憶にないwww
これで学習が進んでくれれば!!
324535
2018/04/16(月) 23:37:28.33ID:6KBtspgu loss も entropyも減ってきてる!
これでベストポリシー更新が来れば!!
これでベストポリシー更新が来れば!!
325535
2018/04/17(火) 22:16:19.94ID:E16XJnGD キタ━━━━━━(゚∀゚)━━━━━━ !!!!!
ベストポリシー更新きました!
次の切りのいいところで止めてプレーしてみよう
ベストポリシー更新きました!
次の切りのいいところで止めてプレーしてみよう
326535
2018/04/17(火) 22:34:03.78ID:E16XJnGD それはそうとzen+の発売日が迫ってますね。
金がないから買えないけど情報だけは追っかけてみます。
爆速だといいな。
金がないから買えないけど情報だけは追っかけてみます。
爆速だといいな。
327535
2018/04/18(水) 23:48:24.10ID:7NtNWbU1 あとちょっとだけ待とう
終局までの手数も順調に減ってきてるから意味のある手を打ってるんだろう多分
ワクワク
終局までの手数も順調に減ってきてるから意味のある手を打ってるんだろう多分
ワクワク
328535
2018/04/19(木) 20:50:17.33ID:lyvIQrMy 打ってみました。
序盤、中盤は棋理の芽生えみたいなものが感じられました。
伸ばせそうなところを伸ばすとか伸ばされそうなところを止めに来るとか
でもわざと負けようとしても5連までは積極的に作りに来るのにそこからパタッと伸ばすのをやめて7連を作ってくれませんw
なぜw?
でもまあ、希望は感じられました。
もうすこし学習してみます。
序盤、中盤は棋理の芽生えみたいなものが感じられました。
伸ばせそうなところを伸ばすとか伸ばされそうなところを止めに来るとか
でもわざと負けようとしても5連までは積極的に作りに来るのにそこからパタッと伸ばすのをやめて7連を作ってくれませんw
なぜw?
でもまあ、希望は感じられました。
もうすこし学習してみます。
329535
2018/04/19(木) 23:51:35.82ID:lyvIQrMy zen+なかなかよさげですね。
前世代と比べて一割前後性能アップ?
前世代と比べて一割前後性能アップ?
330310
2018/04/20(金) 09:40:06.18ID:HgLFJ5UM うーん。AMDはSIMD命令で遅い命令があって、速度低下するかもって
どこかで読んじゃったからなぁ。
こちらは地道に記譜作成しながら学習させてます。
深さ優先で記譜作成すると、分岐が少ない手筋ばかり増えていくので、
幅優先で、同じ深さである程度記譜溜まってから、次の深さとするように
したのですが、空きマス27からの記譜展開で、時間がかかるようになって
なかなか空き28マスに行けない。オーダリングの精度が出ていないから
だと思いますが、同時に選択肢も増えてきて、余計時間がかかる感じ。
空き30マス突破したら、かかる時間の増加率は下がるはずなんだけど。
どこかで読んじゃったからなぁ。
こちらは地道に記譜作成しながら学習させてます。
深さ優先で記譜作成すると、分岐が少ない手筋ばかり増えていくので、
幅優先で、同じ深さである程度記譜溜まってから、次の深さとするように
したのですが、空きマス27からの記譜展開で、時間がかかるようになって
なかなか空き28マスに行けない。オーダリングの精度が出ていないから
だと思いますが、同時に選択肢も増えてきて、余計時間がかかる感じ。
空き30マス突破したら、かかる時間の増加率は下がるはずなんだけど。
331535
2018/04/20(金) 22:59:48.32ID:1YRRGto3 もしかして終盤はあえてランダム性を残すことによって学習が進みやすくなるなどの深い理由があるのだろうか?
わからんが。
わからんが。
332535
2018/04/20(金) 23:02:21.21ID:1YRRGto3 それとも序盤は同一局面のデータがたくさん現れるから学習できるけれど
終盤に行くとデータが散らばっちゃって学習できなくなるということだろうか
終盤に行くとデータが散らばっちゃって学習できなくなるということだろうか
333名前は開発中のものです。
2018/04/20(金) 23:03:29.26ID:1YRRGto3 あるいは一線や二線は打たないほうがいいと学習してしまっているがため、7連を作れないのだろうか?
334310
2018/04/21(土) 20:32:42.81ID:AdkW58BW オセロは記譜生成させてるだけで暇なので、将棋の事を考えてました。
KKPとかよくわからないし、同じ事をやってもつまらないので、利きを点数化
しようかと考えてみまして、実際の計算方法を考えていたら、自玉周辺と
相手玉に対する利きがKKPなのではないかと思い至ってしまいました。
持ち駒の点数は駒種毎に固定で振られていて、駒同士のぶつかりによる優劣
特に駒交換はmin-Maxにて補間しているのかなと。評価関数自体は意外と単純
な事しか学習していない感じで、探索で補っている部分が大きいように感じます。
こうやって見ると、上手く単純化しているなぁと。
自分で勝手に想像した内容に感心してしまいました。
ただ、これならこれで、自玉KPと相手玉KPの合算で、2駒関係に次元を落とせ
そうではないかと思ってしまいました。まあ、無理なんでしょうけど。
自分がやる上での一番のネックは、オセロの評価関数が点数だったために、
なんちゃって強化学習しかやった事がな点ですね。あと、みなさんライブラリ化
されていて、それに則れば色々な人の考えた高速化・高効率化のネタが利用
できる点で、一から車輪の再発明していては追い付けないよなぁと。
KKPとかよくわからないし、同じ事をやってもつまらないので、利きを点数化
しようかと考えてみまして、実際の計算方法を考えていたら、自玉周辺と
相手玉に対する利きがKKPなのではないかと思い至ってしまいました。
持ち駒の点数は駒種毎に固定で振られていて、駒同士のぶつかりによる優劣
特に駒交換はmin-Maxにて補間しているのかなと。評価関数自体は意外と単純
な事しか学習していない感じで、探索で補っている部分が大きいように感じます。
こうやって見ると、上手く単純化しているなぁと。
自分で勝手に想像した内容に感心してしまいました。
ただ、これならこれで、自玉KPと相手玉KPの合算で、2駒関係に次元を落とせ
そうではないかと思ってしまいました。まあ、無理なんでしょうけど。
自分がやる上での一番のネックは、オセロの評価関数が点数だったために、
なんちゃって強化学習しかやった事がな点ですね。あと、みなさんライブラリ化
されていて、それに則れば色々な人の考えた高速化・高効率化のネタが利用
できる点で、一から車輪の再発明していては追い付けないよなぁと。
335535
2018/04/21(土) 20:39:59.86ID:8g8p+RpI ほう、将棋に進出ですか。
将棋AI界はオープンソースが進んでる感じなんですかね。
将棋AI界はオープンソースが進んでる感じなんですかね。
336535
2018/04/21(土) 20:50:54.10ID:8g8p+RpI alpha zero のパクりプログラムgithubから丸パクしてきたわけだけど
そろそろちゃんとソース読み解いてみようかな。難しいだろうけど
丁寧な解説がどこかにあればいいんだけどね
そろそろちゃんとソース読み解いてみようかな。難しいだろうけど
丁寧な解説がどこかにあればいいんだけどね
337535
2018/04/22(日) 17:35:27.70ID:QOhFsFyf お、AIが7作った。
いままではわざと負けようとしても勝ってくれなかったけど今回は勝ってくれた。
まだまだ弱いけどもっと学習させてみよう
いままではわざと負けようとしても勝ってくれなかったけど今回は勝ってくれた。
まだまだ弱いけどもっと学習させてみよう
338535
2018/04/22(日) 19:13:47.98ID:QOhFsFyf 俺も学習見守るだけで暇になっちゃったからなんか始めたいけど
計算リソースが学習にもってかれちゃってるからそこどうするか。
やっぱPC新調か?
グラボも効果あるみたいだし今度はGeforce 1080 Tiとか試してみたいな。
金がないけど。
計算リソースが学習にもってかれちゃってるからそこどうするか。
やっぱPC新調か?
グラボも効果あるみたいだし今度はGeforce 1080 Tiとか試してみたいな。
金がないけど。
339310
2018/04/22(日) 19:48:13.41ID:wf3ukgDl だよね。自分も脳内妄想で我慢です。
PC新調しちゃうか思いっきり悩み中。
PC新調しちゃうか思いっきり悩み中。
340535
2018/04/25(水) 20:09:35.29ID:QZIUF0Ri もっとネットワーク大きくしてみたいな。
でもさらに学習時間がかかると思うと躊躇する。
でもさらに学習時間がかかると思うと躊躇する。
341535
2018/04/27(金) 21:32:10.80ID:b1G/gV5U お、損失が3点台だったのが2点台になった。
いい感じなんじゃないでしょうか?
いい感じなんじゃないでしょうか?
342535
2018/04/28(土) 17:38:12.12ID:MUOfiFNK ジムケラーがインテルに来たとか。
いいCPU作ってくれるならどこでもいいけどね。
いいCPU作ってくれるならどこでもいいけどね。
343535
2018/04/29(日) 20:30:57.65ID:mX318X6T 序盤は素晴らしい棋理の芽生えを感じるが、いかんせん終盤がなぁ
ほかのアルファゼロクローンも似たような感じなのだろうか?
ほかのアルファゼロクローンも似たような感じなのだろうか?
344535
2018/04/29(日) 20:50:13.18ID:mX318X6T 公式AIともやってみたけど序盤センスは互角以上と感じられる。
実際、必至をかける一歩手前まで行った。
終盤力さえ磨かれればおそらく公式AI越えはある。
実際、必至をかける一歩手前まで行った。
終盤力さえ磨かれればおそらく公式AI越えはある。
345535
2018/04/30(月) 22:51:47.16ID:qAJqtYoj 学習が1000エピソード突破。
1500が規定値だから最後まで回したいな。
1500が規定値だから最後まで回したいな。
346535
2018/05/01(火) 21:34:25.66ID:bYHVWZMu もっとパワー、速度が欲しいな。
こんなことなら最初から1080 Ti いっときゃ良かったかな?
こんなことなら最初から1080 Ti いっときゃ良かったかな?
347535
2018/05/03(木) 10:58:16.57ID:gNd8xJ5s ちょっと思うところがあって、思い切ってネットワーク大きくしてみました。
学習最初からやり直しです。
さて吉と出るか凶とでるか。
学習最初からやり直しです。
さて吉と出るか凶とでるか。
348535
2018/05/03(木) 13:28:58.30ID:gNd8xJ5s ん、ネットワーク構成変えたら学習率もいじらないと上手くいかないのか?
ネットワークでかくしたら学習率は大きくすればいいのか小さくすればいいのか…
ネットワークでかくしたら学習率は大きくすればいいのか小さくすればいいのか…
349535
2018/05/03(木) 13:42:41.42ID:gNd8xJ5s ネットワークでかくしたら学習率は小さくするのがいいみたい?
■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 【無言】中国怒らせた高市首相→1週間だんまり、国民に実害も説明なし 中国問題を避けてスルー… ★4 [BFU★]
- 【いちご高騰】ヤマザキのクリスマスケーキ、いちご無し販売 [おっさん友の会★]
- 【日中対立】 朝日新聞のタイトル修正が中国逆ギレの火種か SNSで批判相次ぐ [♪♪♪★]
- ネット殺到「高市総理の責任」「完全に高市リスク」「負けるな」中国が水産物輸入停止→流石に総理批判の声も「どう責任取る?」 ★10 [樽悶★]
- 【音楽】『日本レコード大賞』各賞発表! 大賞候補にILLIT、M!LK、ふるっぱー、幾田りら、アイナ、ミセスら… 作詩賞は指原莉乃 [冬月記者★]
- 「ドラゴンボール」初の全世界キャラクター人気投票が開幕!212キャラからナンバーワンが決まる!! [ひかり★]
- 中国、レアアース輸出制限wwwwwwwwwwwwwwwwwwwwwwww🎌 [329329848]
- マッサージ師だが
- AIバブル再開したっぽい…最悪
- 【訃報】日経平均先物逝く、円安株安債券安 [943688309]
- 【すべてが】𝗮𝗺͜𝗮͉𝘇𝗼𝗻ブラックフライデーSALE総合【いいだろ!】 [194819832]
- 教師(24)、5軒はしご飲酒→車を盗み飲酒運転→海水浴場で車を水没させ逃走→ずぶ濡れで別の車に乗り仮眠→持ち主に見つかり逃走の大暴れ [977261419]
