【オセロ,将棋】ボードゲーム Part2【囲碁,War】

■ このスレッドは過去ログ倉庫に格納されています
1名前は開発中のものです。
垢版 |
2017/10/15(日) 17:34:58.03ID:RaMh0le2
比較的地味なボードゲーム専用のスレが欲しくて立ててみました。

前スレ
【オセロ,将棋】ボードゲーム【囲碁,War】
http://mevius.2ch.net/test/read.cgi/gamedev/1057763418/
250535
垢版 |
2018/02/21(水) 01:00:17.47ID:65PdIEqg
SWIGっての調べてます。
なかなか手ごわい
251535
垢版 |
2018/02/21(水) 22:17:30.79ID:65PdIEqg
まずは簡単なC++関数一個だけのパイソンモジュール作成に成功しました。
つぎは囲連星ルールパイソンモジュールの作成ですね〜
252535
垢版 |
2018/02/21(水) 23:35:14.72ID:65PdIEqg
なんかdeepcopyとかいうのに対応しなきゃいかんようなのだが。
253310
垢版 |
2018/02/22(木) 01:36:26.61ID:pKMuaeJh
評価関数がどんどん悪化していく罠。
頭に来たので、評価関数をステージ分割。

ステージ分割すると学習部分の全面書き直しとなる。
どうせニューラルネットは使わないと決めたので、線形回帰にスケールダウン。

またしてもゴチャゴチャしてきた部分を全面書き直しパターンへ。

もうGUIはすっかり忘れていますorz
254535
垢版 |
2018/02/24(土) 00:20:19.52ID:23+l5SrV
キタ━━━━━━(゚∀゚)━━━━━━ !!!!!
動きました!
C++版囲連星ルールパイソンモジュール!!!
10倍くらい速くなりました!
でも1000プレイアウト1手約100秒
まだまだ遅い
でもこれ以上速くするアイディアもないし、とりあえず、これで進めるか。
255535
垢版 |
2018/02/24(土) 00:49:09.02ID:23+l5SrV
なんかトレーニングが不正終了しますね。。。
zipから解凍したソースそのままで実行しても不正終了になるのでちょっと謎ですね。
256535
垢版 |
2018/02/24(土) 17:22:36.17ID:23+l5SrV
なんかteanoてライブラリが悪いっぽいorz
上手くインストールできたと思ってたけど実はまだ駄目だったのかなぁorz
257535
垢版 |
2018/02/24(土) 20:56:43.77ID:23+l5SrV
あかん、さっぱりわからんorzorzorz
258535
垢版 |
2018/02/24(土) 23:35:51.51ID:23+l5SrV
teano.functionってのが悪いっぽい
2018/02/24(土) 23:45:38.80ID:23+l5SrV
teanoじゃなくてtheanoかスマソ
260535
垢版 |
2018/02/26(月) 23:09:59.32ID:iAzX3KQf
Linuxインストールしてみようかなぁ(ボソ
2018/02/26(月) 23:28:03.39ID:HIL9tQPi
「インストールした」なら使ってもいい
262535
垢版 |
2018/02/28(水) 21:53:14.78ID:EHGfbJ7U
linux入れるならVMWareお勧め?
他に候補ある?
263535
垢版 |
2018/02/28(水) 21:54:21.00ID:EHGfbJ7U
ちなみにHDDはパーティション切りなおすのメンドイ
264310
垢版 |
2018/02/28(水) 22:12:43.27ID:4D1Jf52Q
評価関数変更ついでにまるっと作り直してます。
自己対戦など、汚いコードを綺麗に書き直し。
かけた工数的には自己対戦の方が大変だったかも。

評価関数を1手毎のステージ分割で60ステージにして、学習し直しです。
これで序盤を学習させると終盤が狂う問題は解消されると信じていますが、
学習に60倍の時間がかかる事が予想されるという状態で、記譜を幾ら作って
も追い付かない感じなので、強化学習主体にするつもりです。

というか、まだ、UCTの所は作りこんでいない。
まあ、ほとんどコピペですが。

で、ここまで来たところで、もういっちょ改造したくなってきた…。
265535
垢版 |
2018/02/28(水) 23:51:16.48ID:EHGfbJ7U
MVWareでubuntu入れました。
266535
垢版 |
2018/03/01(木) 00:04:15.57ID:Jxqcd31Q
ubuntuだと>>214のプログラム問題なく動くみたいですね
素晴らしい。
267535
垢版 |
2018/03/01(木) 21:09:31.45ID:Jxqcd31Q
囲連星ルールをubuntuに移植してみましたがエラーが出ますね。
合法手が無い、みたいな感じに見えますが…
268535
垢版 |
2018/03/01(木) 21:31:25.39ID:Jxqcd31Q
くそ〜結局コツコツソース読み解くしかないかorz
いい線行ってると思うんだけどなぁ
269535
垢版 |
2018/03/01(木) 21:44:17.24ID:Jxqcd31Q
うおお、しんどい、これはしんどいorzorzorz
270535
垢版 |
2018/03/01(木) 23:35:08.53ID:Jxqcd31Q
ん、human_play.pyは動きますね…
train.pyと何が違うんだろう?
271535
垢版 |
2018/03/03(土) 00:08:46.84ID:nviHj1ts
C++のクラスをディクショナリのキーに突っ込んでさらに参照しようとしたときにキーの比較に失敗してるっぽく見える
272535
垢版 |
2018/03/03(土) 01:00:19.05ID:nviHj1ts
__hash__と__eq__を定義するといいみたいです。
__eq__はC++のoperator==で良いみたいです。
273535
垢版 |
2018/03/03(土) 01:33:37.87ID:nviHj1ts
まだエラー出ますね。
行ったと思ったのにorz
274535
垢版 |
2018/03/03(土) 19:12:35.59ID:nviHj1ts
お、処理が進み始めました。
Board.init_boardでC++のオブジェクトを初期化してなかったのがエラーの原因だったみたいです。
275535
垢版 |
2018/03/03(土) 19:51:05.26ID:nviHj1ts
やっぱ小路盤五目並べと比べて時間かかりますね。
焦れるw
とりあえず、これでウェイトファイルが出力されれば第一段階クリアですが…
276535
垢版 |
2018/03/03(土) 20:18:47.79ID:nviHj1ts
あ〜これシングルスレッドなんですね。
まあ確かにコード読んでてもマルチスレッドには見えなかったけど。
277535
垢版 |
2018/03/06(火) 20:34:35.86ID:4NZM8BU2
ベストポリシーとか言うファイルは出力されましたが…
いかんせん遅すぎますねぇ
並列化してハードも強化してあと30倍は速くしないと…
278535
垢版 |
2018/03/06(火) 22:28:34.91ID:4NZM8BU2
んんん、もしかして仮想環境だとディスクアクセスめっちゃ重くなる?
CPUがほとんど仕事してないんだが…
279535
垢版 |
2018/03/06(火) 22:40:05.64ID:4NZM8BU2
こりゃネイティブLinux環境構築も考えるか…
280535
垢版 |
2018/03/07(水) 20:16:56.97ID:Xay4EsKj
ディスクアクセスが100近くいって処理がほとんど進まなくなっちまったorz
いったん止めるべきかな〜
281310
垢版 |
2018/03/08(木) 00:53:26.17ID:KJS05rsc
新評価関数版ようやく一通りできた。
強化学習にすごーく時間がかかりそう(汗

というわけでNew PC見繕ってます。
ノートPCでi7-8700Kの6コア12スレッドにメモリー32メガで
GTX1080搭載のノートPCがある。

むむむ。
282535
垢版 |
2018/03/08(木) 18:17:36.63ID:GeAn+CtF
お高いんでしょう?
283535
垢版 |
2018/03/08(木) 19:23:50.24ID:MQ3zVdYu
帰ってきてパソコン見てみたら学習が強制終了してました。
土曜からずっと動かしっぱなしでしたが、ここにきて強制終了は痛いですね。
解決しようにも再現させるだけで数日かかってしまうし目星を付けることすら難しそう。
284535
垢版 |
2018/03/08(木) 20:05:12.94ID:MQ3zVdYu
途中で出力されたポリシーモデルで対戦してみましたが、
予想してたよりずっとまともな手を返してきますね。
ほぼランダムに着手すると思ってました。
これはちゃんと学習できる環境整えればかなり期待できるかも!
285535
垢版 |
2018/03/08(木) 20:11:16.29ID:MQ3zVdYu
俺も良い目のノート一台買ってLinux入れようかなぁ
デスクトップ2台は手狭だからなぁ
286535
垢版 |
2018/03/08(木) 21:30:30.05ID:MQ3zVdYu
とりあえず、Linuxならパイソン動くことはわかったから
他のもっと高速化に力入れたalpha zeroプロジェクトも試してみようかな
287310
垢版 |
2018/03/08(木) 23:33:49.98ID:KJS05rsc
どもです。
お高いですが、デスクトップのフルスペックの1/3以下で済むようです。

回しっぱなしの奴がレアケースで異常終了すると萎えますね。
自分の奴は、たぶん怪しいところはほぼ蓋をしているので、今は安心しています。

とはいえ、評価値の保存に数秒かかるようになってしまったので、保存中にうっかり
終了してウェイトファイルを破壊しないように、いくつか策を講じました。最近はOSの
アップデートで勝手に再起動されちゃうので。
288535
垢版 |
2018/03/09(金) 20:26:00.14ID:wTwCUiOb
デスクトップの1/3って性能がですか?
289310
垢版 |
2018/03/10(土) 19:53:38.63ID:jEGGoWyJ
あ、価格と性能です(^^;

強化学習に凡ミス発見。
強化学習が良いのは、学習し続ければ何とか復旧できると思えるところorz
290535
垢版 |
2018/03/10(土) 20:42:21.57ID:MfccYD4W
価格コムで調べたら>>281って50万以上ですよね?
291310
垢版 |
2018/03/10(土) 23:47:40.15ID:jEGGoWyJ
こいつです。
https://www.pc-koubou.jp/products/detail.php?product_id=617093

i9-7080XEのデスクトップだとメモリー頑張ると100万ですからね…
292535
垢版 |
2018/03/11(日) 00:26:26.59ID:Rh0MFs+Y
>>291
ほほう?
ハイスペックノートの割には確かに安いですね。
293535
垢版 |
2018/03/12(月) 23:17:36.89ID:t7pU5NWq
うわパイソン部分でルール間違ってたorz
やっぱ軽くでもテストはやっておかないとあかんなorz
294310
垢版 |
2018/03/14(水) 21:17:53.41ID:Hsr0gVbu
うぬぬ。強化学習でどこかおかしい。
強化学習単純化しすぎちゃったかなぁ。

暫定的にひたすら記譜作成&記譜学習に戻しました。
遡り30手が鬼門。記譜学習で、ここをクリアする事を当面の目標にします。

とはいえ、残り29手完全読み切りの記譜がそれなりにあるのは、以前では
考えられない状況ではありますが。
295310
垢版 |
2018/03/15(木) 22:46:56.01ID:CxmBs8oA
強化学習がおかしいというより、記譜のパターンが圧倒的に足りていなかった
のかもと思い始めました。それによって、着手して分岐しても±0となっている
みたいな。

とりあえず、記譜の増殖手段を模索中。
今は、ヌルウィンドウサーチを使用して、遡り探索を行っている関係で、間違った
着手(石損となる手)を捨ててますが、ある程度までその手も読み切って、記譜に
加えても良いのかなぁと思っています。

とりあえず、βカット(もっと良い手があった)時の評価関数は明らかに読み間違い
をしているので、そこ限定で記譜に加えていますが、ある程度以上の手数は全て
付け足しても良いのかなぁと。
296310
垢版 |
2018/03/17(土) 02:14:23.31ID:Foa7nGV6
なんとなく想像しただけですが、何が悪かったのかわかり始めました。
今の学習は「良い手」しか学習していないという事です。

序盤はある程度ランダムな着手を入れて、結果がばらつくようにしていますが、
途中から読みを入れて、良い手だけで着手し、その結果を遡りで訂正しています。
遡りが有効なのは30手くらいまでで、序盤のランダムは20手程度までに抑えて
あります。とすると、遡れる範囲では、悪手を打ったらどういう事になるのかという
学習が抜けている。間違えた着手もちょっとだけ悪いだけでです。結果、最善手の
評価値はそこそこ正確なのですが、極端な悪手も、評価値としてはちょっとだけ
悪い数字でも問題が起きないという事になります。

これはこれで順序付けさえ合っていればそれで良いのですが、ちょっと学習が
進んで、微妙に係数が変わった時に、計算上0.1程度しか悪くない相当な悪手
をうっかり選択しやすくなってしまうという事で、これがオーダリングで悪さをして、
探索時間を長引かせてしまう可能性があります。

恐らく評価関数のステージ分割で、表現力がかなりアップした事から、こういう
学習漏れみたいな事が起きてくるのかなぁと。ほんと、評価関数はスカスカです。

というわけで、昨夜書いたように、ある程度深さを捨てて分岐をすべて記譜に残す
ようにしてみようかなぁと思っています。しばらく記譜作成しながら、この事を踏まえ
た強化学習をちょっと考えてみたいと思っています。
297535
垢版 |
2018/03/18(日) 22:34:31.76ID:tUeDVO3T
結果が出るまで時間がかかり過ぎるなぁ。
もうちょっと様子見るけど。。。
やっぱマルチスレッド化された別のalpha zeroプロジェクト探そうかな…
298535
垢版 |
2018/03/20(火) 21:45:14.39ID:/Ra5toxr
駄目だぁ、強くなる気配がないorz
別のalpha zero プロジェクト本気で探すか…
ここまで来てもったいない気もするけど…
299535
垢版 |
2018/03/23(金) 21:13:02.23ID:Z4T42krD
なんかバグ直して再学習したら、ランダムに打ったほうがマシ、くらいに変な手(1の1とか)打つんだが?
もう嫌になっちゃう。
300535
垢版 |
2018/03/23(金) 21:21:30.45ID:Z4T42krD
そういやLeela Zeroも学習過程では一線うってたな。。。
逆にいい傾向なのか???
301310
垢版 |
2018/03/25(日) 02:23:39.84ID:Yig4cMbl
分岐をすべて記譜にリストアップするようにしてから、爆発的に記譜が増えてます。
2000程度だったのが、15000超えました。

が、まだまだスカスカみたいです。

ここまでするんなら、真面目に自己対戦して遡りせずに、ランダム着手に対して
分岐をリストアップさせても一緒というか、早い気がしてきています(汗
302310
垢版 |
2018/03/31(土) 01:38:59.31ID:h3UgGfs1
ランダム着手も追加して記譜増殖中。ただいま32000超え。
もっとも、残り数手とかの記譜もあるけど(汗

ステージ分割しているので、記譜がなかなか生成されない25〜30手近辺で
非常に少ない教師データで何度も学習する事になり、そのあたりが極端な
過学習になってしまった。

解消方法をいくつか検討中です。
1)時間かかっても良いので、25〜30手の記譜ができるまで頑張る
2)前後の盤面を混ぜて、教師データを増やしてみる
3)ランダム強化学習してみる。

2)3)をやると、おそらく、平均化されて評価値がフラットになるが大小関係は
治ってくると思う。

というわけで、今夜は2)3)を試してみる予定。
303310
垢版 |
2018/03/31(土) 01:43:35.07ID:h3UgGfs1
あと、時々スコア指定(ヌルウィンドウサーチ)の記譜作成処理で
エラー(スコア間違い)が出る時がある。

運が悪い事にハンドリングミスその他で、記譜を残せていないので、
現象の特定ができていない。

頻度としては数日に1回くらい。

たぶん、全滅と直前のパスがらみだと思うんだけど。
304535
垢版 |
2018/03/31(土) 23:42:05.28ID:4ltMn3J2
Geforce GTX 1060を増設しました。
>>214をpytorchで学習してみます。
305535
垢版 |
2018/03/31(土) 23:46:58.88ID:4ltMn3J2
んーうごかん。
GPUありとなしでポリシーファイルに互換性がないんですかね?
もしかして。
初めからやり直すか…
306310
垢版 |
2018/04/01(日) 01:07:10.57ID:OBeH+1OH
おお。どんどん進んでますね。

こちらは、昨夜のバグの現象は特定しました。
スコアが62や−62で、mtd(f)の探索開始が64や−64の時に、
置換表に残った64や−64が悪さして、64や−64と誤答する模様。

とはいえ、どこを直すべきかはわかりません。探索開始が64や−64
の時に、62や−62にしてやる事で、姑息的に回避はできるので後回し。

あと、記譜作成に色々機能を加えていたら、どこかがおかしそうだという
不安な状態になってしまいまして。このまま記譜学習を進めて良いか自信
が無いので、今までのデータで安全な部分をテスト用に回して、新たに
記譜を作成開始。34手目までは全探索しながら普通に遡れる感じです。

33手目から先は探索時間がしんどいので、ひとしきり落ち着いてから、もう
一度、遡りチェックのプログラムをきちっと見直して、追加していこうかな
と思っています。この間に、強化学習混ぜて、過学習部分を解消して
いこうと思います。
307535
垢版 |
2018/04/01(日) 12:43:33.62ID:lACu3cfl
お、ちゃんと時間測ってないからあれだけど、気持ち速くなってる気がする。
ちゃんと時間測りたいなぁ。
308310
垢版 |
2018/04/01(日) 13:49:33.48ID:DAl+8Sdv
バグ問題は、結局姑息的手段では回避できず。
全滅がらみでほかのケースでも誤答するケースが発生しました。
元々FFO#59用にmin-Max探索に入れていた、全滅時の処理くらいしか
原因となりそうなものが思い当たらなかったので、とりあえずコメントアウト
して様子見です。全滅時の探索が速度低下しますが、仕方がありません。
309310
垢版 |
2018/04/02(月) 20:15:06.48ID:9LYme7cN
結局バグ問題は…迷宮入り臭いです。

記譜作成で負荷テスト並みに探索を繰り返すと、全滅絡まなくても間違うケースが
出てきました。再現性が無いのが辛いところ。

その昔悩んでいた時も、やっぱり置換表がらみの問題で迷宮入りでしたが、
今回も、ケチって置換表を極力クリアせずに使用していた事から、何らかの
矛盾が起きているようです。それを言っちゃうと、置換表付mtd(f)でf値を変え
ながら探索することも、またその時に作成された置換表を流用して記譜作成
兼ねた読み切り処理を速度アップすることも、怪しいという事になるわけで。
間違えてしまった事が判明した時点で、その探索は捨てるくらいしか対策が
無いという事になります。

ネットで調べたら、将棋AI界隈でも置換表の問題点を書いている人がいまして。
少なくとも深さがあっていない置換表データは使うべきではない模様。

今の調子だと一晩動かすと結構な頻度で朝見たら止まっているとい状態なので
せめて発生率を下げるべく、mtd(f)に入る前に置換表をクリアする事にしました。
なぜしなかったかというと、記譜データからスコアが確定している盤面を置換表に
入れて、それを見ながら既に読み切りしている盤面は飛ばす処理をしていたから
です。置換表をクリアして盤面再構築に時間がかかるためです。別途盤面キャッシュ
を持って、そちらは追記、置換表は毎回クリアという形に変更しました。
310535
垢版 |
2018/04/02(月) 22:24:32.85ID:3iK+AnRP
Leela ZeroがKGSでかなり強くなってる。
俺がパクったプログラムも学習し続けたらあれくらい強くなるんだろうか?
311535
垢版 |
2018/04/04(水) 20:42:51.24ID:Y0WMbzNW
え、ちょっとまってよ。
GPUありなしでポリシーファイルが違うってことは
成果物を配布しようとしたらGPU持ってる人しか遊べないってこと?
312535
垢版 |
2018/04/04(水) 20:54:25.72ID:Y0WMbzNW
しかもCUDAとかも一緒にインストールしてもらわないといけない?
ええぇ?
313310
垢版 |
2018/04/06(金) 22:00:28.44ID:952uhqxW
誤答問題は、置換表クリアで解消しました。
違う局面の探索で使用した置換表データは使いまわしてはいけないという事で。
なんか、結果的に、2年くらい前にも同じ事で騒いでいたような。

色々整ってきたので、あとはひたすら記譜作成しながら学習を回すだけになって
しまって、暇になってます。別PC買ってそっちで学習させながら、別の事をはじめ
ようかなぁと思い始めています。
314535
垢版 |
2018/04/07(土) 20:43:17.69ID:SqbCC315
うーん、つよくならないorz
学習は継続しつつ別のalpha zero プロジェクトも物色するか…
315535
垢版 |
2018/04/08(日) 22:10:18.77ID:ZB9Bj6DG
ん、なんかメモリリークあんのかな…
swigでC++から移植したクラスってデフォルトでガベージコレクトされないのかなぁ?
もしかして。
316535
垢版 |
2018/04/08(日) 22:43:04.99ID:ZB9Bj6DG
VMWareの設定がメモリ1GBになってた。
とりあえず8GBに増やしてみた。
317535
垢版 |
2018/04/08(日) 22:53:48.62ID:ZB9Bj6DG
お、メモリ増やして再起動かけたら結構いい感じで進みだした?
メモリ増やしたのと再起動かけたのどっちが効いたのかわからんが。
318535
垢版 |
2018/04/09(月) 20:58:16.91ID:500BArdX
くそ〜ベストポリシー更新が全く来ないorz
もう何回目だ?TT
319535
垢版 |
2018/04/11(水) 20:46:51.70ID:uiOmKVU+
お、メモリ増やしたせいか連続運転が安定している。
しかしベストポリシー更新は相変わらずなしorz
320535
垢版 |
2018/04/11(水) 23:07:04.06ID:uiOmKVU+
もしかして、ネットワークの初期値が糞すぎるんだろうか。
でも確かめようがないorz
321535
垢版 |
2018/04/15(日) 20:07:24.81ID:8sCJrZFg
ベストポリシー更新まじコネ〜
でも他のプロジェクトに浮気しようにもなかなか手ごろなのがないんだよなぁ
322535
垢版 |
2018/04/15(日) 20:21:37.51ID:8sCJrZFg
いっそ実績のあるLeelaZeroを本気でパクりに行ってみるべきか…
でも多分、難解なんだろうな〜
323535
垢版 |
2018/04/16(月) 20:30:05.64ID:6KBtspgu
あんまりおかしいんでソースをオリジナルとdiffとったら学習係数が1/100になってたんだがwww
え〜何時いじったかな全く記憶にないwww
これで学習が進んでくれれば!!
324535
垢版 |
2018/04/16(月) 23:37:28.33ID:6KBtspgu
loss も entropyも減ってきてる!
これでベストポリシー更新が来れば!!
325535
垢版 |
2018/04/17(火) 22:16:19.94ID:E16XJnGD
キタ━━━━━━(゚∀゚)━━━━━━ !!!!!
ベストポリシー更新きました!
次の切りのいいところで止めてプレーしてみよう
326535
垢版 |
2018/04/17(火) 22:34:03.78ID:E16XJnGD
それはそうとzen+の発売日が迫ってますね。
金がないから買えないけど情報だけは追っかけてみます。
爆速だといいな。
327535
垢版 |
2018/04/18(水) 23:48:24.10ID:7NtNWbU1
あとちょっとだけ待とう
終局までの手数も順調に減ってきてるから意味のある手を打ってるんだろう多分
ワクワク
328535
垢版 |
2018/04/19(木) 20:50:17.33ID:lyvIQrMy
打ってみました。
序盤、中盤は棋理の芽生えみたいなものが感じられました。
伸ばせそうなところを伸ばすとか伸ばされそうなところを止めに来るとか
でもわざと負けようとしても5連までは積極的に作りに来るのにそこからパタッと伸ばすのをやめて7連を作ってくれませんw
なぜw?

でもまあ、希望は感じられました。
もうすこし学習してみます。
329535
垢版 |
2018/04/19(木) 23:51:35.82ID:lyvIQrMy
zen+なかなかよさげですね。
前世代と比べて一割前後性能アップ?
330310
垢版 |
2018/04/20(金) 09:40:06.18ID:HgLFJ5UM
うーん。AMDはSIMD命令で遅い命令があって、速度低下するかもって
どこかで読んじゃったからなぁ。


こちらは地道に記譜作成しながら学習させてます。
深さ優先で記譜作成すると、分岐が少ない手筋ばかり増えていくので、
幅優先で、同じ深さである程度記譜溜まってから、次の深さとするように
したのですが、空きマス27からの記譜展開で、時間がかかるようになって
なかなか空き28マスに行けない。オーダリングの精度が出ていないから
だと思いますが、同時に選択肢も増えてきて、余計時間がかかる感じ。

空き30マス突破したら、かかる時間の増加率は下がるはずなんだけど。
331535
垢版 |
2018/04/20(金) 22:59:48.32ID:1YRRGto3
もしかして終盤はあえてランダム性を残すことによって学習が進みやすくなるなどの深い理由があるのだろうか?
わからんが。
332535
垢版 |
2018/04/20(金) 23:02:21.21ID:1YRRGto3
それとも序盤は同一局面のデータがたくさん現れるから学習できるけれど
終盤に行くとデータが散らばっちゃって学習できなくなるということだろうか
2018/04/20(金) 23:03:29.26ID:1YRRGto3
あるいは一線や二線は打たないほうがいいと学習してしまっているがため、7連を作れないのだろうか?
334310
垢版 |
2018/04/21(土) 20:32:42.81ID:AdkW58BW
オセロは記譜生成させてるだけで暇なので、将棋の事を考えてました。

KKPとかよくわからないし、同じ事をやってもつまらないので、利きを点数化
しようかと考えてみまして、実際の計算方法を考えていたら、自玉周辺と
相手玉に対する利きがKKPなのではないかと思い至ってしまいました。

持ち駒の点数は駒種毎に固定で振られていて、駒同士のぶつかりによる優劣
特に駒交換はmin-Maxにて補間しているのかなと。評価関数自体は意外と単純
な事しか学習していない感じで、探索で補っている部分が大きいように感じます。

こうやって見ると、上手く単純化しているなぁと。
自分で勝手に想像した内容に感心してしまいました。

ただ、これならこれで、自玉KPと相手玉KPの合算で、2駒関係に次元を落とせ
そうではないかと思ってしまいました。まあ、無理なんでしょうけど。

自分がやる上での一番のネックは、オセロの評価関数が点数だったために、
なんちゃって強化学習しかやった事がな点ですね。あと、みなさんライブラリ化
されていて、それに則れば色々な人の考えた高速化・高効率化のネタが利用
できる点で、一から車輪の再発明していては追い付けないよなぁと。
335535
垢版 |
2018/04/21(土) 20:39:59.86ID:8g8p+RpI
ほう、将棋に進出ですか。
将棋AI界はオープンソースが進んでる感じなんですかね。
336535
垢版 |
2018/04/21(土) 20:50:54.10ID:8g8p+RpI
alpha zero のパクりプログラムgithubから丸パクしてきたわけだけど
そろそろちゃんとソース読み解いてみようかな。難しいだろうけど

丁寧な解説がどこかにあればいいんだけどね
337535
垢版 |
2018/04/22(日) 17:35:27.70ID:QOhFsFyf
お、AIが7作った。
いままではわざと負けようとしても勝ってくれなかったけど今回は勝ってくれた。
まだまだ弱いけどもっと学習させてみよう
338535
垢版 |
2018/04/22(日) 19:13:47.98ID:QOhFsFyf
俺も学習見守るだけで暇になっちゃったからなんか始めたいけど
計算リソースが学習にもってかれちゃってるからそこどうするか。

やっぱPC新調か?

グラボも効果あるみたいだし今度はGeforce 1080 Tiとか試してみたいな。

金がないけど。
339310
垢版 |
2018/04/22(日) 19:48:13.41ID:wf3ukgDl
だよね。自分も脳内妄想で我慢です。
PC新調しちゃうか思いっきり悩み中。
340535
垢版 |
2018/04/25(水) 20:09:35.29ID:QZIUF0Ri
もっとネットワーク大きくしてみたいな。
でもさらに学習時間がかかると思うと躊躇する。
341535
垢版 |
2018/04/27(金) 21:32:10.80ID:b1G/gV5U
お、損失が3点台だったのが2点台になった。
いい感じなんじゃないでしょうか?
342535
垢版 |
2018/04/28(土) 17:38:12.12ID:MUOfiFNK
ジムケラーがインテルに来たとか。
いいCPU作ってくれるならどこでもいいけどね。
343535
垢版 |
2018/04/29(日) 20:30:57.65ID:mX318X6T
序盤は素晴らしい棋理の芽生えを感じるが、いかんせん終盤がなぁ
ほかのアルファゼロクローンも似たような感じなのだろうか?
344535
垢版 |
2018/04/29(日) 20:50:13.18ID:mX318X6T
公式AIともやってみたけど序盤センスは互角以上と感じられる。
実際、必至をかける一歩手前まで行った。
終盤力さえ磨かれればおそらく公式AI越えはある。
345535
垢版 |
2018/04/30(月) 22:51:47.16ID:qAJqtYoj
学習が1000エピソード突破。
1500が規定値だから最後まで回したいな。
346535
垢版 |
2018/05/01(火) 21:34:25.66ID:bYHVWZMu
もっとパワー、速度が欲しいな。
こんなことなら最初から1080 Ti いっときゃ良かったかな?
347535
垢版 |
2018/05/03(木) 10:58:16.57ID:gNd8xJ5s
ちょっと思うところがあって、思い切ってネットワーク大きくしてみました。
学習最初からやり直しです。

さて吉と出るか凶とでるか。
348535
垢版 |
2018/05/03(木) 13:28:58.30ID:gNd8xJ5s
ん、ネットワーク構成変えたら学習率もいじらないと上手くいかないのか?
ネットワークでかくしたら学習率は大きくすればいいのか小さくすればいいのか…
349535
垢版 |
2018/05/03(木) 13:42:41.42ID:gNd8xJ5s
ネットワークでかくしたら学習率は小さくするのがいいみたい?
350310
垢版 |
2018/05/03(木) 20:31:46.75ID:EAR7zekO
なんか順調でうらやましい。
俺もやっぱGPU付きのPC買うべかな。

一般的にLRでは、学習率は発散しない限界まで大きくするのが良いらしく、
昔は、最初大きく、試行回数増えるごとにだんだん小さくみたいな事をしてました。
NNではRMSPropとかADAMとかで自動調整する流れだと当時理解していました。
ただ、Googleの論文読むと、普通に学習率固定っぽく読めてしまうんですよね。
強化学習だと学習率固定が良いのかも知れません。

表現力大きいからあんまり問題ない気がするのですが、学習率は小さくすると
学習に時間がかかる代わりに、収束しやすくなります。局所解には陥りやすく
なるのではないかと愚考しますが、強化学習における局所解と、教師付学習に
おける局所解は現象が違うから、よくわかりません。
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況