【オセロ,将棋】ボードゲーム Part2【囲碁,War】

**名前は開発中のものです。** · 2017/10/15(日) 17:34:58.03

比較的地味なボードゲーム専用のスレが欲しくて立ててみました。

前スレ
【オセロ,将棋】ボードゲーム【囲碁,War】
http://mevius.2ch.net/test/read.cgi/gamedev/1057763418/

**310** · 2018/04/21(土) 20:32:42.81

オセロは記譜生成させてるだけで暇なので、将棋の事を考えてました。

KKPとかよくわからないし、同じ事をやってもつまらないので、利きを点数化
しようかと考えてみまして、実際の計算方法を考えていたら、自玉周辺と
相手玉に対する利きがKKPなのではないかと思い至ってしまいました。

持ち駒の点数は駒種毎に固定で振られていて、駒同士のぶつかりによる優劣
特に駒交換はmin-Maxにて補間しているのかなと。評価関数自体は意外と単純
な事しか学習していない感じで、探索で補っている部分が大きいように感じます。

こうやって見ると、上手く単純化しているなぁと。
自分で勝手に想像した内容に感心してしまいました。

ただ、これならこれで、自玉KPと相手玉KPの合算で、２駒関係に次元を落とせ
そうではないかと思ってしまいました。まあ、無理なんでしょうけど。

自分がやる上での一番のネックは、オセロの評価関数が点数だったために、
なんちゃって強化学習しかやった事がな点ですね。あと、みなさんライブラリ化
されていて、それに則れば色々な人の考えた高速化・高効率化のネタが利用
できる点で、一から車輪の再発明していては追い付けないよなぁと。

**535** · 2018/04/21(土) 20:39:59.86

ほう、将棋に進出ですか。
将棋AI界はオープンソースが進んでる感じなんですかね。

**535** · 2018/04/21(土) 20:50:54.10

alpha zero のパクりプログラムgithubから丸パクしてきたわけだけど
そろそろちゃんとソース読み解いてみようかな。難しいだろうけど

丁寧な解説がどこかにあればいいんだけどね

**535** · 2018/04/22(日) 17:35:27.70

お、AIが７作った。
いままではわざと負けようとしても勝ってくれなかったけど今回は勝ってくれた。
まだまだ弱いけどもっと学習させてみよう

**535** · 2018/04/22(日) 19:13:47.98

俺も学習見守るだけで暇になっちゃったからなんか始めたいけど
計算リソースが学習にもってかれちゃってるからそこどうするか。

やっぱPC新調か？

グラボも効果あるみたいだし今度はGeforce 1080 Tiとか試してみたいな。

金がないけど。

**310** · 2018/04/22(日) 19:48:13.41

だよね。自分も脳内妄想で我慢です。
PC新調しちゃうか思いっきり悩み中。

**535** · 2018/04/25(水) 20:09:35.29

もっとネットワーク大きくしてみたいな。
でもさらに学習時間がかかると思うと躊躇する。

**535** · 2018/04/27(金) 21:32:10.80

お、損失が３点台だったのが２点台になった。
いい感じなんじゃないでしょうか？

**535** · 2018/04/28(土) 17:38:12.12

ジムケラーがインテルに来たとか。
いいCPU作ってくれるならどこでもいいけどね。

**535** · 2018/04/29(日) 20:30:57.65

序盤は素晴らしい棋理の芽生えを感じるが、いかんせん終盤がなぁ
ほかのアルファゼロクローンも似たような感じなのだろうか？

**535** · 2018/04/29(日) 20:50:13.18

公式AIともやってみたけど序盤センスは互角以上と感じられる。
実際、必至をかける一歩手前まで行った。
終盤力さえ磨かれればおそらく公式AI越えはある。

**535** · 2018/04/30(月) 22:51:47.16

学習が1000エピソード突破。
1500が規定値だから最後まで回したいな。

**535** · 2018/05/01(火) 21:34:25.66

もっとパワー、速度が欲しいな。
こんなことなら最初から1080 Ti いっときゃ良かったかな？

**535** · 2018/05/03(木) 10:58:16.57

ちょっと思うところがあって、思い切ってネットワーク大きくしてみました。
学習最初からやり直しです。

さて吉と出るか凶とでるか。

**535** · 2018/05/03(木) 13:28:58.30

ん、ネットワーク構成変えたら学習率もいじらないと上手くいかないのか？
ネットワークでかくしたら学習率は大きくすればいいのか小さくすればいいのか…

**535** · 2018/05/03(木) 13:42:41.42

ネットワークでかくしたら学習率は小さくするのがいいみたい？

**310** · 2018/05/03(木) 20:31:46.75

なんか順調でうらやましい。
俺もやっぱGPU付きのPC買うべかな。

一般的にLRでは、学習率は発散しない限界まで大きくするのが良いらしく、
昔は、最初大きく、試行回数増えるごとにだんだん小さくみたいな事をしてました。
NNではRMSPropとかADAMとかで自動調整する流れだと当時理解していました。
ただ、Googleの論文読むと、普通に学習率固定っぽく読めてしまうんですよね。
強化学習だと学習率固定が良いのかも知れません。

表現力大きいからあんまり問題ない気がするのですが、学習率は小さくすると
学習に時間がかかる代わりに、収束しやすくなります。局所解には陥りやすく
なるのではないかと愚考しますが、強化学習における局所解と、教師付学習に
おける局所解は現象が違うから、よくわかりません。

**310** · 2018/05/03(木) 20:37:19.91

こちら、例によってひたすら分岐付き記譜を作成しています。
空きマス２７の所（完全読みとしては２６）のところから、計算時間が案の定すごく
かかるようになってしまって、遅々として進まなくなりました。

最後の手段でとっておいた、UCT探索で仮PV作成し、それでmtd(f)にて評価値を
迅速に確定して、その評価値で正しいPVを求めるという流れにしたところ、恐らく
数倍程度に高速化され、それによって記譜が集まり正確になる事で、評価関数の
精度が上がって、仮PVが正確になりという好循環に、ようやく入る事ができました。

ただ、それでもまだ時間はかかるというか、今空きマス２８まで持っていったら、
また時間がかかる地獄に入りそう。最低でも空きマス３０までは持っていきたい。

つか、待っている時間が長い…セカンドPCが欲しい。

**310** · 2018/05/03(木) 20:41:41.51

>>351
＞数倍程度に高速化され

あくまで仮PVが数手分合っている時の話で、仮PVが間違っていると、
むしろ遅くなる可能性があります。

あと、一つの局面に対し、最善手が複数あるケースでは、例えば最善手
が２つあると２倍程度時間がかかるという問題があるのは認識していて、
対策は可能なのですが、そうするとバグった時にβカットのエラーを吐か
ないという恐ろしい状態になってしまうので躊躇しています。

**310** · 2018/05/04(金) 19:57:24.12

世界コンピュータ将棋選手権の２次予選までで強さをみせつけている
T.N.K（通称たぬき）ですが、DL勢にして高速評価関数という事なので
アピール文書を見てみました。

これ、CNNではなく、全結合のDeep Networkの模様。追加で論文も
出ているので、見たところ５層のMLPです。

入力層に玉との２駒関係を使っていて、そこは計算量が多いので、
ここだけ差分計算で高速化しているとの事。自分は行列をEigenに
任せちゃってるので差分計算していませんが、オセロでも結構使え
るはず。

もう一度オセロをMLPに拡張したくなってきた（汗

**535** · 2018/05/07(月) 20:19:04.83

ネットワーク大きくすると学習が収束する確率下がるんですかね？
なんか学習がうまく進んでないようです。

**535** · 2018/05/08(火) 00:21:37.96

もしかして学習率だけでなく、ほかのパラメータにも手を加えなければならないってことですかね？

**310** · 2018/05/08(火) 01:01:09.30

バックプロパゲーションで計算している以上、深さが深くなると、
その分初段まで誤差を遡らせるのに時間がかかるから、収束が
遅くなって当然かと思います。

あと、初期値のランダム値の幅も、適切に設定しないとなかなか
収束しなくなりますし、それでも初期値の運が悪いとまったく収束
しないなんて事もあり、ちょこっと不安定なところがあります。

XavierとかHeとか初期値の設定項目はありませんか？
本で読んだ知識なので、現実にどれくらい影響するのか良くわかりませんが（＾＾；

**535** · 2018/05/08(火) 19:21:19.88

おお、ありがとうございます。
しらべてみます。

**535** · 2018/05/09(水) 21:58:37.29

パソコン壊れたかと思ったが放電したらなおった
あー怖かったTT

**535** · 2018/05/10(木) 20:05:15.86

学習率の変動率？を下げたら結構うまく動いてるっぽいです。

**535** · 2018/05/11(金) 20:15:31.62

loss とか entropyはいい感じに減ってるのに自己対局の結果がついてこないですね。
うーん、なんだろう？

**535** · 2018/05/12(土) 17:16:50.40

いや、自己対局もちょっとづつ改善してるみたいです。
もっと時間が必要かな。

**535** · 2018/05/13(日) 18:33:11.99

windowsがたまに夜中に勝手に再起動してしまうんだが？
マジむかつく（怒

**310** · 2018/05/13(日) 19:53:17.92

Windows Updateかな？
俺は通知もらうだけにして、タイミング見て自分で再起動かけてる。
まあ、２４時間経つとカウントダウンが始まるので、早目に再起動する事になるけど。

**535** · 2018/05/16(水) 19:41:44.02

いままで50エピソード毎に自己対戦してたけど、自己対戦がかなり重いから200エピソード毎に自己対戦にしたらなかなかいい感じ。

**535** · 2018/05/16(水) 20:52:45.23

ネットワーク大きくしても詰めが甘いのはかわらないですねorz.
公式AIに勝つチャンスあったのに勝ちを逃してしまいました。

**310** · 2018/05/17(木) 20:16:35.67

Surfaceの電源ケーブル、そろそろ断線しそうだなぁと思っていたら、
PCをひょいと動かした瞬間に、まさかの電源落ち。

ウェイトデータ書き込み中に停まらないように色々工夫していても、
この手の落ちには対処できるわけもなく、また大変に運が悪い事に
またしても後半１０ステージ程度のウェイトデータが飛んでしまい
ました。バックアップとっていたのですが、気づかずにいたので、既に
上書き済みという罠。

後ろ１０ステージ分のみゼロクリアして、そこだけ今のデータで再度
学習する羽目になりました。

orz

**535** · 2018/05/17(木) 20:37:00.03

乙ｗ

**535** · 2018/05/17(木) 23:06:00.81

これはNew マシンを買えとの神のお告げｗｗ

**535** · 2018/05/18(金) 20:48:52.38

まただよｗ（再起動）

**名前は開発中のものです。** · 2018/05/18(金) 21:21:28.72

藤井聡太さんが7段昇格とか。
凄すぎ

**535** · 2018/05/19(土) 20:01:16.80

むう、AlphaZeroのポテンシャルはこんなものではないはずだが。
でも100万局くら学習させないと真価は発揮できないかもなぁ。

**535** · 2018/05/20(日) 23:46:47.79

19路囲碁だと20層くらい層がないと駄目だとか。
うーん20層は厳しい。。。

**310** · 2018/05/21(月) 20:17:29.25

畳み込み窓が３×３で、隣との関係を１マス分づつ認識しているとすると、１９路で
１９層必要で、出力の全結合層つけて２０層って事なのかなぁ。

あとフィルタ数も大事だと思う。フィルタで認識する特徴の種類が決まっていると思う。

なんとなくだけど、こう仮定している。検証はしていない（汗

**535** · 2018/05/21(月) 21:00:41.57

いまのところ192 * 6 でやってます。
9路だから192 * 10 にすればよかったかなぁ

**310** · 2018/05/22(火) 20:12:53.71

五目系なら、周辺５マスが把握できていればよいかもよ。
比較検証しなきゃわからんけど。

**535** · 2018/05/22(火) 20:18:42.34

うーん、そうなんですか？。
ライフゲーム囲碁はもろ周辺5マスなんですけどね。
囲連星成功したらライフゲーム囲碁もやりたいですね。

**535** · 2018/05/23(水) 23:49:25.39

くそ～何時まで経っても一手の重みみたいなものを理解してくれないorz.
なんか足の遅い打ち方するんだよなぁ。
もういっそ20層にしちゃおうかな orz

**535** · 2018/05/24(木) 20:38:02.47

ん、ちょっとづつだけど強くなってる気がする。。。
くそ～Googleの計算リソースがあれば30分くらいで名人超えるんだろうけど。。。

**535** · 2018/05/24(木) 20:57:44.30

自己対戦が勝率100%行ってしまいました。
対戦相手も更新されていくなら勝率100%は行かないと思うんですが。
もともとの実装がなにかおかしいのだろうか…

**535** · 2018/05/25(金) 23:18:10.63

まだ公式AIに勝てないけど毎日ちょっとづつ進歩しているのは感じる。
まだ希望はある。

**535** · 2018/05/26(土) 20:20:48.78

Alpha Zeroのアルゴリズムは囲連星よりもライフゲーム囲碁に向いてる気がする。

**535** · 2018/05/26(土) 21:33:20.38

FacebookがＥＬＦ　ＯｐｅｎＧｏというのを公開したとか。
プロ棋士にも勝てるみたいですね。

**535** · 2018/05/27(日) 19:07:25.97

ELF OpenGo もGPU 2000台とか使わないと強くならないみたい？
は～絶望する。

**535** · 2018/05/28(月) 22:00:33.18

昔のLeela zeroもそうでしたがシチョウが読めてないっぽいですねぇ

**535** · 2018/05/28(月) 22:12:43.53

でもちょっとづつでも確かに前進してる気がします。
ロールアウトの回数増やしたら学習の質も上がるかなぁ？
やってみるか。。。

**535** · 2018/05/29(火) 20:13:27.71

ん、lossとentropyがかなり増えてますね。
ロールアウトを増やしたえいきょうだろうか？

**535** · 2018/05/29(火) 21:44:21.56

ネットワークを192 * 20 にしたい衝動に駆られるｗ
危険な賭けだが…

**535** · 2018/05/30(水) 22:20:56.63

ｷﾀ━━━━━━(ﾟ∀ﾟ)━━━━━━ !!!!!
公式AIに初勝利！
内容としては相手のミスに助けられただけだけどそれでも格段に進歩してる！

(
;FF[1]GM[1]SZ[9]
;B[fe];W[fc];B[de];W[dc];B[ed];W[ec]
;B[gc];W[gb];B[ee];W[cb];B[ce];W[hb]
;B[ge];W[fh];B[be];W[gd];B[he])

**535** · 2018/05/31(木) 22:06:07.55

惜しい！惜しいなぁ。
中盤まで内容は圧倒しておきながら最後の盤端のシチョウが読めずに逆転負け。
学習途中のAlpha Zero系の弱点が出てしまいました。
でも、ここ克服したら100戦100勝もあり得るかも。

(
;FF[1]GM[1]SZ[9]
;B[df];W[fe];B[de];W[cg];B[ef];W[hg]
;B[ff];W[gf];B[cf];W[gd];B[fg];W[gh]
;B[dg];W[gc];B[gg];W[ge];B[dc];W[hb]
;B[dd];W[dh];B[db];W[da];B[eh];W[ha]
;B[eg];W[hc];B[he];W[ie];B[hf];W[if]
;B[hd];W[id];B[he];W[ch];B[hf];W[hd]
;B[he];W[hf];B[di];W[he])

**535** · 2018/06/01(金) 22:15:38.64

本来負けてたはずのゲームですが逆転勝利しました！
以前より大分、棋理のようなものが身についてきている感じがします。
ロールアウト増やしたのが効いたかな？

(
;FF[1]GM[1]SZ[9]
;B[df];W[fb];B[ef];W[ff];B[fe];W[ge]
;B[fg];W[gf];B[gg];W[cg];B[cf];W[hg]
;B[fd];W[gd];B[gc];W[hc];B[fc];W[hb]
;B[hf];W[hd];B[he];W[eg];B[dg];W[hh]
;B[eh];W[eb];B[dd];W[gb];B[db];W[dc]
;B[ec];W[de];B[cc];W[bc];B[ed];W[id]
;B[ce];W[ie];B[ei];W[bh];B[ee];W[ba]
;B[eg])

**535** · 2018/06/02(土) 21:54:09.55

ぼちぼちウインドウズに移植することも考え始めなければ…

**535** · 2018/06/04(月) 20:50:12.16

毎日棋風がすこしずつ変わっていくな。
面白い。
3線を重視し始めたようだ。

**535** · 2018/06/04(月) 21:29:44.63

なんかネットワークの規模が足りてない気がしてきたわ。orz orz orz
一気に256 * 20くらいに増やしてみようかな？
気が早いかな～

**535** · 2018/06/04(月) 21:42:52.90

うーん、どうせやり直すなら早いほうがいいよね？
でもこのまま学習続けたら何が起こるかも知りたいし…
悩ましい。

**535** · 2018/06/04(月) 22:55:50.50

思い切ってネットワーク構成を256 * 24 にしました。
激遅になりそうだが…

**535** · 2018/06/04(月) 23:05:36.60

ネットワークを192 * 6 から 256 * 24 にしたら計算量は(256*24)/(192*6)=5.333倍であってる？
まさか指数的に計算量増えたりしないよね？

**535** · 2018/06/04(月) 23:18:15.88

メモリが足らんといわれたぜｗｗｗ
１２GBも割り当てたのにｗｗｗｗ

こりゃニューマシン買うしかないな。

**535** · 2018/06/05(火) 00:01:42.42

とりあえず、64 * 24 にしてみました。
これでも6GB位メモリ食う。

まじでスレッドリッパーに128GB積みたい衝動に駆られるｗ

**535** · 2018/06/06(水) 21:01:18.82

やっぱ24層は無理かもorz
全然学習が進んでるように見えないorz

**310** · 2018/06/06(水) 21:38:17.47

残り２８手のところで１か月足踏み。やっと記譜がたまってきた。
残り３０手まで行くのに半年くらいかかりそうｗ

というか、まだまだパターンが足りていないかも。

>>396
隠れ層のサイズは２乗で効いてくるから、256^2/192^2。
深さは単純に計算量が４倍になるとして、ざっと７倍くらいになるのでは？

学習は深さが増えるとどんどんきつくなるかと。
誤差逆伝播の宿命です。

**535** · 2018/06/06(水) 22:38:14.91

＞隠れ層のサイズは２乗で効いてくるから
おお、そうなんですか。ありがとうございます。

＞学習は深さが増えるとどんどんきつくなるかと。
24層は諦めました。
今12層くらいで試行錯誤しています。

**535** · 2018/06/07(木) 00:15:51.92

うーん、極めて微妙なバランス調整を強いられるのか？これは

**310** · 2018/06/07(木) 22:47:08.28

マシンパワーが潤沢にあれば、かなり大きいネットワークから学習させて、
最低限どれくらいの大きさなら弱くならないかが求められるんだけどねぇ。
Googleみたいに。

**535** · 2018/06/07(木) 22:50:20.44

そういえば新しいスレッドリッパーは32コアになるとか。
うーん欲しい。

**310** · 2018/06/08(金) 09:01:40.50

今見た。６４スレッドだってｗ

**535** · 2018/06/08(金) 21:09:32.65

あんまりうまくいかないから気分が萎えてきちゃった。
少し気分転換するか…

**535** · 2018/06/09(土) 22:29:54.70

層を9層に減らして再チャレンジ
どんどん後退していくが仕方ない

**535** · 2018/06/10(日) 22:48:39.36

Googleが無料で12時間のクラウドGPUを提供してるとかなんとか
https://www.tdi.co.jp/miso/google-colaboratory-gpu

**535** · 2018/06/11(月) 20:34:52.58

くそーどうにもうまく行かね～
一回試すのに結構時間かかるのも痛いorz

**535** · 2018/06/12(火) 18:16:53.37

あんまり上手くいかないんで頭おかしくなりそう
ちょっと休憩します

**310** · 2018/06/12(火) 22:17:08.85

NNの罠ですな。
自分が逃げたのは、それです（汗

**535** · 2018/06/12(火) 22:59:32.98

>>411 くそー
パラメータ100種類くらい用意して同時に実行したい orz

**535** · 2018/06/15(金) 20:18:16.05

CPU Ryzen 2700X
GPU Geforce 1080
Memory 64GB
SSD 500GB

これを満たそうとするとやはり40万円近くなる。
厳しい。

**535** · 2018/06/15(金) 23:05:29.07

フロンティアってショップかなり安くない？
なんか裏があんのかな？

**310** · 2018/06/16(土) 09:22:12.72

フロンティアと言えば懐かしのフロンティア神代（こうじろう）かなと思ったらビンゴでした。
Wikipedia情報によると、フロンティア神代はヤマダ電機に吸収されて解散していて、
BTOショップにフロンティアという名前だけ残っているみたいです。

ヤマダ電機なので裏は無いでしょうね。

7980XEに1080Tiで128Mとかにしていくと、だいぶ価格差は詰まっていきますが、
それでも多少安いみたいですね。というか、8700Kだったらかなり安いかも。

**535** · 2018/06/16(土) 23:00:41.95

pytorchってAMDのGPU使えないよね？
Cudaだよね？

**535** · 2018/06/16(土) 23:08:34.52

多層を重ねるのは諦めてフィルタ数で勝負というのもあるだろうか？

**535** · 2018/06/17(日) 20:06:40.29

実はこっそり再開してましたが9層からさらに後退すべきか悩んでます。
ここから1層づつ減らしていって学習がまともに進むところまで後退するのを考えています。

**535** · 2018/06/18(月) 21:07:45.14

8層も望み薄
7層は囲連星が7目並べだからあるいみちょうどいいかも？

**535** · 2018/06/18(月) 23:34:21.39

お、7層はうまくいくかも
まだわからないけど

**535** · 2018/06/18(月) 23:35:41.11

でも6層でだめで7層でOKというのもちょっと考えづらいといえば考えづらいんだよなぁorz.

**310** · 2018/06/19(火) 00:55:25.28

ゲームとして必要最低限と思われる最低限の層数から１層づつ増やして行って、
一つ前の奴に有為に勝てる様になるまでの学習時間を図っていくという手もある
かなと思います。

面倒でやりたくないですが。

自分はひたすら記譜作成。
少しづつ改良を加えていますが、残り２８手（読み切りとしては２７手）で足踏みして
います。早ければ６分程度で終わるのですが、いかんせん２５～２６手目の評価
関数が穴だらけみたいで、長いと４時間とかかかってしまい、なかなか棋譜が集め
切れません。記譜が集まると速くなるのですが、集まるまでの時間がかかりすぎ。

**535** · 2018/06/19(火) 22:25:49.15

パラメータ調整ってプログラミング本来の楽しみがほとんどなくてそこが辛い。
とくに他人のコードだと。
弱くてもオリジナルのヒューリスティック実装するのは楽しいんだよなぁ。
うーん。

**310** · 2018/06/19(火) 23:13:29.58

すごくわかりますorz
だから、非効率でも、自分でNNのライブラリ作っちゃおうとしたりするのでする。

**535** · 2018/06/20(水) 20:38:16.59

7層も駄目っぽいorz orz orz
もう少し粘るか悩むorz orz orz

**535** · 2018/06/20(水) 21:21:48.36

そこそこ上手くいってた6層のバックアップを引っ張り出して続きの学習をさせてみることにしました。
結局、全部無駄だった orz orz orz

**310** · 2018/06/23(土) 00:43:44.99

長いと４時間…

出張中に丸４８時間動かしっぱなしにしましたが、３つしかできなかった。
一つ１６時間ｗ

**535** · 2018/06/24(日) 23:17:32.46

なんか異様に辺の星を重視するようになった。
ちょっと単純化しすぎな気がするが、やっぱ層が足りてないのか？

**535** · 2018/06/25(月) 20:09:56.17

んあ、なんか一線打つようになった？
過学習かなんかか？

**535** · 2018/06/25(月) 20:42:46.09

結局6層も駄目なのかなぁ orz orz orz
アルファゼロのポテンシャルはこんなものではないはずだが。orz orz orz

**535** · 2018/06/25(月) 21:48:22.04

もうちょっと粘ってみるけど、アルファゼロ（少なくとも>>214のプログラム）からの撤退も考え始めてるorz orz orz

**535** · 2018/06/26(火) 21:04:26.12

お、一線に打つのは治ったようです。

**535** · 2018/06/27(水) 21:01:58.89

お、すごい！
まだ詰めはあまいけど、まるで地を取ることはいいことだという棋理を理解したような打ち方で勝った！
まだ希望はある！
(
;FF[1]GM[1]SZ[9]
;B[ee];W[eg];B[ec];W[ff];B[gd];W[dg]
;B[cd];W[cg];B[fd];W[dd];B[de];W[fh]
;B[gg];W[gh];B[hh];W[gf];B[hg];W[dc]
;B[hf];W[bg];B[he];W[ah];B[hc];W[hd]
;B[id];W[ba];B[hb];W[bi];B[hd])