【オセロ,将棋】ボードゲーム Part2【囲碁,War】

**名前は開発中のものです。** · 2017/10/15(日) 17:34:58.03

比較的地味なボードゲーム専用のスレが欲しくて立ててみました。

前スレ
【オセロ,将棋】ボードゲーム【囲碁,War】
http://mevius.2ch.net/test/read.cgi/gamedev/1057763418/

**535** · 2017/10/16(月) 21:32:43.84

ここって書きこみないと落ちちゃうとかあるんでしたっけ？
とりあえず、スレたて乙です。

**535** · 2017/10/16(月) 22:46:32.02

どこかにtiny-dnnのまとまったドキュメントないですかね～
とりあえずvec_tというのが何者かわからないorz.

**名前は開発中のものです。** · 2017/10/16(月) 22:57:12.10

どもです。

強化学習ですが、まだまだ時間がかかりそうで、業を煮やして学習率あげたら、
バリューが発散してやり直し（汗

ちょっと工夫を加えて、強化学習を数回したら、MCTSで自己対戦して記譜作成。
記譜を見て学習の進捗を計りながら、過去に採取した記譜で軽く教師付き学習
させて、学習の方向性を補正しつつう、後半部分の精度を少しづつ上げて、強化
学習がはかどるようにしようとしてます。

というわけで、純粋な強化学習ではなくなってしまった。

**535** · 2017/10/16(月) 23:09:26.31

名前はどうしましょうかね～
新スレだし310,535を名乗るのもなんですね…

**名前は開発中のものです。** · 2017/10/16(月) 23:10:47.72

>>3
日本語紹介記事
https://qiita.com/nyanp/items/11c6bb6fb539486c5069

作者の実装ノート
https://github.com/tiny-dnn/tiny-dnn/wiki/%E5%AE%9F%E8%A3%85%E3%83%8E%E3%83%BC%E3%83%88

英語
https://github.com/tiny-dnn/tiny-dnn/wiki
http://tiny-dnn.readthedocs.io/en/latest/how_tos/How-Tos.html

こんなの見てました。

vec_tについては、３番目のwikiのData-Format
＞　https://github.com/tiny-dnn/tiny-dnn/wiki/Data-Format
に、vector<double>であると書かれています。

なんちゃらparserってのは、外部のデータをtiny_dnnの内部形式である、
vec_tやlabel_tに変換するユーザ関数で、用途に合わせて自分で書かなけ
ればならないものです。入力データが２次元であっても、左上から右下に
一列のベクトルとしてセットして、縦横の情報はレイヤー定義で与えます。

**535** · 2017/10/16(月) 23:18:52.91

おお、ありがとうございます。
読んでみます。

**535** · 2017/10/19(木) 00:44:02.75

気が散ってほかのことをしてしまうorz.
先延ばし先延ばしにしてしまうorz.

**535** · 2017/10/19(木) 00:44:48.21

IDがNEWSや！

**名前は開発中のものです。** · 2017/10/19(木) 15:52:29.71

アルファ碁ZEROだそうな。
自己対局の強化学習のみだそうな。
レート５０００越えだそうな。

囲碁AIやらなくてよかった・・・

**535** · 2017/10/19(木) 17:50:51.04

旧アルファ碁に100戦100勝て
宇宙やばいってレベルじゃねーぞ？

**名前は開発中のものです。** · 2017/10/20(金) 15:58:45.15

掲示板情報を総合するとMCTSなんだけどRolloutを使っていないという事らしい。
現在出張中なので、論文ダウンロードを躊躇しているけど、読みたいなぁ。

自分のオセロでは、スピードを稼ぐためにRolloutにヒューリスティックスな次の１手
を使用しているけど、自己対戦見ていると序盤良い感じで来ていると、Rolloutが間違
えて、負け手順に入る事が多い。それで、Rolloutせずに（したふり）Valueの遡りだけ
でQ値を計算したらどうかと思っていたんだけど、そういう事なのかなぁ。Rolloutを
省略しちゃうと、ものすごいスピードアップするので、探索が深くなるんだよなぁ。

先にやっちゃえばよかった（汗

**535** · 2017/10/20(金) 22:03:42.47

すいません、310じゃなくてもいいのでなんかコテつけてくれませんか？
どうせ2人しかいないからわかるっちゃわかるけどｗ

**310** · 2017/10/20(金) 22:21:51.68

あ、つけ忘れ失礼。

Rollout無し版を試してますが、何故か最近静まっていた終盤読み切りのエラーが（汗
撲滅していたはずなんですが・・・

**名前は開発中のものです。** · 2017/10/24(火) 00:38:25.07

Rollout無しのMCTSは圧倒的な探索深さを実現できるかわりに、今までRolloutで
修正かけていた評価値の誤りがダイレクトに出て、読み間違いは相変わらずです。

強化学習が進めば治るはずですが、SGDでは遅々として学習が進まないので、
optimizerをSMORMS3に戻して、一旦記譜学習を増やしてみました。やはり学習速度
が圧倒的に違います。そして、このやり方でも大丈夫っぽいです。

どうも遠回りしていたようです（汗

**535** · 2017/10/25(水) 20:54:40.99

なんだろう、このtiny-dnnの得体のしれぬハードルの高さは…
パッと見、すごくよさげに見えるのに全然前に進めない。
なんだろう…なんだろう…

**535** · 2017/10/26(木) 00:13:05.87

とりあえず、mnistのやつは正解をlabel_tで渡すみたいだけど
局面の勝率を正解にしたい場合はどうすればいいんだろう？
ラベルと勝率じゃデータ構造違うよね多分？
それとも同じなんだろうか…

**535** · 2017/10/26(木) 00:16:30.06

内積とると考えれば勝率を一次元のベクタと見なせばつじつまが合うのか？

**名前は開発中のものです。** · 2017/10/26(木) 09:53:53.13

>>17
mnistは、分類器（他クラス分類）なので、活性化関数はsoftmaxになり、教師データ
はlabel_tで与えます。別にvec_tでも良いですが、例えば３という答えに対して、
label_tは{3}なのに対し、vec_tは{0,0,0,1,0,0,0,0,0,0}などとなって冗長なので、label_tが
用意されているわけです。他にも、誤差の計算方法が違うなんてのもあります。

一方、ゲームの勝敗予想は２値分類問題なので、活性化関数はsigmoidで、教師
データはvec_tとして、勝利を{1}、敗北を{0}として与えて学習させます。

オセロには引き分けがあるので、引き分けは{0.5}としてみましたが、勝率５０％と引き
分けでは意味がまったく違うのが悩みの種です。２人ゼロ和完全情報ゲームでは
勝率５０％というのは理論上存在しないのですが、強化学習の途中などでは生じます
からね。

なお、tiny_dnnでは２値分類や回帰の学習には入力データも教師データもともにvec_t
で与えてfitを用い学習します。mnistのような他クラス分類でlabel_tで教師データを与え、
学習をする時はtrainを使用します。

**名前は開発中のものです。** · 2017/10/26(木) 09:55:34.54

×　他クラス分類
○　多クラス分類

ですね。IMEのアホたれ（汗

**535** · 2017/10/26(木) 21:09:13.33

おおーありがとうございます。
trainの代わりfitってのがあるんですね。
ドキュメント読もうとしても英語ということを差し引いても
気が散っちゃって目が滑っちゃってどうにも駄目です。

試してみます。

**名前は開発中のものです。** · 2017/10/26(木) 22:02:22.81

CNNの例題は大抵が多クラス分類問題ですからね。
説明がfit中心になりがちです。
つか、僕もかなり目が滑りました（汗

**535** · 2017/10/26(木) 23:07:10.48

うお、コンパイル通ったけど不正終了するorz
ネットワークの形が不整合起こしてるのかなぁ

**535** · 2017/10/26(木) 23:47:16.17

動いた！
入力の形がおかしかったみたい。

**535** · 2017/10/27(金) 00:51:01.21

cross_entropyだと動くのにmseだと落ちる
完全に意味不明

**535** · 2017/10/27(金) 01:02:07.81

cross_entropyでも動かなくなったｗ
なんなのｗｗｗ

もう寝る

**名前は開発中のものです。** · 2017/10/27(金) 01:02:52.52

その辺まで来ると記憶があやふやに（汗
でも落ちた記憶はないかなあ。

http://tiny-dnn.readthedocs.io/en/latest/how_tos/How-Tos.html#handle-errors

この辺の参考にしてcatchしてエラーの内容表示してみました？

**名前は開発中のものです。** · 2017/10/27(金) 01:34:38.06

rollout無しにして探索速度がかなり上がったのですが、１０手目近辺には
ツリーの深さが５０手まで達してしまいまして、今度はスワップとの闘いに
なりつつあります。探索幅をケチればスワップは回避できるのですが、
そうすると読み漏れが・・・。

８ギガ程度じゃこの速度を活かせません（汗

**310** · 2017/10/27(金) 09:09:34.47

あれれ。また名前が消えていた（汗
お分かりの通り、今のところ名無しは310です。

**535** · 2017/10/27(金) 21:44:23.84

なんかキャッチできたみたいです。
bad allocation
だそうです。

いまはmain全体をtryでくくっているのでどこで例外が出ているのかよくわからないですね。
まずはそこの絞り込みですかね。

**535** · 2017/10/27(金) 22:06:52.63

なんかスタックオーバーフローっぽい。

**535** · 2017/10/27(金) 22:12:35.89

盤面のデータをvectorに突っ込んで返す関数があるのですが、
盤面のデータがでかすぎるってことみたいですね。どうやら

**535** · 2017/10/27(金) 22:13:39.78

>>27
解決したみたいです。
ありがとうございました。
助かりました。

**535** · 2017/10/27(金) 22:45:06.44

スタックオーバーフローじゃなくて32bitだとメモリが足りないってことみたい。
64bitでコンパイルしたら正常に動いたみたいです。

**535** · 2017/10/27(金) 23:11:51.03

動いてるように見えるけどエポックが進んでも損失が変わらない。。。
何を間違えてるんだろう？

**535** · 2017/10/28(土) 01:11:42.69

ネットワーク少し複雑にしたら激遅になったorz.
も～ムカつく。

**535** · 2017/10/28(土) 01:24:04.86

ん、これシングルスレッドで動いてるん？
マルチスレッドに出来るのかな…

もう今日は寝ます。

**310** · 2017/10/28(土) 13:51:26.14

ネットワーク１段増やすだけで信じられないくらい遅くなりますよね。
最初に十分に深くして学習させて、だんだん減らしながら適切な深さを
求めたいんだけど、この速度低下を考えると、本当に学習できるのか
わからないままだんだん深くしていくしか無いというのが萎える点です。

スレッドについては、リソースモニターで確認するとわかりますね。

ヘッダのどこかに並列化の設定があったはずです。
コンパイラがVSならOpenMPのオプションを設定します。

コンパイラのオプションの方もOpenMPの設定をお忘れなく。

**535** · 2017/10/28(土) 22:22:00.33

一応マルチスレッドで動いてるみたいですけど、CPUが50%位しか行かないですね。
あと、エポックが進んでも損失が変わらない原因がさっぱりわからないorz.

**535** · 2017/10/28(土) 23:21:37.85

畳み込み層の設定がおかしいみたい。
畳み込み層外したら損失減った。

**310** · 2017/10/28(土) 23:37:15.46

CPU使用率はそんなもんかも。
ヘッダの話、Eigenとごっちゃになってるかも。

強化学習ですが、徐々に進んでいます。もっと早くSMORMS3にしとけば良かった。

終盤読み切りのソート順に評価値を使用しているのですが、目に見えて速度が
上がってきています。また自己対局の精度も上がってきたようで、遡りチェックで
３０手まで何度か行きました。逆に記譜収集の方は、スコアのばらつきが無くなって
きて、記譜的に良い事なのか不安。

というわけで、手ごたえを感じつつ、現状に合わせて若干設定変更。

**535** · 2017/10/29(日) 00:36:11.21

なんか畳み込みにこだわらなくても全結合でも結構いい線いきそうな？
まあ試しに全結合で進めてみるか。

**535** · 2017/10/29(日) 18:55:23.53

AIに組み込んでみましたが全く強くなってないですｗ
そういえば、ライフゲーム囲碁はDBつかっても強くならないんだったｗｗ

囲連星に転進するか…

**535** · 2017/11/01(水) 00:19:41.19

囲連星のDB全部vec_tに変換したらメモリパンクした＾＾
学習しないな俺ｗ

マジでスレッドリッパーに128GB積みたい気分

**535** · 2017/11/01(水) 00:42:51.08

データ減らしたら動き始めました。
でも遅いな～こりゃそう簡単には終わらんぞorz.
まあ今晩一晩流してみますが…

**310** · 2017/11/01(水) 01:06:46.90

バラして部分づつ学習する手もあるかも。
あ、元データはランダムに並び替えた方が良いですよ。
わかってると思いますが。

こちらは、しばらく強化学習していたら、それなりに学習が進んだ結果、
対戦相手側の手のばらつきが足りなくなって、局所解に陥ってた感じ。
急きょばらつきを広げて学習再開させたところです。

バリューの方は地道に損失が減っているんだけど、ポリシーの損失が
増えてきた。ポリシーはsigmoidがあるので、ウェイトが絶対値でとてつも
なく大きくなって、なかなか修正しきれない状況になってるかもしれない。

一旦リセットすべきか悩み中。

**535** · 2017/11/01(水) 19:51:55.33

１エポック5000秒、しかも損失があんまり減っていかないorz
これはかなり厳しい