【オセロ,将棋】ボードゲーム【囲碁,War】

**名前は開発中のものです。** · 03/07/10 00:10

比較的地味なボードゲーム専用のスレが欲しくて立ててみました。

私はc言語で作ったデータベースを使って人間と対戦できる将棋かチェス
みたいなソフトを作りたいと思ってますが、グラフィックインターフェースの
作り方がわからなくてつっかえているレベルです。

**535** · 2016/11/20(日) 21:28:29.17

も～インテルさん早く１ThｚのCPU出してよ～w

**535** · 2016/11/23(水) 19:46:23.65

Zen負けちゃったか～
でも一勝しただけでもすごい。

**310** · 2016/11/23(水) 23:37:07.28

うむぅ。アルファ碁があるから期待高いけど、互先で１勝したのは凄いよね。
まだ伸びしろありそうだから、次回に期待ですね。

こちらは、モンテカルロがあまりにダメダメで悩み中です。

煮詰まってしまったので、ツリー並列をきちんと実装したり、終盤探索作ったりしてました。
終盤探索は、ようやく>>460さん指摘の偶数理論を実装しました。どうやるのかなかなか
思いつかなかったけど、手を動かしだしたらわかるものですね。Zebraとかのソース見て
いないので、もっと良いやり方があるかも知れませんが。

**535** · 2016/11/25(金) 20:21:12.84

終盤の打ち方はまあまあいいんだが序盤が致命的すぎる。
思考時間もめちゃめちゃ長いし。
あと強化学習やりたいけどアイディア湧いてこないなぁ。

**535** · 2016/11/26(土) 14:07:56.90

LV2が思考速くて強いからってLV2の棋譜大量に集めたら学習が偏りそう？

**310** · 2016/11/28(月) 13:44:46.30

>>669
やってみないとわからないけど、棋譜は質が良くて偏らないってのが基本だからね。
間違えたら間違えたなりに、負けてくれる棋譜じゃないと、変な学習しちゃうかも。

この辺の兼ね合いが難しい。

ただ、スタートの棋譜をその辺にして、だんだん更新しつつ、強くしていくって方法も
あるかと思う。

こちらは、終盤探索に手こずっています。
AVX2命令をオペレーターオーバーロードして使っているのですが、グローバルなのが
気持ち悪くて、クラスに変更。ついでに見直しをしていたら、過去にどうしてもわからなくて
別の方法で逃げてしまったバグをようやく解消。速度には大した影響ないですが。

一番の問題は、評価関数を持っていないので、MPCが使えない事。MPCのスレッショルド
を広げながら置換表使って、moveorderを最適化していたので。他の方法で速度アップを
考えないといけない。逃げてを考えると、結局、NNなりなんなりで別の評価関数なり、次の
１手ヒューリスティックが欲しくなります。もともとNN方面に行ったのは、そこが目的だった
事を思い出しました（汗

モンテカルロは、プレイアウトを疑っているので、いずれきちっとやり直してみます。

**535** · 2016/11/28(月) 22:46:28.36

NN興味ありますねぇ。
Zenチームの人とかがわかりやすい解説本書いてくれないかなぁ。

**535** · 2016/12/02(金) 21:41:56.73

モンテカルロはやはりプレイアウトの質がカギか？
軽くて良いヒューリスティックが欲しいところだ。

**535** · 2016/12/02(金) 22:02:53.36

モンテカルロは良い枝をカットしないこともかなり重要とみた。

**310** · 2016/12/04(日) 20:20:17.67

うーん。モンテカルロはFFOなんかで残り２０手くらいから戦うと、結構まともな着手を
するんだけど、１０～３０手目付近がわざとじゃないかというくらい悪い手ばかり選択する。
残り１０手くらいまで行けば完璧。

序盤は次の１手が多すぎるのと、プレイアウトで回す回数が単純に多いので、ツリー部が
なかなか深くならないし、あまり簡単に深くするとすぐにメモリーオーバーフローしちゃうし
で難しい。

>>673
UCTではカットはしません。単純にプレイアウトの割り当ての順番がなかなか回ってこなく
なるだけです。良い手に優先的に割り当てさせるためには、やはりプレイアウトで良い手は
良いと、悪い手は悪いと評価できなきゃならんわけで。それが難しいからモンテカルロだと
言う矛盾。

まあ、オセロの場合は、伝家の宝刀評価関数があるので、プレイアウトを２０手くらいで
打ち切って、評価値を返すとか…MPCみたいな事をして無駄な着手を回避させるか…
と、本末転倒な妄想をしてます（汗。良くなる点は、時間管理が易しくなるくらいかな（涙。

**310** · 2016/12/06(火) 00:37:18.95

モンテカルロが弱い理由を探ってます。

WZebraと対戦させると、一番顕著なのは、モンテカルロは辺に着手したがり、その結果
WZebraに内側に潜りこまれて選択肢が減っているという事です。流石に×とかCには
簡単には打ちませんが、序盤からあっさり中辺に出て行き、更にあっさり辺に打ちます。

相手もランダムに着手したとすると、辺の石は１方向からしか返せない（内側は４方向）
ので、プレイアウトでは残りやすくなると言う仮説を立ててみました。つまり全部で２８石
ある辺の攻防が相対的に下手くそになるため、プレイアウトの結果が楽観的になりすぎ
ているのではないかと言う事です。

残り２０手切ってくると、ツリー展開できているので、min-Max的に攻防できるけど、それ
より前の段階ではプレイアウトで、相手のミスを咎めるような手を打たないといけないと
言う事かなと思います。

これをどう次の１手の確率分布に表現するかですね。

**310** · 2016/12/11(日) 01:06:32.29

なんか袋小路に入ってます（汗

プレイアウトの改良は速度低下との戦いになり、効果が出ません。
結局、とにかく無駄をそぎ落とし、単純化してプレイアウト回数を稼いで、なおかつ
ツリー展開の閾値を下げて、ツリーに頼る形になりました。

が、ここでメモリーパンクとの戦いが始まります（涙
中盤の分岐が多い局面だと、あっという間にツリー部で８ギガくらい使ってしまいます。
更に処理を単純化してメモリー使用量削減に走る事に。

結局、４０手目以後なら使えるけど、それ以前ではあまり精度が期待できないという、
当初やりたかった、少しマシな序盤・中盤探索という目論見は崩れてしまいました。

評価関数があるんだったらαβの方がマシという当たり前の結論に傾きつつあります（汗

**310** · 2016/12/11(日) 23:57:52.07

たった一晩で楽観してきました。

今までsoftmaxで確率分布を変えていましたが、あまり大きな差はついていないようだった
ので、この際、思いっきり割り切ってみました。１位に７０％、２位に２５％、残り５％で他の
手に均等割り。イメージとしては１σ、２σ、その他って感じです。ヒューリスティックは
αβのmoveorderのものを使用。

もちろんzebraにはぼろ負けですが、今までと違うのは、相手を囲んで着手可能位置を
減らしてしまう事が無くなりました。ちょっとした手ごたえを感じています。これをスタート
に、ヒューリスティックに終盤変化を組み込んだり、序盤は開放度にしてみたりして検証
しようかと思っています。プレイアウトの精度があがったら、無駄にツリー展開しなくて
済むので、メモリーにも優しくなれるかも。

また、敗勢での発狂モードや、勝勢での手抜きモードの原因は、勝敗が明らかになり、
手毎の勝率の差がなくなる事が原因です。プレイアウト回数が多いからか、評価値は
かなりデジタルに変化するので、２５％、７５％などを境目に、石差評価に変更すると、
ある程度回避できるんじゃないかと思います。

**310** · 2016/12/19(月) 00:57:35.60

地味に色々改良。素UCTに色々追加してます。
・uctの終盤にsolverを組み込んだ
・手の割り振りに全手均等な部分を作って読み抜けの可能性を減らした
の２点が主な追加点です

当初想定していたより結構強くなったと思います。

AI黒番３０秒探索。zebra思考中にもMAX３０秒探索で、zebraに対しては２０石強負け
くらい。序盤１回間違えて、中盤ジワジワ差が広がって、４０手前後で読み切りできず
に間違う感じ。序盤は定石で回避できると思いますが、中盤の間違いは２番手の手を
選んでしまいます。修正は難しい感じ。終盤はチューニングか、探索時間延長で対応
できないか検討。

テストで作った２０手目で黒＋１２（zebra評価値）程度の盤面からは、zebraが間違える
のか、終盤に入るところまで、かなり押してまして、読み切りミスで２２石差→１６石差と
ぬるい手を打ちましたが、勝ち切る事ができるようになりました。

ここから先は、レーティングが欲しいなぁ。
オセロでAI使用OKなところないですかね？

**310** · 2016/12/22(木) 01:29:32.37

地味に色々改良した結果、あらかたボツにしてます（汗

発狂モード対策でスコア最大化を図ろうとしていましたが、極端なスコアが悪さしている
ようなので、結局勝率のみに限定しました。この時点で終盤はsolver任せに方針転換。

で、勝敗のみにした事で、solverの探索範囲を+-1のシングルウィンドウにできて
スピードアップしたのでプレイアウトのラスト７手くらいでも使用する事にしました。
プレイアウトでは、moveorder順の下位はバッサリカットしました。酷い手が混入する
とスコアが散らかるので。

uctのif分ネストがスパゲッティ化したので、処理順を大幅に見直したら、時々落ちるように
なってしまった。並列化が原因かそれともshared_ptrの使い方が悪いのか、散々調べた
結果、ちゃんと全体をリビルドすれば回避できる事が判明。俺の時間を返せorz

テストで使用している引分手順３０手目から開始すると、たいていは負けてしまうけど、
希にzebraが認識していない勝利手順を見つけて勝つようになった。乱数の具合なので
再現性は低いけど、zebraの評価値にも間違いがある事を実感した。

ここのところ３０手目～４０手目をターゲットに改善していたけど、それなりに成果が出た。
４０手目以後はsolverを使用し、対局開始は定石DBを２０手分くらい用意したら、まあまあ
なAIになるかなぁと思い始めました。ただ、１手３０秒考えるのは長すぎるなぁ。

あと、正しい手順を見つけ勝率も上回って来ているのに、探索時間が足りずにプレイアウト
回数で負けて最善手が選ばれないケースが散見されます。ものの本だと、そういう時は
探索時間を延長するとか書かれていますので、対応してみようかと思っています。

というわけで、なんか行けそうな気がしてきた。

**310** · 2016/12/27(火) 01:58:53.16

uctの探索部分がある程度できたので、とりあえずDOS窓ベースでゲームとして成り立つ
ようにしました。edax-pvbook_2009.wtbから作った４０手分の定石DBをつけて、終盤探索
は４０手目からsolverで。multi probe cutできないので、FFO#40で１．３秒程度の性能です。
その他諸々。探索時間延長とか。タイマーを作り直してプログレスバーつけたり。

WZebraの２０手読み、定石DB変化大相手に、まれに勝ちます。直接対決はまだして
ませんが、以前自分が作ったmin-Max版よりちょっと弱いくらいかなという感触です。
モンテカルロは乱数がらみで、ナチュラルに変化しちゃうので、５～１０手に１回程度は
ミスをしちゃう感じです。

プレイアウトはもう少し詰められそうだけど、まあこの辺が潮時かなぁ。

次は何しようかな。

**名前は開発中のものです。** · 2016/12/27(火) 06:12:54.86

Vectorとかで配布しては？

**310** · 2016/12/28(水) 10:02:51.11

vectorは考えてないですが、どこかでソース晒しても良いかなと思っています。
しばし検討。

なおUCT探索の探索時間は３０秒にしてます。微妙な時は１０秒づつ探索延長します。
また、人間が長考すると、その分だけバックグラウンドで探索が進んで強くなります。
気が長い人におすすめです。

**名前は開発中のものです。** · 2016/12/29(木) 00:29:19.19

GGSってまだあるんだっけか
トッププログラムの開発者はみんなあそこで対戦しつつ改良してる

**310** · 2016/12/30(金) 02:11:45.43

>>683
GGS探したけど見つかりません。
オセロのAI自体、行き着くところまで行っちゃってるからなぁ。

コメントの整備をしていたら、細かいところが気になって、あちこち手を入れています。
手を入れながら、UCTの探索結果があるので、それでmoveorderすれば良い事に気が
つきまして。SOLVERが少し早くなったので、終盤探索は３８手に格上げ。

しかし、テストプレイしていたら、SOLVERのバグ発見。終局まで打ち続けると、50手目
近辺で間違えます。並列探索部分で、negaScout的に再探索かかったあたりにバグが
ありそうという所まで絞り込みましたが、ちょっと厄介な感じ。

ソース晒す用に昔使ってたDTIのホームページを使えないか調べたら、サービスごと
終了してました（汗。

久々にオセロAIで検索したら、MLPでAIのテストをしている人がいました。評価関数では
なく、次の１手で使っているようです。比較的軽い構成なので、気が向いたらもう一度、
トライしてみようかと思います。

**310** · 2016/12/30(金) 20:08:38.43

バグ直りました。数日前に速度アップできると思いつきで直したところでした。
直ったは良いけど、何故バグるのか理解できないorz

**名前は開発中のものです。** · 2017/01/01(日) 01:33:49.09

個人的にはディープラーニングやって欲しい

**310** · 2017/01/02(月) 09:01:41.61

いま、Bloogerにサイトを作ってやっつけで解説文を作ってます。
あらかたできたら公開します。

が、解説していると細かいバグを見つけて、直して確認が必要になるという…。

やっぱ次はディープラーニングですよね。Eigen使ったMLPで次の１手をやってみます。
DCNNももう一度トライしたいと思っていますが、貧弱なパソコン環境ではどうにもならない
かも知れない。

**535** · 2017/01/06(金) 21:06:02.45

ネット碁でアルファ碁が無双してるみたいですね。
６０連勝？とか凄すぎｗ

**310** · 2017/01/09(月) 14:10:27.74

６０連勝の相手が、マジトップ棋士だってんだから、あきれるしかないですね（笑

解説書きながらソース見てたら、色々直したくなってしまい、泥沼化しています（汗
強くなったと思ったら弱くなっていたというのの繰り返しです。

**535** · 2017/01/15(日) 01:15:01.84

TensorFlowで学ぶディープラーニング入門って本読んでます。
かなり易しく書こうとしてるのが伝わってくる本なんですがそれでも難しい。orz

**310** · 2017/01/16(月) 13:21:19.22

カーネルサイズとかチャンネルとかフィルターのあたりですか？

僕の方は・・・モンテカルロだから間違えると思って、思考時間を増やしたり、末端ノードで
１回づつじゃなくて、１００回づつプレイアウトするようにしたりして、プレイアウト回数を稼い
だところ、「同じところで同じように安定的に間違える」ようになってしまいまして（汗。

プレイアウトは適当でも、とにかくツリー展開させるか、それともプレイアウトである程度
正確な勝率を得るけど、ツリー展開は減らさないように努力するのか。その辺で、また
悩み始めてしまいまして。edaxの引き分けBOOKから何か情報が取れないかと頑張って
ますが・・・。そろそろ飽きてきちゃったんだよなぁ。

**535** · 2017/01/16(月) 21:00:44.96

専門用語はよくわかりませんが、付属のサンプルコードをなんとなく動かしてます。
行列と誤差関数を定義してやればtensorflowが勝手に最適化してくれるとか。

成果でないとめげてきますよね。
ここらで一発アルファ碁級のブレークスルーが欲しいですねｗ

**310** · 2017/01/16(月) 22:06:12.04

あれはやっぱマシンパワーが・・・

一旦計算できちゃってもそれなりの重さなんだけど、学習しようと思うと重さにめげます。
というか、やる気すら起きないレベルorz

とりあえず、実際の最善手順が、ヒューリスティックの何番目かを統計的に処理して、
プレイアウト関数の手のバラつきを表現しようかと思って、プログラム作ってEXCELで
集計して、それなりに計算が簡素にできる形に変形してなんてやりましたが、やった
所で、何番目を選ぶかはランダムではなくて理由があっての事なんだよなぁと…

ちっとマシなヒューリスティックとか言い出すと…できない事をしようとしている事に深く
思い至るわけで。

**310** · 2017/01/17(火) 00:25:27.65

統計処理して作ったプレイアウト関数も結局ダメでしたorz
最後はやっぱりBOOK頼みになっちゃいます。

もう一回NNに行って次の１手計算させてみるべかな。

**535** · 2017/01/17(火) 21:19:41.12

モンテカルロ木探索ってわざと悪い手打ってる？ていうぐらい期待外れの手を打ちますねｗ
プレイアウトの質改善が必須か…

**310** · 2017/01/17(火) 22:04:13.23

例えば４０手目くらいの盤面で、UCTの選択基準であるところの実行回数で次の１手を
並べると、トータルではzebraの完全読みの良い手から順に並んでくるんだけど、ところ
どころ順位が入れ替わるんだよね。その入れ替わる場所が、１位と２位とかだと－２して
しまうし、時々－１０くらいの手を選んでしまったりする。

囲碁のプレイアウトをちょっと調べたら、やっぱり盤面のパターンを評価して、次の
１手の順位を決めて、点数に応じて着手確率を変えたり、あからさまに悪い手はカット
するみたいな事をしている。そちらの知見では、良いプレイアウトなら回数は少なくて
も何とかなるみたいな話になってる。

今の相手着手可能数ベースで、edaxのpvbook_2009の最善手順を評価すると、１位の手
が選ばれている確率は４２％くらいで、２位で１７％と、思いのほか手が散っているんです。
これ、同点１位は、ソート順で２位以下にするのではなく１位にまとめるようにしてあるから、
マッチング率が想像していたより悪いって事になります。

別の方法で次の１手ヒューリスティックを作って、一致率を例えば７５％～８０％くらいに
までできないかなぁと思いまして。結局、もうしばらくモンテカルロを継続する事にしました。
NNに行く前に、縦横斜めのパターンでベースとなる一致率を作ってみようかなと思います。

**535** · 2017/01/21(土) 14:40:41.23

プログラム作るなら単体テストは必須ですね…
後から後からバグが溢れてくる…

**535** · 2017/01/21(土) 15:30:15.75

机上デバッグはいやだお…T△T
辛すぎる…

**310** · 2017/01/22(日) 23:15:41.71

思いっきり同感だけど、結局サボるというorz

実はモンテカルロやってるから見なかった事にしているけど、Solverにバグがあります。
発生する条件も薄々わかっています。いつの間にバグを仕込んだのか。

さて、プレイアウトのヒューリスティックですが、縦横斜めのラインで、その形が現れた
回数、着手された回数のデータベースを作って、プレイアウトの次の１手の時に、それ
ぞれの確率を縦横斜めで集計して、その高い順にsoftmaxで確率分布にして、着手を
選択させる形にしました。

結果は・・・。ヒューリスティックの次の１手としての精度はいまいちですが、それでも
上位３～４位くらいには最善手が入ってる感じになります。でも、評価値が極端に出過ぎ
ている感じで、ダメダメな感じになりました。確率のバラつきが小さいように感じたので、
ちょっと修正してみましたがダメなので、思い切って累積確率５０％でカットしてみました。
この辺で大体３～４位までの着手になります。少しマシになったけど、やはりダメ。

softmaxの計算が重いため、プレイアウト回数が1/7くらいに減ってしまうんだけど、それを
補う精度が出ていない感じです。楽ちんなのでunordered_map使ってますが、もっと速度を
出そうと思うんなら、他の方法を考えた方が良いかも。

簡潔なプレイアウトで秒間プレイアウト数を稼いで、枝を伸ばす方向に逃げたい気持ちを
ぐっと抑えつつ、引き続いてニューラルネット系で次の１手を求めてみたいと思います。
更にスピード低下するので、いま以上に精度が出ないと・・・。

**535** · 2017/01/23(月) 23:10:08.18

黒番限定ですがLV2に勝ち越せる？というところまで来ました。
何をやっているかというとLV2とLV3を対戦させた棋譜を大量に集めて、
LV2に勝てる手順のＤＢを作ってナゾルということをやっていますｗ
まあほとんどチートみたいなものですが、棋譜を集めれば集めるほど
勝てるようになるのでなかなか面白いです。

白番だとLV2が盤の中央からゲームを始めないのでうまくいかなかったりしますｗ

**名前は開発中のものです。** · 2017/01/23(月) 23:46:45.10

勝利手順のＤＢからディープラーニングで評価関数を抽出することを考えていますが
今のところ全くうまくいく気配がありませんＴ△Ｔ

**310** · 2017/01/26(木) 21:23:21.53

>>700
Buroさんは逐次的にBOOK学習やってました。
僕は論文が理解しきれなかったのと、それやると特定AI相手だけに強いAIが作れて
しまうので禁じ手にしちゃいましたが、オセロというゲームの底の浅さからすると、
それが正解かも知れない（汗

デバッグ兼ねてZebraと対戦していたら、ZebraのBOOKが強化されていくのが実感
できてしまいました。

**310** · 2017/01/26(木) 21:32:27.07

さて、本日は非常にショックな事が判明しました。

次の１手を求めるNNを作って、大体できたのでAIに組み込んでました。
NNは以前にEigenで作ったものの流用改造。とりあえず学習結果が確認できる
ところまでやったら、コンパイルが通らない。C2059というエラー。前にも何回か
出ていて、ライブラリの順番いじると直るので放置していた奴。何かの名前が
組み込んだライブラリ間で衝突していると起きるらしい。それが途中からどうにも
直らなくなってしまった。

で、ようやく重い腰をあげて何が衝突しているのか調べたら、A1とかC1とかの
着手位置を表す#defineの定義が、Eigenの内部の型か何かの定義と被ってる。
こちらは#defineなのでnamespaceで回避できない。

楽に回避できる方法を色々考えたあげく、結局、C++良く知らなくてCとしてプログラム
書いていた頃から引きずって#defineを使っているのが悪いのだと気が付いて、
クラスとenumで対処するという、全面作り替えにする事にしてしまいました。

というわけで、修正に３日くらいかかりそうですorz

**名前は開発中のものです。** · 2017/01/26(木) 21:36:49.48

乙

**535** · 2017/01/26(木) 21:43:44.99

>特定AI相手だけに強いAIが作れて
ディープラーニングが成功すれば汎用度もちっとは違うのかもですが。

**535** · 2017/01/26(木) 21:54:02.30

強い詰みルーチンが欲しいですねぇ。
ＤＢでほぼ勝ちという局面にもっていってもポロッと落とすことが結構ある。

**310** · 2017/01/26(木) 21:56:01.75

あ、もしかしてenumってunsigned __int64が使えないのか・・・

**535** · 2017/01/26(木) 23:23:42.26

ＤＢは勝率で手を選ぶよりも累計勝利数で手を選んだほうが良いっぽい。
そのほうが勝利再現率が上がるっぽい。

**535** · 2017/01/29(日) 01:07:10.63

負けた手順に対して手動でＤＢを修正するという汎用性がみじんもない作業を始めましたｗ
なにかドカンと強くなる方法ないかなぁ

**310** · 2017/01/29(日) 13:11:46.36

enumで__int64使えますね。というか、どこかのバージョンから使えるようになってましたね。
何か裏ワザ的な使い方考え付かないかと思って試しましたが結局ダメで、前から気になって
いた箇所をクラス化しだしたら大規模改造になってしまいました。

オブジェクト指向を忠実に実行しようとすると、結局何度もライブラリ作り直す羽目になると
いう本末転倒な状態（汗

色々ドタバタしていたので、オセロ共通のクラスのみ修正完了。ロジック部分はこれから。

**535** · 2017/01/30(月) 23:07:35.87

ファイル出力が思いのほか重い。
知識では知ってたけど今回、実感しました。
ＤＢ作るときは棋譜をまとめて読み込んで書きこみは１回だけとか工夫しないとだめですな。

**310** · 2017/01/31(火) 01:06:15.90

>>709
ドカンとは強くならないけど、やっている事から推測すると遺伝的アルゴリズムが
合ってそうな気がします。茨の道ですが（汗

>>711
いまどきはメモリが大きいので、全部読み込んで一括処理とか、思いのほか可能ですね。

**310** · 2017/01/31(火) 01:17:50.59

困った。３層MLPで次の１手を、
http://qiita.com/kanlkan/items/6bff417519ed7d5ce4da
を参考にして求めている（若干やり方が違う）のだけど、思ったように学習してくれない。

NNの計算どっかおかしい気がしてきたorz

**310** · 2017/02/01(水) 15:57:52.90

ひょんな事から学習できました。デバッグ用に学習データを減らしてテストをしようとしたら
学習できてしまいまして。件数を増やすとダメになる模様。

これは仮説ですが、多種多様な棋譜を学習させると、ネットワークの自由度が不足して、
ウェイト更新が相互に打ち消し合った結果、ウエイトがゼロ（勾配消失）に陥ってしまうと。
学習に失敗した時は、大半のテストの結果が、全て同じ確率（softmaxのため）となってい
ます。中身は見ていませんが、softmax関数を通す前はオールゼロとなっている事が十分
に想像できます。

今から思うと、NNで評価関数を作ろうとして失敗していた時も、同じ状態だったのかなと。

学習データを減らすと精度が落ちますので、ネットワークをより複雑かつ大規模にしない
といけないのかなぁと。結局、同じ問題（ネットワークを大規模化しなきゃいけないけど、
自前のパソコンでは計算が厳しい上に、結果を使用する方もタイムクリティカルなので
あまりややこしくしたくない）の周りをグルグルしはじめてしまいました（汗

**535** · 2017/02/02(木) 23:55:47.04

まとめて読むようにしたら3日かかったDB作成が数分で終了しましたｗ
しかしDBがかなり肥大化してしまいました。
読み込みに5秒くらいかかる。
しかもこの手法だとLV2には勝てるけどLV3には勝てないし。
LV2はパターン少ないからDBで勝利手順なぞれるけどLV3はパターンが多くてカバーできない（多分）。
そろそろ別の手を考えなければ。

**535** · 2017/02/03(金) 20:14:00.97

ＤＢを使ってモンテカルロ木探索の探索結果を永続的に蓄積するというのをちょっと思案中。
計算すればするほどＤＢが洗練されていく感じで。

**310** · 2017/02/03(金) 20:39:47.64

>>716
同じ事妄想したけど、それなら後方枝刈付のmin-Maxの探索結果をひたすら
ため込んでいく方が容量的にも速度的にも有利で、それができないからモンテ
カルロだって事に思いいたりました（汗

min-Maxなら、いらない枝カットできるかと思いきや、相手がそこに打っちゃった
時の事を考えたら捨てられない事にも気づきました（汗汗

で、適当なところだけ保存して、残りは別途探索・・・って、これ定石DBやん！

というオチでした。

**名前は開発中のものです。** · 2017/02/03(金) 20:45:51.93

ボツ案でしたか。
でもまあ、とりあえずＤＢを充実させる方向でやってみます。
他に案がないので。
ディープラーニングがうまくいけばなぁ。

**535** · 2017/02/03(金) 20:49:10.94

今のところ黒番対LV2は２勝一敗ペースてな感じです。
もっと勝てるかと思ったけどそうでもないですね。

**310** · 2017/02/03(金) 20:58:39.46

こちとらディープラーニングで完全にドツボってますorz

**535** · 2017/02/04(土) 19:33:24.33

ディープラーニングは盤面情報だけじゃなくてこちらでなにがしかの特徴量を計算してやって
その数値も食わせたほうがすこしはましになるんだろうか。

**310** · 2017/02/04(土) 20:57:26.78

オセロではBuroさんの評価関数と同じ特徴を入力にしたMLPで評価関数を作った
オセロプログラムがあります。vsOthaというソフトです。

今回はディープなので、できれば特徴量は自動抽出してもらいたいものではあります。
一応、黒白の盤面情報の他、着手可能位置は与えています。

と、ここまで書いて、着手可能位置を求めるように学習させられるのか、ふと気になった。
何らかの事前学習に使えそうな気がする。

やらずに悶々としているだけなのですが、DCNNの四角い窓ではオセロの特徴はうまく
抽出できないのではないかと思っていますが、他に方法が思いつかないのが悲しい。

**名前は開発中のものです。** · 2017/02/05(日) 08:03:16.57

そうかそうか

**535** · 2017/02/07(火) 20:48:43.68

機械学習じゃだめだ、手書き評価関数しかない…
しばらくするといや、手書き評価関数じゃやっぱりだめだ、機械学習だ…
の無限ループｗ

**310** · 2017/02/08(水) 21:46:39.89

昔mnistでオートエンコーダのテストした時のように、学習内容（ウェイト）をBMPにして
可視化してました。テストに時間がかかるので、色々すったもんだバグとりに時間が
かかってましたが、ようやくなんとか表示できるようになりました。で、とりあえず想定より
少な目の隠れ層４０９６個でテスト開始。

勾配ノイズ（焼きなまし）の設定値もでかすぎたので、設定値を自動計算するようにしたり。
NN復活当初うまく動かなかった原因がこれでした。

で、まだ学習途中なのですが、ウェイトデータ見ると１９２個（＝６４×３）毎に１ビットづつ
ずれるパターンに収れんしていっています。１９２といえば入力データのサイズで、
横に６４個づつ並べたビットマップ画像に、まるで光子の回析実験のような縦じまが（汗
そんな周期性が生まれるはずがないので、どこかにバグがあるんじゃないかと。
表示するプログラムのバグかも知れないけど、１エポックに３時間かかるので、止めて
デバッグに入るか、それとも続行するかで悶々中…。

どっちにしても時間がかかるので、裏でDCNNをもう一度コーディング開始。
あまりにネストが深いのでミニバッチは一旦放棄してSGDで。
GoogleのTensorFlowがテンソルな意味が良くわかった。
DCNNだと元データが２次元で、更にチャンネルがある行列では次元が足りないorz

今最大の懸案は、とりあえず隠れ層4096でオートエンコーダの事前　学習しているけど、
それが終わり全体の学習にいって上手く行かなかった時、中間層を増やして再トライ
するか、それともDCNNに行ってしまうか。

**310** · 2017/02/08(水) 21:47:47.17

>>724
そこは…絶対的に機械学習である！という信念が必要だと思います（汗

**535** · 2017/02/09(木) 22:03:30.31

>>726
そうですかｗ
まあそんな気もしますが、でも終盤の積みルーチンだけなら手書きでイケそうな気もするんですよねぇ
そこだけでもなんとかできれば…

**535** · 2017/02/10(金) 19:40:14.89

黒番だとDBのせいで対LV1よりも対LV2のほうが勝率いいみたいｗ
めちゃくちゃ歪んだAIになってしまったw。

**310** · 2017/02/10(金) 23:52:07.84

３日かけて学習したオートエンコーダ型はやっぱりダメでした。
可能性すら見えなかった。

というわけで、開き直ってDCNN開始。
前回はオセロ専用で展開形を作ってましたが、それではmnistなどでテストできない
ので、max_poolingも含めて、本格的にちゃんとしたものを作ってみました。
とはいえ、まだ畳み込み層の誤差逆伝播の解釈が正しいか、自信はありません。
また、テストで動かしたところ、なんかすごく重い印象です。

ちゃんと動くのかなぁ。

**名前は開発中のものです。** · 2017/02/11(土) 10:06:04.43

ＧＧＳはmimosaというソフトを使うと入れますよ

**310** · 2017/02/13(月) 22:45:03.11

>>730
そのmimosaのサイトがリンク切れで見つからないのです。

**310** · 2017/02/14(火) 20:21:59.60

自作ライブラリにDCNNのレイヤーを書いたのですが、あまりの計算時間にデバッグ中に
めげて、試しにtiny_dnnというC++専用のNNライブラリを入れてみましたところ、自作の
１０倍以上の速度で・・・こちらに乗り換えです。

で、tiny_dnnでmnistやって感度をつかんだところで、オセロの盤面を変換する処理を
書いて、小手調べに簡単なネットワークで動かそうとしてみたところ・・・盤面データの
変換の段階でメモリーが溢れて盛大にスワップ開始（＾＾；

5000,000盤面×100マス（Padding含む）×４チャンネル×４バイト（float）でデータだけで
８Gbytes。自分のパソコンのメモリーは８Gで、空いているメモリーは５Gちょいとメモリー
不足が判明しました。

いまどきのパソコンはメモリーでかいから一括でも大丈夫とか言って、このざまです（笑）。

tiny_dnnは全データ一括で渡して指定エポック回してくれる仕組みなのですが、仕方ない
ので、入力データを分割して、自分でループ回します。

α碁のハード環境がうらやましいorz

**310** · 2017/02/15(水) 23:06:48.81

色々細かく改造。やっぱライブラリがあると気が楽です（汗

簡単なネットワークの初期の学習の具合では正答率５０％くらいが上限な印象だったので、
ネットワークを複雑にしてみました。で、１エポック８時間以上かなぁ。

もっとハードを・・・って真剣に思いますorz

**名前は開発中のものです。** · 2017/02/17(金) 23:21:12.85

AMDが今度発売するcpuが結構いいかもしれない

**310** · 2017/02/19(日) 20:31:51.68

DCNNで学習させてるのですが、あまりに時間がかかるので、裏でもう一度
アルファ碁の論文を。日本語解説ページがいくつかできていて助かります。

で、読んでいたら、ロールアウトポリシーなる線形Softmaxでプレイアウトの
手を選択していると・・・。つまりはオセロ評価関数のような特徴を渡して、線形
回帰の代わりに出力をSoftmaxで確率分布にしたものです。
ロールアウトポリシーは棋譜との一致率が２５％程度だけど、計算が圧倒的
に速く、このばらけ具合がちょうど良いとの事。

むむむ。アルファ碁はプレイアウトの手の選択にDCNN使ってないのねorz

日本語解説のおかげで、MCTS部の構造もようやくわかった。
いくらマシンが早くても無理だろと思っていた計算も、これなら何とかなりそう
レベルの構造に落とし込まれていて、納得しました。

でも、実はまだインプットに何を食わせているのかが、よくわからない（汗

**535** · 2017/02/19(日) 22:19:16.15

ついにアルファ碁論文まで…
英語かつ有料記事ということで私は手を出せずにいましたが日本語サイトもあるんですか。
ちょっとググってみるか…

**310** · 2017/02/20(月) 20:05:00.30

論文自体はだいぶ前にダウンロードしてたんですが（汗
MCTSやらない段階では、やはり理解は難しかったと思います。
DCNN部分の投入データあたりは囲碁の知識が必要だったりしますので、
まだよくわからない点が多いです。

で、MCTS的な視点から眺めると、巷の解説とは違うところにフォーカスが
あたったりします。強化学習使ったRL PolicyはValue netの事前学習で
使っていますが、プレイアウトの手の選択では線形Softmax、ノードの分岐
では教師付学習のものを使用しているなど、工夫が見られまして。オセロ
は既に評価関数があるので、無理やりDCNNしなくても応用が効くのでは
ないかと思ったりします。

とはいえ、今学習中の奴は、学習終わるまで１ヶ月くらいかかりそうではあり
ますが、どこまで手の一致率が高められるか、見てみたい気もしています。

**310** · 2017/02/20(月) 20:09:54.18

追記。なんか格好良く書きすぎですね。

ちょうど今MCTSで悩んでいる箇所に見事な回答を与えている点に感動。
日本語で読めたので、そこに速攻で気づく事ができたという事で。

とはいえ、アルファ碁の線形SoftmaxによるRollout関数の入力データは、
囲碁の特性がわからない事から、意味不明な事もまだあり、いずれにして
もそのままでは使え無さそうで、オセロに合わせて別途考えるしかなさそうです。

**535** · 2017/02/23(木) 20:58:02.50

連続対戦してると突然落ちるバグがあるっぽいが意図的に再現できない。
どうデバッグすりゃいいんだ。orz.

**名前は開発中のものです。** · 2017/02/23(木) 23:03:49.03

再現した！
けど一回再現させんのに１時間かかるｗ

**535** · 2017/02/24(金) 21:40:56.21

コアダンプの吐かせ方がわからん。Ｔ△Ｔ
デバッグオプション付けてulimit -c unlimitedだけじゃだめなんか。
ちな環境はcygwin。

**名前は開発中のものです。** · 2017/02/24(金) 21:43:59.65

age

**535** · 2017/02/26(日) 00:05:27.56

やっと落ちてる場所見つかった。
ぬるぽだった

**535** · 2017/02/26(日) 23:30:45.62

特徴量とか便利すぎる言葉考えたやつ誰だよ。
いつでも特徴量が効率よく計算できるとは限らんだろうが。
マジムカつく。

**310** · 2017/02/27(月) 01:19:56.03

全く同感orz

**535** · 2017/02/28(火) 21:58:57.62

ファイルに２Ｇの壁とかあんの？
２Ｇ以上のデータはどうやって受け渡せばいいんだ。

**名前は開発中のものです。** · 2017/03/01(水) 12:15:45.60

「29歳既婚、2年前に会社を辞めた。ボードゲーム作りを始めて3700万円を
売り上げたけど何か聞きたいことはある？」回答いろいろ
http://labaq.com/archives/51880196.html
日本ボードゲーム界の異端児に聞く！ボードゲームデザイナーとして生きていくには？
https://bodoge.hoobby.net/columns/00013
QRコード・クトゥルフ神話・24世紀などユニークすぎるデザインてんこ盛りのサイコロ「Dice Empire」レビュー
http://gigazine.net/news/20150313-dice-empire/
ボードゲームの展示イベント「ゲームマーケット」の成長記録からこれからの
市場に必要なことを妄想してみた。6年間の来場者数推移（2016年4月時点調べ）
https://bodoge.hoobby.net/columns/00001
ボードゲーム市場がクラウドファンディングの出現で急成長を遂げ市場規模を拡大中
http://gigazine.net/news/20150820-board-game-crowdfunding/
実際のところ、自作ボードゲームってどれぐらい売れるもんなの？
http://roy.hatenablog.com/entry/2016/12/20/220102
ゲームマーケット2016春にて初参加サークルさんに作成数アンケートをとってきました
http://hidarigray.blog35.fc2.com/blog-entry-614.html
カフェも急増　ボードゲームにアラサーがハマる理由
http://style.nikkei.com/article/DGXMZO10921930R21C16A2000000?channel=DF260120166491
ボードゲームのオリジナルオーダー制作
http://www.logygames.com/logy/ordermade.html

**535** · 2017/03/02(木) 19:55:15.50

がっつり連続対戦中。黒番対LV２だけ流し終わった。

100局目
黒(airandom.dll)の勝利回数: 73
白(ai-lv2.dll)の勝利回数: 27

なお他のレベルも平行して回してるけどいま黒番対LV3に1勝54敗中ｗ

なんでこんなに差がでるのかなぁ。

**535** · 2017/03/02(木) 20:08:53.54

対ＬＶ２はかなり同じパターンで勝ってるな。
勝利手順ＤＢにずっぽり嵌ってくれてる感じだ。
ＬＶ３は嵌ってくれない。

**535** · 2017/03/02(木) 21:41:10.44

序盤用ＤＢはそこそこうまく動いているが
中盤～終盤用のＤＢのせいで致命的に打ち手が狂ってるように見える。
ＬＶ３に勝てないのは多分これだな。

**535** · 2017/03/02(木) 23:28:08.02

ずいぶん昔に書いたコードにバグがあった。
ビビるくらい致命的な奴。
よく今まで動いてたな。

**310** · 2017/03/03(金) 01:05:23.13

次の１手もDCNNもなんか上手くいかないので、アルファ碁の原点に戻りました。
アルファ碁のMTCSとしての特徴は、各ノードで評価関数を動かして、そのノードに
点をつけて勝率と５０％混合する事で、ノードの選択に事前に差をつけてしまう事に
あります。これによって、負けが多いけど１手だけ良い手があるルートを正しく評価
する可能性を高めていると解釈しています。

で、評価関数はオセロでは線形和で確立されているので、昔の奴をと思ったのですが、
どうせならMLPのライブラリ使ってしまえばEigenが使えるので信頼性高い上に、学習
率の最適化でモーメンタムどころかSMORMS3が使えるようになります。インプットが
とても疎なので、EigenのSparseMatrixを使って高速化を図ります。

早速作って学習させてみたところ…僕の記憶が確かなら以前のプログラムの数十倍
くらいの速度で動いています（汗。これなら１００エポックくらい楽勝。

今は評価値を計算させていますが、一旦できたら、次のステップで勝率を計算させられ
ないかなぁと。ただ、評価値がある程度正確なら、勝率ではなく平均スコアでプレイアウト
しても良いのかなと思っています。

**535** · 2017/03/04(土) 22:29:00.76

DB初期化に35秒かかる。
コンパイラを64bit版に変えると11秒になる。
なぜこんなに差が…
ちなみに囲連星本体が32bitプログラムだからコンパイラ変えられないT△T
なんとかならんか？

**535** · 2017/03/05(日) 03:39:08.88

コンパイラの問題じゃなくてライブラリを静的リンクするか動的リンクするかの違いみたいです。多分。
かなり早くなった^_^

**535** · 2017/03/06(月) 18:17:26.36

思考時間は試行回数に直結する
重いモンテカルロは一旦封印する

**310** · 2017/03/10(金) 01:25:20.88

評価関数の作り直しを始めたら、計算してはやり直しの繰り返しです。
計算速度が上がったので、比較的気楽に再計算できちゃうのがいかん。

勝率の計算もしてみましたが、結果は似たようなものでした。
いずれにせよ、もう少し精度を上げたいなぁ。

**535** · 2017/03/14(火) 22:28:17.78

LV1の棋譜はDBから削除したほうがいいみたい。
いいとこどりとはいかないか。

**535** · 2017/03/15(水) 21:45:36.14

囲連星のルールは囲碁と共通部分があるから囲碁AIを参考にするのが良いと思っていたが
７連を作れば勝ちというのは王様を詰ませれば勝ちという将棋のゲーム性に近いものがあるのかもしれない。
将棋AIの手法も調べてみるべきか?

**535** · 2017/03/18(土) 23:34:35.11

手書き評価関数やっぱうまくいかないな。
LV０やLV１も実は結構強かったんだな。
反省。

**535** · 2017/03/19(日) 00:56:20.04

やっぱ機械学習しかない。（無限ループ）

**535** · 2017/03/21(火) 22:23:02.18

特徴量と棋譜は用意できる。
棋譜の勝者の着手に対してどの特徴量が優先的に選択されたか？を計算したい。
どうすればいいかな？

**名前は開発中のものです。** · 2017/03/22(水) 00:39:02.37

優先的とか無いでしょ
評価関数は全ての特徴量に対応する評価点を合計するだけ
その各評価点の絶対値が大きくて評価値に割と大きな影響を与えるとかゼロに近いとかはあるけど

**310** · 2017/03/22(水) 09:25:05.89

>>761
それを統計的に処理して求めるのが線形回帰。
収束アルゴリズムは最急降下法を使用するのが普通。

特徴量あり１、無し０で特徴量並べたベクトルを食わせて、
荷重値であるウェイトを同数用意して内積計算。
出て来たスカラ値が、教師データに合うようにウェイトを収束計算させる。

出て来たウェイトが対応する各特徴量の重要度を表す。

**535** · 2017/03/22(水) 20:48:28.79

自力で線形回帰を実装するのはしんどそう。
なにかいいライブラリないですか？
>>535のMM法が動いてくれれば話は早かったのになぁ