【オセロ,将棋】ボードゲーム【囲碁,War】

**名前は開発中のものです。** · 03/07/10 00:10

比較的地味なボードゲーム専用のスレが欲しくて立ててみました。

私はc言語で作ったデータベースを使って人間と対戦できる将棋かチェス
みたいなソフトを作りたいと思ってますが、グラフィックインターフェースの
作り方がわからなくてつっかえているレベルです。

**310** · 2017/01/31(火) 01:17:50.59

困った。３層MLPで次の１手を、
http://qiita.com/kanlkan/items/6bff417519ed7d5ce4da
を参考にして求めている（若干やり方が違う）のだけど、思ったように学習してくれない。

NNの計算どっかおかしい気がしてきたorz

**310** · 2017/02/01(水) 15:57:52.90

ひょんな事から学習できました。デバッグ用に学習データを減らしてテストをしようとしたら
学習できてしまいまして。件数を増やすとダメになる模様。

これは仮説ですが、多種多様な棋譜を学習させると、ネットワークの自由度が不足して、
ウェイト更新が相互に打ち消し合った結果、ウエイトがゼロ（勾配消失）に陥ってしまうと。
学習に失敗した時は、大半のテストの結果が、全て同じ確率（softmaxのため）となってい
ます。中身は見ていませんが、softmax関数を通す前はオールゼロとなっている事が十分
に想像できます。

今から思うと、NNで評価関数を作ろうとして失敗していた時も、同じ状態だったのかなと。

学習データを減らすと精度が落ちますので、ネットワークをより複雑かつ大規模にしない
といけないのかなぁと。結局、同じ問題（ネットワークを大規模化しなきゃいけないけど、
自前のパソコンでは計算が厳しい上に、結果を使用する方もタイムクリティカルなので
あまりややこしくしたくない）の周りをグルグルしはじめてしまいました（汗

**535** · 2017/02/02(木) 23:55:47.04

まとめて読むようにしたら3日かかったDB作成が数分で終了しましたｗ
しかしDBがかなり肥大化してしまいました。
読み込みに5秒くらいかかる。
しかもこの手法だとLV2には勝てるけどLV3には勝てないし。
LV2はパターン少ないからDBで勝利手順なぞれるけどLV3はパターンが多くてカバーできない（多分）。
そろそろ別の手を考えなければ。

**535** · 2017/02/03(金) 20:14:00.97

ＤＢを使ってモンテカルロ木探索の探索結果を永続的に蓄積するというのをちょっと思案中。
計算すればするほどＤＢが洗練されていく感じで。

**310** · 2017/02/03(金) 20:39:47.64

>>716
同じ事妄想したけど、それなら後方枝刈付のmin-Maxの探索結果をひたすら
ため込んでいく方が容量的にも速度的にも有利で、それができないからモンテ
カルロだって事に思いいたりました（汗

min-Maxなら、いらない枝カットできるかと思いきや、相手がそこに打っちゃった
時の事を考えたら捨てられない事にも気づきました（汗汗

で、適当なところだけ保存して、残りは別途探索・・・って、これ定石DBやん！

というオチでした。

**名前は開発中のものです。** · 2017/02/03(金) 20:45:51.93

ボツ案でしたか。
でもまあ、とりあえずＤＢを充実させる方向でやってみます。
他に案がないので。
ディープラーニングがうまくいけばなぁ。

**535** · 2017/02/03(金) 20:49:10.94

今のところ黒番対LV2は２勝一敗ペースてな感じです。
もっと勝てるかと思ったけどそうでもないですね。

**310** · 2017/02/03(金) 20:58:39.46

こちとらディープラーニングで完全にドツボってますorz

**535** · 2017/02/04(土) 19:33:24.33

ディープラーニングは盤面情報だけじゃなくてこちらでなにがしかの特徴量を計算してやって
その数値も食わせたほうがすこしはましになるんだろうか。

**310** · 2017/02/04(土) 20:57:26.78

オセロではBuroさんの評価関数と同じ特徴を入力にしたMLPで評価関数を作った
オセロプログラムがあります。vsOthaというソフトです。

今回はディープなので、できれば特徴量は自動抽出してもらいたいものではあります。
一応、黒白の盤面情報の他、着手可能位置は与えています。

と、ここまで書いて、着手可能位置を求めるように学習させられるのか、ふと気になった。
何らかの事前学習に使えそうな気がする。

やらずに悶々としているだけなのですが、DCNNの四角い窓ではオセロの特徴はうまく
抽出できないのではないかと思っていますが、他に方法が思いつかないのが悲しい。

**名前は開発中のものです。** · 2017/02/05(日) 08:03:16.57

そうかそうか

**535** · 2017/02/07(火) 20:48:43.68

機械学習じゃだめだ、手書き評価関数しかない…
しばらくするといや、手書き評価関数じゃやっぱりだめだ、機械学習だ…
の無限ループｗ

**310** · 2017/02/08(水) 21:46:39.89

昔mnistでオートエンコーダのテストした時のように、学習内容（ウェイト）をBMPにして
可視化してました。テストに時間がかかるので、色々すったもんだバグとりに時間が
かかってましたが、ようやくなんとか表示できるようになりました。で、とりあえず想定より
少な目の隠れ層４０９６個でテスト開始。

勾配ノイズ（焼きなまし）の設定値もでかすぎたので、設定値を自動計算するようにしたり。
NN復活当初うまく動かなかった原因がこれでした。

で、まだ学習途中なのですが、ウェイトデータ見ると１９２個（＝６４×３）毎に１ビットづつ
ずれるパターンに収れんしていっています。１９２といえば入力データのサイズで、
横に６４個づつ並べたビットマップ画像に、まるで光子の回析実験のような縦じまが（汗
そんな周期性が生まれるはずがないので、どこかにバグがあるんじゃないかと。
表示するプログラムのバグかも知れないけど、１エポックに３時間かかるので、止めて
デバッグに入るか、それとも続行するかで悶々中…。

どっちにしても時間がかかるので、裏でDCNNをもう一度コーディング開始。
あまりにネストが深いのでミニバッチは一旦放棄してSGDで。
GoogleのTensorFlowがテンソルな意味が良くわかった。
DCNNだと元データが２次元で、更にチャンネルがある行列では次元が足りないorz

今最大の懸案は、とりあえず隠れ層4096でオートエンコーダの事前　学習しているけど、
それが終わり全体の学習にいって上手く行かなかった時、中間層を増やして再トライ
するか、それともDCNNに行ってしまうか。

**310** · 2017/02/08(水) 21:47:47.17

>>724
そこは…絶対的に機械学習である！という信念が必要だと思います（汗

**535** · 2017/02/09(木) 22:03:30.31

>>726
そうですかｗ
まあそんな気もしますが、でも終盤の積みルーチンだけなら手書きでイケそうな気もするんですよねぇ
そこだけでもなんとかできれば…

**535** · 2017/02/10(金) 19:40:14.89

黒番だとDBのせいで対LV1よりも対LV2のほうが勝率いいみたいｗ
めちゃくちゃ歪んだAIになってしまったw。

**310** · 2017/02/10(金) 23:52:07.84

３日かけて学習したオートエンコーダ型はやっぱりダメでした。
可能性すら見えなかった。

というわけで、開き直ってDCNN開始。
前回はオセロ専用で展開形を作ってましたが、それではmnistなどでテストできない
ので、max_poolingも含めて、本格的にちゃんとしたものを作ってみました。
とはいえ、まだ畳み込み層の誤差逆伝播の解釈が正しいか、自信はありません。
また、テストで動かしたところ、なんかすごく重い印象です。

ちゃんと動くのかなぁ。

**名前は開発中のものです。** · 2017/02/11(土) 10:06:04.43

ＧＧＳはmimosaというソフトを使うと入れますよ

**310** · 2017/02/13(月) 22:45:03.11

>>730
そのmimosaのサイトがリンク切れで見つからないのです。

**310** · 2017/02/14(火) 20:21:59.60

自作ライブラリにDCNNのレイヤーを書いたのですが、あまりの計算時間にデバッグ中に
めげて、試しにtiny_dnnというC++専用のNNライブラリを入れてみましたところ、自作の
１０倍以上の速度で・・・こちらに乗り換えです。

で、tiny_dnnでmnistやって感度をつかんだところで、オセロの盤面を変換する処理を
書いて、小手調べに簡単なネットワークで動かそうとしてみたところ・・・盤面データの
変換の段階でメモリーが溢れて盛大にスワップ開始（＾＾；

5000,000盤面×100マス（Padding含む）×４チャンネル×４バイト（float）でデータだけで
８Gbytes。自分のパソコンのメモリーは８Gで、空いているメモリーは５Gちょいとメモリー
不足が判明しました。

いまどきのパソコンはメモリーでかいから一括でも大丈夫とか言って、このざまです（笑）。

tiny_dnnは全データ一括で渡して指定エポック回してくれる仕組みなのですが、仕方ない
ので、入力データを分割して、自分でループ回します。

α碁のハード環境がうらやましいorz

**310** · 2017/02/15(水) 23:06:48.81

色々細かく改造。やっぱライブラリがあると気が楽です（汗

簡単なネットワークの初期の学習の具合では正答率５０％くらいが上限な印象だったので、
ネットワークを複雑にしてみました。で、１エポック８時間以上かなぁ。

もっとハードを・・・って真剣に思いますorz

**名前は開発中のものです。** · 2017/02/17(金) 23:21:12.85

AMDが今度発売するcpuが結構いいかもしれない

**310** · 2017/02/19(日) 20:31:51.68

DCNNで学習させてるのですが、あまりに時間がかかるので、裏でもう一度
アルファ碁の論文を。日本語解説ページがいくつかできていて助かります。

で、読んでいたら、ロールアウトポリシーなる線形Softmaxでプレイアウトの
手を選択していると・・・。つまりはオセロ評価関数のような特徴を渡して、線形
回帰の代わりに出力をSoftmaxで確率分布にしたものです。
ロールアウトポリシーは棋譜との一致率が２５％程度だけど、計算が圧倒的
に速く、このばらけ具合がちょうど良いとの事。

むむむ。アルファ碁はプレイアウトの手の選択にDCNN使ってないのねorz

日本語解説のおかげで、MCTS部の構造もようやくわかった。
いくらマシンが早くても無理だろと思っていた計算も、これなら何とかなりそう
レベルの構造に落とし込まれていて、納得しました。

でも、実はまだインプットに何を食わせているのかが、よくわからない（汗

**535** · 2017/02/19(日) 22:19:16.15

ついにアルファ碁論文まで…
英語かつ有料記事ということで私は手を出せずにいましたが日本語サイトもあるんですか。
ちょっとググってみるか…

**310** · 2017/02/20(月) 20:05:00.30

論文自体はだいぶ前にダウンロードしてたんですが（汗
MCTSやらない段階では、やはり理解は難しかったと思います。
DCNN部分の投入データあたりは囲碁の知識が必要だったりしますので、
まだよくわからない点が多いです。

で、MCTS的な視点から眺めると、巷の解説とは違うところにフォーカスが
あたったりします。強化学習使ったRL PolicyはValue netの事前学習で
使っていますが、プレイアウトの手の選択では線形Softmax、ノードの分岐
では教師付学習のものを使用しているなど、工夫が見られまして。オセロ
は既に評価関数があるので、無理やりDCNNしなくても応用が効くのでは
ないかと思ったりします。

とはいえ、今学習中の奴は、学習終わるまで１ヶ月くらいかかりそうではあり
ますが、どこまで手の一致率が高められるか、見てみたい気もしています。

**310** · 2017/02/20(月) 20:09:54.18

追記。なんか格好良く書きすぎですね。

ちょうど今MCTSで悩んでいる箇所に見事な回答を与えている点に感動。
日本語で読めたので、そこに速攻で気づく事ができたという事で。

とはいえ、アルファ碁の線形SoftmaxによるRollout関数の入力データは、
囲碁の特性がわからない事から、意味不明な事もまだあり、いずれにして
もそのままでは使え無さそうで、オセロに合わせて別途考えるしかなさそうです。

**535** · 2017/02/23(木) 20:58:02.50

連続対戦してると突然落ちるバグがあるっぽいが意図的に再現できない。
どうデバッグすりゃいいんだ。orz.

**名前は開発中のものです。** · 2017/02/23(木) 23:03:49.03

再現した！
けど一回再現させんのに１時間かかるｗ

**535** · 2017/02/24(金) 21:40:56.21

コアダンプの吐かせ方がわからん。Ｔ△Ｔ
デバッグオプション付けてulimit -c unlimitedだけじゃだめなんか。
ちな環境はcygwin。

**名前は開発中のものです。** · 2017/02/24(金) 21:43:59.65

age

**535** · 2017/02/26(日) 00:05:27.56

やっと落ちてる場所見つかった。
ぬるぽだった

**535** · 2017/02/26(日) 23:30:45.62

特徴量とか便利すぎる言葉考えたやつ誰だよ。
いつでも特徴量が効率よく計算できるとは限らんだろうが。
マジムカつく。

**310** · 2017/02/27(月) 01:19:56.03

全く同感orz

**535** · 2017/02/28(火) 21:58:57.62

ファイルに２Ｇの壁とかあんの？
２Ｇ以上のデータはどうやって受け渡せばいいんだ。

**名前は開発中のものです。** · 2017/03/01(水) 12:15:45.60

「29歳既婚、2年前に会社を辞めた。ボードゲーム作りを始めて3700万円を
売り上げたけど何か聞きたいことはある？」回答いろいろ
http://labaq.com/archives/51880196.html
日本ボードゲーム界の異端児に聞く！ボードゲームデザイナーとして生きていくには？
https://bodoge.hoobby.net/columns/00013
QRコード・クトゥルフ神話・24世紀などユニークすぎるデザインてんこ盛りのサイコロ「Dice Empire」レビュー
http://gigazine.net/news/20150313-dice-empire/
ボードゲームの展示イベント「ゲームマーケット」の成長記録からこれからの
市場に必要なことを妄想してみた。6年間の来場者数推移（2016年4月時点調べ）
https://bodoge.hoobby.net/columns/00001
ボードゲーム市場がクラウドファンディングの出現で急成長を遂げ市場規模を拡大中
http://gigazine.net/news/20150820-board-game-crowdfunding/
実際のところ、自作ボードゲームってどれぐらい売れるもんなの？
http://roy.hatenablog.com/entry/2016/12/20/220102
ゲームマーケット2016春にて初参加サークルさんに作成数アンケートをとってきました
http://hidarigray.blog35.fc2.com/blog-entry-614.html
カフェも急増　ボードゲームにアラサーがハマる理由
http://style.nikkei.com/article/DGXMZO10921930R21C16A2000000?channel=DF260120166491
ボードゲームのオリジナルオーダー制作
http://www.logygames.com/logy/ordermade.html

**535** · 2017/03/02(木) 19:55:15.50

がっつり連続対戦中。黒番対LV２だけ流し終わった。

100局目
黒(airandom.dll)の勝利回数: 73
白(ai-lv2.dll)の勝利回数: 27

なお他のレベルも平行して回してるけどいま黒番対LV3に1勝54敗中ｗ

なんでこんなに差がでるのかなぁ。

**535** · 2017/03/02(木) 20:08:53.54

対ＬＶ２はかなり同じパターンで勝ってるな。
勝利手順ＤＢにずっぽり嵌ってくれてる感じだ。
ＬＶ３は嵌ってくれない。

**535** · 2017/03/02(木) 21:41:10.44

序盤用ＤＢはそこそこうまく動いているが
中盤～終盤用のＤＢのせいで致命的に打ち手が狂ってるように見える。
ＬＶ３に勝てないのは多分これだな。

**535** · 2017/03/02(木) 23:28:08.02

ずいぶん昔に書いたコードにバグがあった。
ビビるくらい致命的な奴。
よく今まで動いてたな。

**310** · 2017/03/03(金) 01:05:23.13

次の１手もDCNNもなんか上手くいかないので、アルファ碁の原点に戻りました。
アルファ碁のMTCSとしての特徴は、各ノードで評価関数を動かして、そのノードに
点をつけて勝率と５０％混合する事で、ノードの選択に事前に差をつけてしまう事に
あります。これによって、負けが多いけど１手だけ良い手があるルートを正しく評価
する可能性を高めていると解釈しています。

で、評価関数はオセロでは線形和で確立されているので、昔の奴をと思ったのですが、
どうせならMLPのライブラリ使ってしまえばEigenが使えるので信頼性高い上に、学習
率の最適化でモーメンタムどころかSMORMS3が使えるようになります。インプットが
とても疎なので、EigenのSparseMatrixを使って高速化を図ります。

早速作って学習させてみたところ…僕の記憶が確かなら以前のプログラムの数十倍
くらいの速度で動いています（汗。これなら１００エポックくらい楽勝。

今は評価値を計算させていますが、一旦できたら、次のステップで勝率を計算させられ
ないかなぁと。ただ、評価値がある程度正確なら、勝率ではなく平均スコアでプレイアウト
しても良いのかなと思っています。

**535** · 2017/03/04(土) 22:29:00.76

DB初期化に35秒かかる。
コンパイラを64bit版に変えると11秒になる。
なぜこんなに差が…
ちなみに囲連星本体が32bitプログラムだからコンパイラ変えられないT△T
なんとかならんか？

**535** · 2017/03/05(日) 03:39:08.88

コンパイラの問題じゃなくてライブラリを静的リンクするか動的リンクするかの違いみたいです。多分。
かなり早くなった^_^

**535** · 2017/03/06(月) 18:17:26.36

思考時間は試行回数に直結する
重いモンテカルロは一旦封印する

**310** · 2017/03/10(金) 01:25:20.88

評価関数の作り直しを始めたら、計算してはやり直しの繰り返しです。
計算速度が上がったので、比較的気楽に再計算できちゃうのがいかん。

勝率の計算もしてみましたが、結果は似たようなものでした。
いずれにせよ、もう少し精度を上げたいなぁ。

**535** · 2017/03/14(火) 22:28:17.78

LV1の棋譜はDBから削除したほうがいいみたい。
いいとこどりとはいかないか。

**535** · 2017/03/15(水) 21:45:36.14

囲連星のルールは囲碁と共通部分があるから囲碁AIを参考にするのが良いと思っていたが
７連を作れば勝ちというのは王様を詰ませれば勝ちという将棋のゲーム性に近いものがあるのかもしれない。
将棋AIの手法も調べてみるべきか?

**535** · 2017/03/18(土) 23:34:35.11

手書き評価関数やっぱうまくいかないな。
LV０やLV１も実は結構強かったんだな。
反省。

**535** · 2017/03/19(日) 00:56:20.04

やっぱ機械学習しかない。（無限ループ）

**535** · 2017/03/21(火) 22:23:02.18

特徴量と棋譜は用意できる。
棋譜の勝者の着手に対してどの特徴量が優先的に選択されたか？を計算したい。
どうすればいいかな？

**名前は開発中のものです。** · 2017/03/22(水) 00:39:02.37

優先的とか無いでしょ
評価関数は全ての特徴量に対応する評価点を合計するだけ
その各評価点の絶対値が大きくて評価値に割と大きな影響を与えるとかゼロに近いとかはあるけど

**310** · 2017/03/22(水) 09:25:05.89

>>761
それを統計的に処理して求めるのが線形回帰。
収束アルゴリズムは最急降下法を使用するのが普通。

特徴量あり１、無し０で特徴量並べたベクトルを食わせて、
荷重値であるウェイトを同数用意して内積計算。
出て来たスカラ値が、教師データに合うようにウェイトを収束計算させる。

出て来たウェイトが対応する各特徴量の重要度を表す。

**535** · 2017/03/22(水) 20:48:28.79

自力で線形回帰を実装するのはしんどそう。
なにかいいライブラリないですか？
>>535のMM法が動いてくれれば話は早かったのになぁ

**535** · 2017/03/22(水) 21:25:31.00

もう一度MM法トライしてみるか…

**310** · 2017/03/23(木) 17:35:49.51

線形回帰というか、最急降下法自体はたいした事ないよ。
ひたすらループ回して、答えを出して、教師データとの差に比例して
ウェイトを調整するだけ。ニューラルネットになるとバックプロパゲーション
が出てくる（これも似たようなものだけど）違いがあるけど。

とりあえず実装の参考にするならこれ。
http://sealsoft.jp/thell/learning.pdf

GitHUBとかで探すとなんかあるかも。裏ワザではMLPのライブラリ落として
来て、１層の活性化関数無しの全結合層で計算させるって手もある。

**310** · 2017/03/23(木) 17:40:46.97

こちらは、線形回帰の評価関数を作り直して、勝率と石差の２つ用意して、
アルファ碁っぽくMCTSに組み込んでみました。

で、テスト開始したらやたらと落ちる。
線形回帰の計算にEigen（行列パッケージ）を使用していたんだけど、こいつ
が並列処理に対応していないのが原因臭い。

というわけで、学習部分と、MCTSで使う評価関数を切り分けて、評価値を
求める時はEigenを使わないように改造中です。

果たして強くなっているのか。

**535** · 2017/03/23(木) 20:11:41.72

>>766
ありがとうございます。
さらっと読んでみました。
いい感じの文章ですね。
なんとなくイメージは掴めましたが、実際実装するのは結構大変そうな気がします。
まずはMM法でやり直してみて、駄目だったら手を出してみます。
すいません。

**310** · 2017/03/25(土) 10:29:51.08

学習時と使用時の評価関数の切り分け。簡単にやるつもりだったのに、
バグ一杯出してデバッグで大変な事に。

デバッグが行き詰ると、気になっていた箇所を綺麗に直して手を動かし
続けたくなるんだけど、つい計算結果に影響が出てしまうところまで
手を入れてしまい、結局また再度学習しなおしです。

一応バグは解消したと思っていますが・・・
この土日に確認まで行けるか微妙。

**名前は開発中のものです。** · 2017/03/25(土) 15:51:24.00

自作アナログゲームを投稿・共有できる「紙ゲー.net」がオープン
http://www.moguragames.com/entry/kamigame-analog-game/

**535** · 2017/03/25(土) 21:50:08.29

特徴量、用意できるって言ったけど、いざ作ろうとすると迷うｗ
あれもほしい、これもほしいとなって発散してしまう。

**310** · 2017/03/25(土) 23:15:01.53

特徴量の選択はね・・・

実際にその特徴量を使って統計処理（線形回帰でもMLPでもDCNNでも何でも可）して
みて、結果の精度に効くものを残して、効かないもの（ウェイトがゼロになるとか、外して
も精度が変わらないとか）を外して、結果的に決まるものじゃないかと思います。

そういう意味じゃ、仮説検証でトライアンドエラーしないといかん。

オセロではBuroさんが論文書いてくれているので、皆それをベースに小修正程度で、
ほぼ同じ精度のものができちゃいますが、そういう先行者がいないゲームだと、自分で
やらないといけないので大変だと思います。

DCNNで「特徴量を自動的に決めてくれる」ってのに、皆が胸熱になったのは、そういう
事です。自分はオセロに応用しようとして、失敗して、後回しにしちゃいましたが。

**310** · 2017/03/27(月) 01:55:55.89

アルファチックなMCTSオセロですが、とりあえず途中まで学習してテストしたところ・・・。

終局しているのに両者パスでツリーが伸びて行ってしまう（汗
何度チェックしても原因不明。ブレークポイントでチェックすると、あり得ない場所で
ボードデータが書き換わっているように見えますが…。並列探索が原因かと思い、
シングル動作にしてみましたが、それでも同じ。かなり重症です。

が、それを除くと、途中までテストした感じでは、最善手を打てている模様。
まだ序盤なのにツリー成長が尋常ではなく、終局までツリーができています。
不要な手をカットする仕組みとして、十分すぎる性能になっています。
とはいえ、勝率判定はそれほど正確ではないので、変な局面に誘導されると、
読み抜けが問題になってくるかも知れません。

もしかしたら、終局後もパスでツリーが伸びている問題は、これまでもあったけど、
終盤完全読みにしていて見えなかっただけかも知れません。

**310** · 2017/03/28(火) 03:12:19.93

パスが伸びる原因は判明。

着手後の盤面を返す関数で、合法手じゃない着手を要求された時を
エラーにせず、元の盤面をそのまま返していたため、手が進まなくなって
いたのが原因だった。

が、そもそも合法手以外の手を渡すはずがないから、エラートラップして
いなかっただけで・・・

まだ根本原因にはたどり着けず。

**535** · 2017/03/29(水) 21:27:24.43

MM法動きました！
でも全然強くないｗ
特徴量が悪いのか棋譜が足りないのか…

**310** · 2017/03/29(水) 21:53:37.26

大体バグがとれました。

Zebraの学習モードと対局。
F5-D6から１０手目までは定石使用。その後４０手目まで新AIで手を分析。
途中数回-2の手を打つものの、そのまま終盤まで行き、－４～－６くらいで安定。
４０手前に負け趨勢が判明（勝率３０％くらいかな？）するとご乱心モード入り（汗

というわけで、Zebraレベルまで、もう少しという感じです。

評価関数を使用したプレイアウトは、重すぎる上に結果も散々で、結局のところ
以前の角評価付相手着手可能数ヒューリスティックで３手を選択し、７５％２０％
５％で振り分けるものを使用しています。評価関数型の方は多分softmaxで
使うexpの計算が重いと思うので、テーブル化を検討してみようかと思います。

一番の改善点は・・・。評価関数で悪いと評価された手には、プレイアウトを割り当て
ないので、とにかくツリー展開が縦深します。３０秒思考で１２～１４手目には、一番
読んでいる枝は終局に達しています。これで、モンテカルロの偶然がかなり減って
いる印象です。また、余計な横枝が伸びていないので、メモリーにも優しいです。

２手ほど間違えるのは、ツリー展開の初期値で与える評価値の誤差が原因と思います。
ここは、今の評価関数では、これ以上精度出せないので、何か手を考える必要あり。

あと、いくつかの定数調整かな。

**310** · 2017/03/31(金) 20:13:06.62

expの計算は重さの原因ではありませんでした。やはり単純に評価関数が重い模様。
プレイアウトはヒューリスティックのsoftmax版に変更。

ツリーの初期の評価値は、数手読む事で精度アップを図ってみましたが、３手も読む
とかなり時間がかかって、プレイアウト回数が1/10以下になってしまうので、バランス
見て２手読みにしてみましたが、これで強さが変わるのか不明。

１０～１５手目で１回。３５手前後で１回づつ間違えて、負けを確信したところで乱心。
試しに１５手まで定石DBを使うようにしてみたところ、３５手目まで引き分けで行けました。
やはり３５手目で間違えて－６。むむむ。

４０手までの棋譜。
F5 D6 C3 D3 C4 F4 C5 B5 B4 B3
E7 C6 B6 E6 F6 D7 C8 A6 C7 E3
F3 G4 G3 E2 H3 G5 G6 F7 E8 B7
F2 B8 D1 F1 A8 A7 A5 D8 A4 A3

３５手目のA8以下を、A5 A4 E1 C1 A8 A7としていれば引分でした。
評価の順番はA8/E1/A5と、正解を３番手に予想しています。
Zebraの中盤２０手読みでもE1と間違える局面で２４手読みだと正解するみたいです。

実をいうと、途中で邪魔が入って放置している間に、バックグラウンド探索で１０００万
プレイアウトの上限に２回達しています。強さ図る時はバックグラウンド探索を止めない
と意味ないかも。

囲碁AIの本を読んでいたら、プレイアウトの精度の検証に、プレイアウト結果盤面を
統計的に処理して、終局予想図を出す方法と、重要な手を見つけるクリティカリティと
言う概念の説明がありました。この辺使って、プレイアウトの弱点探してみます。

**310** · 2017/04/01(土) 01:30:30.93

直すところが無くなってきたのでパラメータ調整。
たまたまだと思いますが、初めてZebraの中盤２４手読みと引き分けました。

こちらの設定は、バックグラウンド探索無しの１手１分（相手も３０秒考えるという想定）
定石１０手まで。完全読み切りルーチンなし。

F5 D6 C3 D3 C4 F4 C5 B5 B4 B3
D7 C6 B6 E6 F6 G5 G6 E3 A5 E7
F3 G4 E2 C2 H4 H3 H6 H5 C7 D8
G3 H7 A3 A4 A6 H2 F8 F7 C1 D2
C8 E8 F2 D1 F1 B1 E1 G1 B2 A1
A2 B8 A8 B7 A7 G2 H1 H8 G7 G8

ちなみにZebra側は全てBookにあった模様で、一度も中盤探索していません。

**535** · 2017/04/01(土) 11:28:54.33

おおーZebra越えが見えてきましたか凄い！
こっちも頑張らねば…

**310** · 2017/04/01(土) 12:57:37.15

あ、たまたま４月１日の投稿ですが、嘘ではありませぬ(^^;
Zebraがエイプリルフールしてくれたのかも知れませんが。

今回はZebra側は、全部Book上で打っていたので、思考時間実質ゼロです。
Bookを変化させるにして、最初にZebra側がBook評価で-0.5くらいの手を選んで
くれたので、緩まずに終盤まで行ったのかも知れません。

でも、流石に思考時間１分はやり過ぎですよね。
あと、Zebraの中盤探索と勝負したいのですから、ZebraもBookを切った方が良いかな。

**310** · 2017/04/01(土) 14:20:36.16

ZebraをBook無しにして対戦したら、中盤で読み勝って＋２勝ちになりました。

以下棋譜。
F5 D6 C3 D3 C4 F4 C5 B3 C2 E3
D2 C6 B4 B5 F2 E6 F3 C1 A3 A4
A5 A6 A7 D1 B6 E2 E7 D7 F1 E1
A2 G1 F7 G5 G4 G6 F6 H3 E8 C8
D8 G3 B8 B7 H5 H7 G2 H1 H6 G8
B1 A1 A8 C7 G7 H4 B2 H8 H2 F8

Zebra設定：白番、中盤２４手探索、Book未使用、中盤変化せず
当方設定：黒番、１０手目まで引分定石使用、思考時間１分、バックグラウンド探索なし
注）昨夜評価関数の学習を少し進めました。多分誤差範囲です。

Zebraの解析によれば２３手目あたりで間違えてくれたみたいです。

こちらは１０手までは定石使っておかないと、かなり滅茶苦茶な手を打ってしまったり
しますので、Zebraの序盤の精度は凄いですね。

次はどうしよう。
強化学習を調べているんだけど、いまいちどう応用したら良いのかがわからない。

**310** · 2017/04/01(土) 16:16:54.26

１分探索では申し訳ないので、１０秒探索＋バックグラウンド探索にしてみました。

F5 D6 C4 D3 C3 F4 C5 B3 C2 E3
D2 C6 B4 B5 F2 E6 F3 C1 A3 A4
A5 A6 A7 D1 B6 E2 F1 E1 A2 G1
E7 D7 F7 G5 G4 G6 F6 H3 E8 C8
D8 G3 B8 B7 H5 H7 G2 H1 H6 G8
B1 A1 A8 C7 G7 H4 B2 H8 H2 F8

若干違うけど、ほとんど同じような進行で＋２勝ち。
確認していないけど、手順前後で同じ終局図になっている気がする。

ちなみに２３手目A7は、自分の手番でした。解析結果も、Zebra側が見落とした手
を発見している形になっています。恐らく、その手前の２２手目のA6辺りで見落とし
が起きているのだと思います。

こちらが間違えていないという点は評価できるけど、Zebraを中盤変化させて色々な
パターンを試す必要ありそう。

まだ半信半疑だけど、１０秒探索でこれって、ものすごく強くなってる気がしてきた。

**310** · 2017/04/01(土) 17:37:16.14

もう１局やって引分。

強化学習って、プレイアウト同士対局させながら、確率的勾配効果法で
１件づつ更新を繰り返す形で良いのかなぁ。

**310** · 2017/04/02(日) 18:48:15.03

別のオープニングを試したところ、F5F6系や、F5D6C4G5系はZebraに勝てません。

試しにF5D6C4G5系を調べてみたところ、ツリー展開がなかなか深まらない様子で、
有望と評価される分岐が多すぎるのかと思います。最後はやけになって、１分読み
＋要所でバックグラウンド放置探索で無理やりツリーを伸ばしたところ、途中経過で
Zebra評価値が－４まで行ったところから何と＋４まで回復しました。

やはりポイントはツリーの深さであり、余計な枝を探索しない、ポリシーネットの精度
が重要になると。多分。

あと、相手パスの時にもおかしくなるバグを発見。今夜は、ここを調査。

**310** · 2017/04/03(月) 20:36:38.16

パスがおかしくなる奴は、やはりデバッグルーチン限定で、かつ直すと本処理にも
大きな修正が必要になるので、当該デバッグ処理を削除して対処。

F5D6C4G5系をテストプレイしていてわかったのは、中盤ことごとく読みがZebraと
一致しない事。一致しないだけなら良いけど、そこがところどころ悪手になってるっぽい。
読みが一致しないと、事前に読んでいない枝で探索する事になり、浅い探索のまま
間違いが連鎖する感じ。Zebraの着手は、こちらAIが予想は評価値順で３番目以降に
なっている。

これ、ロールポリシーが決めるプレイアウト割り当ての優先順位の問題か、それとも
プレイアウトの精度の問題か、はっきりしませんが、要するに評価値が間違っている
＝弱いという事ですね。

で、この２点について、もう１ステップ先に進んでみようかと思います。

プレイアウトについては、強化学習で良いヒューリスティックを作れないか検討。
ロールポリシーについては、与えている棋譜のバラつきが原因かも知れないので、
強化学習の棋譜から自動生成する事を検討。

あと、終盤４０手以降はほぼ間違えないので、Solverを削除してしまいました。
また、できれば、最終的には定石も無しにしたくなって来ました。
目指せピュアMCTS。

**310** · 2017/04/03(月) 20:41:47.20

忘れていた。

>>782の２２手目は、Zebraの当初予想はG4でしたが、このターンに達した時に、
A6に変わりました。そこでここで強制的にG4を打たせて続行してみましたが、
＋４でこちらのAIが勝利しました。Zebraが間違えたのは、もう少し前の場所の
可能性があります。

**310** · 2017/04/05(水) 01:14:25.59

>>786
Zebraが間違えたのは１４手目のB5だった模様。ここで引き分け手順から外れてます。

定石無しにしようと書いておきながら、少なくとも引分とわかっている盤面情報を活用
して、探索の省略ができないかと、あちこちに組み込んでみましたが、効果は不明。

効果がわからないというより、毎晩こつこつと評価関数のエポック数を稼いでいたところ、
どうも過学習に近い状況に陥っているみたいで、手の選択が変わってきて、むしろ、
どんどん弱くなりつつあります。むむむ。

一旦変な手を選んでしまうと、Zebraにしっぺ返しを食らって、せっかく読み貯めた
プレイアウトの大半がボツになり、短いツリーで手を選択するうちに、どんどん
間違った手を打っていく模様。結果的に勝った時は、ツリーがどんどん伸びて行く
のと対照的です。

で、結局、評価関数の良し悪しという話に逆戻りorz
評価関数から脱却するためにMCTS始めた頃が懐かしい・・・

**535** · 2017/04/05(水) 23:08:13.71

最新の対戦結果です。
LV2に白番で勝ち越したようです。
しかし、LV1に黒番で負け越している。
あとLV1とLV3で白番のほうが勝率がいいのが謎。
真面目に長連対策してないのが弱点になっているのだろうか？
それにしてもLV３強すぎる。
LV１との対戦も１００戦やる予定でしたが途中で固まってしまったようです。

100局目
黒(airandom.dll)の勝利回数: 2
白(ai-lv3.dll)の勝利回数: 98

100局目
黒(ai-lv3.dll)の勝利回数: 92
白(airandom.dll)の勝利回数: 8

100局目
黒(airandom.dll)の勝利回数: 77
白(ai-lv2.dll)の勝利回数: 23

100局目
黒(ai-lv2.dll)の勝利回数: 45
白(airandom.dll)の勝利回数: 55

86局目
黒(airandom.dll)の勝利回数: 41
白(ai-lv1.dll)の勝利回数: 45

83局目
黒(ai-lv1.dll)の勝利回数: 7
白(airandom.dll)の勝利回数: 76

**名前は開発中のものです。** · 2017/04/08(土) 13:24:07.33

2003年に立てられたスレが最近になって動いてる…ｗ
がんばってくださいな。

**310** · 2017/04/08(土) 17:26:32.31

色々グチャグチャと改良（改悪）してましたが、一旦整理して、結局かなりシンプルな
形に落ち着きました。定石も無しにしましたので、２手目以後は考えます。プレイアウト
に時間がかかるので、序盤は考える時間が長すぎです。点数ベースの評価関数を弄り
倒して勝率っぽい数字をでっちあげる事で、勝率の評価関数を使わなくなりました。

今のところ対Zebraは勝ったり負けたりで、強さ的には匹敵するところまで行けたかなと。
両者定石無しなので、純粋にAI部の強さ比較という事で良いのかなぁと自負。

たまにはAI白番（Zebra黒）の棋譜を。自作AIの＋２勝ちです。

F5 D6 C4 D3 C3 F4 C5 B3 C2 E3
D2 C6 B4 A3 G4 F3 E6 F7 B5 A4
A6 B6 G3 F6 E7 F8 D7 C7 G6 H5
D8 C1 H6 H4 E8 C8 G5 H7 B1 A1
B2 E2 A2 H3 F1 D1 G7 H8 G8 A5
A7 F2 E1 G1 H1 B7 G2 H2 B8 A8

MCTSじゃあまり強くならないと思っていたのが、ここまで来れて正直本人がびっくり。
アルファ碁のNature論文のお蔭です。

次ステップで強化学習とか考えていたけど、まだ何からどうすれば良いのかわからない（汗

**535** · 2017/04/09(日) 05:10:12.89

相手に守りの手を強要させることが出来る有利な状態をいかに保ってゲームを進めるか。
終盤の要になりそうです。

**310** · 2017/04/09(日) 20:11:13.36

評価関数の評価値計算でmin-Maxの時にやっていたのに、今回はやっていなかった
手抜き箇所を修正し、速度アップを図りました。
プレイアウトの速度が劇的に速くなりました。

最低でも１０万プレイアウト貯め無いと、変な答えを返す（だろう）という事で、最大試行
回数の手が最低プレイアウト数を超えていない時は探索延長していました。そのため
序盤で探索延長頻発していましたが、今回の改造でほぼ延長無しになりました。

あと、評価関数のステージ分割を細かくしまして、再計算を開始。

１手２０秒設定でやっていますが（他にバックグラウンド探索あり）、１０秒でも実用になるかなぁ。
MCTSなオセロとしては、ある程度できちゃった気がする。

**535** · 2017/04/10(月) 22:56:16.99

もしかして>>310さんのAIは世界最強クラスってことですか？
凄すぎ…

**535** · 2017/04/10(月) 23:19:01.03

完成したら論文書いてwebで公開してくださいｗ
おねがいしますｗ

**310** · 2017/04/11(火) 07:59:39.45

>>793
いや・・・それはないです。

オセロの場合、定石DBの学習が強さに直結するので、定石DBを持っていないAIは
かなり不利というか、対戦したら勝ち目ありません。何回も対戦するうちに苦手な定石
に誘導されちゃうので、勝ち目なしは確信しています。

また、アルゴリズムの優越比較という意味で、Zebraの定石DBも無しにしましたが、
Zebraの中盤も一昔前のレベルで、決して強くはないという評価をWEBで見た事が
あります。今回Zebraを使用したのは、対戦中に学習モードに切り替える事でどこで
間違えたかがわかりやすいからです。Edaxとはまだ対戦させません。

ただ、個人的に思い込みたいレベルでいうなら、MCTS系のオセロAIでは最強クラス
なんじゃないかなぁと（願望）。なにせ、いまどきオセロAIを開発している人はいないし、
ましてモンテカルロ系で試そうなんて人もいなさそうですから。言ったもの勝ち（汗

アルファ碁の論文のDeepでNeural networkではない部分を適用する事で、min-Maxで
なければ存在価値がないところまで行き着いていたオセロAIでもMCTSで結構強くなれる
事が証明できたかなぁと。本当にアルファ碁様様です。

ブログ作って解説でも作ろうかと準備していましたが、試しに開設したブログサービスでは
アップロードができなかったので、一旦閉鎖しました。どこか良いところないかな。

**535** · 2017/04/13(木) 22:33:44.03

いろいろ試してみてるけどなんか勝利手順DBを充実させるのが一番手っ取り早く強くなる気がする。
いま１２万局分棋譜あるけど１００万局くらいまで増やしてみるか…
もっと計算リソースが欲しい。

**310** · 2017/04/18(火) 01:24:07.08

評価関数のエポックを更に進めたら１８０エポック近辺から勝てなくなってきました。
もしかしてたまたま間違ったところが、zebraの弱点をついていたのかも知れないし、
評価関数の値にメリハリがついてきて、逆に見落としが起きやすくなったのかも
知れないし。過学習かも知れないし。

評価関数をブラッシュアップするには、負け手順を棋譜化して、学習データに投入
しなきゃならん。

ところが、負け確定後に例の自爆モードが作動してしまいます。棋譜として使えるよう
にするために、ソルバーを復活させました。ついでに色々やってたら、見なかった事
にしていたバグもとれました。ついでだからと偶数理論を実装したのですが、かえって
遅くなってしまった。他の人はどういう実装しているのだろう。

今の速度だと３５手目から読み切らないといけない。今の速度だと時間の予測が難し
いというか、軽く１時間はかかりそう。

**535** · 2017/04/19(水) 21:59:17.68

Ponanzaがディープラーニング取り込みに成功したとかなんとか。
ハードもものすごいものを用意するそうですね。

**535** · 2017/04/21(金) 20:55:54.67

大分勝率上がってきた。
思考時間長いから数こなせないのが厳しいですね。

25局目
黒(airandom.dll)の勝利回数: 8
白(ai-lv3.dll)の勝利回数: 17

**535** · 2017/04/21(金) 22:05:48.97

やっぱディープラーニング憧れるなぁ。
俺のAIにもブレークスルーを起こしてくれｗ

**310** · 2017/04/23(日) 20:02:43.30

色々係数調整したらめっちゃ弱くなって焦ってあちこちいじってました。
最初の調整の方向が逆だった模様で、反対に振ったら少し良くなりました。

過学習っぽい問題を何とかしたくて、ポリシーネットが作れないか、もう一度挑戦してます。
線形Softmaxでまた色々やっていたのですが、今まで上手く行かなかった理由が判明。
特徴を圧縮するのに…反転させたり回転させたりしていたので、盤面位置がわからなく
なった投入データに対して、盤面との対応ができてる教師データと整合性が取れなく
なっていたと…いまさら気づきまして…学習部分を全面的に作り直しとなっています。
なんて馬鹿な事をしていたんでしょう（涙

つまり、これが原因だったら、MLPも使えるかもって事です。
流石にDCNNは関係ないですが。

**535** · 2017/04/24(月) 23:38:10.10

もう一回connect4に立ち返ってみるかな…
気分を変える意味でも…

**535** · 2017/04/25(火) 21:31:44.16

あ～なんか新しいことすんの億劫だな。
プログラミングは少し充電期間をおいて本でも読もうかな。

**名前は開発中のものです。** · 2017/04/27(木) 01:15:37.14

中学生が羽生さんに勝っちゃったとかでえらい盛り上がってるね

**310** · 2017/04/27(木) 22:32:29.06

億劫な時ありますね。アイデアが枯渇した時とか、陥りがちです。
しばらく放置するとアイデアが出て来たりします。

さて、線形Softmaxなポリシーネットですが、色々やって何とか計算開始しました。

回転同形の処理を真面目にやったらメモリーパンクでスワップしてしまってボツ。
仕方がないので、エポック事に回転同形をランダムに作る事に。

計算にものすごい時間がかかるので、ミニバッチサイズをミニとはとても言えない
ほどでかくして時短。お蔭で６時間越え→５０分程度になりました。もっとでかくすると
更に時短できるかな。

序盤の盤面は重複が多く、学習に悪影響がありそうなので、％指定してカット。
（そのうち、同一盤面同一次着手は１件に集約しようかと思っています。）

こんな感じで現在２エポック目ですが、５７％くらいの一致率という極めて優秀な成果が
出てきています。

それでも着手不能箇所が確率１位になっちゃったりするので、使用時に着手可能位置
のみ計算するようにしました。これで多少は一致率が上がるはず。

**310** · 2017/04/27(木) 22:33:06.57

藤井４段凄いですね。
コンピュータ将棋で鍛えたからかな。
なんか新しい手を打ってるみたいですね。

**名前は開発中のものです。** · 2017/04/28(金) 07:46:25.71

ニュースを見て藤井猛が勝利したのかと
勘違いした俺…
ニュースにならねえよ！

**535** · 2017/04/29(土) 00:08:17.53

ニューラルネットワーク自作入門という本を買ってきました。
平易に書こうとしてるのが伝わってくる本ですね。
平易に書くの最近の流行りなんですかね？

**310** · 2017/05/03(水) 15:03:32.93

最近はもっぱらポリシーとバリューの両評価関数のテストです。

ポリシーの方は線形ソフトマックスで大丈夫そう。大体５０％の正答率になります。
MLP版もコーディングはしてますが、まだテストまで至っていません。

バリューの方は、ステージ分割なしのMLP版を試してます。
計算に時間がかかりすぎて調整が進みません（汗

頭の片隅には、いつかはDCNNというのが残っています。
以前やった時に、畳み込みフィルタ演算の展開形を考えた事あります。
その時は、汎用性が無いという理由で、あまり乗り気じゃなかったのですが、
今となっては、そのまま進めればよかったかなと思う次第。

**名前は開発中のものです。** · 2017/05/04(木) 17:16:11.41

pona負けたとかなんとか

**310** · 2017/05/05(金) 01:52:31.91

世界コンピュータ将棋選手権ですね。
８勝１敗同率で、elmoに直接対決で負けた関係で予選２位通過みたいですね。

将棋は電王戦くらいしか見てなかったので、マシン制限があると思ったら、
こっちは凄いですね。CPU1092（Xeon)にGPU128基ですか…。
やっぱディープラーニングすると、それなりのマシンパワーがいるのよね。
しかも最速マシンは２０億NPSとか言っているみたい（笑うしかない）。

**310** · 2017/05/05(金) 02:46:05.76

で、Ponanza Chainerに対する半可通っぽい疑問。

アピール文章読んだけど、ディープラーニングは評価関数ではなく、
ポリシーネットに相当する次の１手導出に使われているっぽい。
何故バリューじゃなくてポリシーなのか？

で、αβ系探索でポリシーとなるとオーダリングに使うくらいしか思いつかない。
将棋ってオーダリングに良いヒューリスティックスないのかな？
YBWCのPV決定だと縦に並んじゃうから、並列にする意味がない。
確率の高い手は次の段でPVの数を増やしたりするのかな？

**名前は開発中のものです。** · 2017/05/05(金) 08:17:59.66

将棋（やチェス）だとYBWCよりもLazy SMPが流行ってるみたいですね
Ponanza Chainerはそれのクラスタ版のeXtreme Lazy Smpらしいですが。