▲コンピュータ将棋スレッド125
■ このスレッドは過去ログ倉庫に格納されています
>>553
70%ってことはレート150くらいの差。
流石にrelmoにそこまで勝てない気がする
。手元のR表だと自ソフト2とrelmoの現R差159だけど、
直接対局だけではないので。
良くて対relmoは65%かな(予測)
時間ある時やってみます。 信頼区間をつけないと相性とか7割とか言っても全く信用できない 今月の数学セミナー、コンピュータ将棋・囲碁特集で、
Ponanzaの開発経緯とか数学的背景、千田の記事とか載ってるよ やっぱりそんなに甘くないよな
手軽な遊びだから、一時期夢中になってブリードしまくってたけど、
yaselmoより有意に強くなってるで!って思ったら、
技巧2に全然勝率上がらないとかよくある >>557
特定のソフトとの多対局-対戦成績からのレート計測がほぼ無意味と思ってる。
(開発者の方の強さ測定には必要だろうけど)
勿論それなりに正確なこともあるが
必ず557さんのようなことになる。
信頼区間?単なる趣味にそこまでしないよ
信用しなくてけっこうよ、公開はしないんだから ご自由に発言して。
ここおもしろいね すぐ「信用できない」 (笑) 連続対局回してて7割位勝ってる!と喜んで床について、
朝起きたら100局で五分五分だった、というのが今日もあった・・ 100局でもどっちが強いかわからないし
長時間対局なら更にわからないな >>559
ちゃんと観測していないからだろ;
自己対戦中もOSがバックグラウンドでやるI/O処理やら
推奨振動子のジッタやらでソフトはPC外部からの量子論的干渉を受け続けているんじゃ >>559
1手の秒数に限らず100局はやらないとダメかもですね。
本当に強いソフトに関しては最低100局までやってみようかな。
けど、それ以上はソフトを公開する方ならともかく必要ないかと。
自分のソフト1も2もそこそこ強いのに少なからずバグあるので・・・
こうやって測定して遊ぶ 悪趣味。
やねさんが最強で間違いない。 >>560
>>561
>>562
100局やると大体の誤差は5%前後以内くらいにはなるかなーと
95%信頼区間は前後10%だけど
80%信頼区間は前後5%くらい
5%以上は強くないとあんまり強くなった気がしないし、
100局で五分五分なら強くないと判断できる
5%未満を追い求めるなら別だし、グラフ見てイケそうと思うんなら追試も可能だし >>558
「信用できない」は、お前さんが嘘を言ってるという意味じゃないよ。
ランダムの偏りにあまりに無防備な報告者が多いからね。
ランダムの定義からすると逆説的だが、偏らないことが保証されてるのはランダムではない。
サイコロは6回ごとに必ず6がでたりはしない。 >>558
信用できないはまさに565が言った通りで、嘘をついてるとかじゃなくて
単なる偶然や勘違いとの区別がつかないって意味な あれれ 人間のtopプロがタイトル戦七番(先に4勝)で決着つけて信頼区間の話にはならないよね。
対 tamore 勝っても負けても載せるつもりだったけど、今のところ勝ってしまってるだけ。
なんでソフトだと結果に厳しく言われんのかな?別に公開(今後更に強いのできても)もしないし、
こっちが強いとは一言もいってない。今 tamoreに勝ち越せるソフトってどのくらいあるのかな。 ここに対局結果掲載したのが馬鹿だったんでとりあえずやめます。
対局の結果は偶然や大勘違いでした。 お騒がせしました。 ご自慢のソフト(キメラしただけ)を公開しないって言ってるなら
ここで結果を言っても誰も何も思わないのにw
せめて棋譜でも貼ればいいのに承認欲求の塊で草 まぁ、大人げなかった気もしないでもないな。
さらっと承認欲求を満たしてあげても別に何も困らないからそうしてあげてもよかったなw どうせSDTまでの余興だし。
大っぴらに言わないだけで強豪チームはyaselmoより強くしてるでしょ >>574
じゃあDB2こいよ
俺のi7ボコッてくれよ
ご自慢のソフトでw まぁ、キメラで承認欲求満たしたい人って少なからずいると思うんだよね。
uuuuuunさんあたりがキメラ大会開けばいいんでないかなぁと思ったりはする。 馬鹿が馬鹿を呼んで馬鹿だらけになるので、
ここで馬鹿の承認欲求を満たす必要はない >>577
それは残念ながら否定できないな。
考えを改めよう。 GKに、100戦して8割勝つソフト出来た
公開しないけど 俺の評価関数は勝率1億パーセントだから
おまえ等まだまだだな うかむせに横歩定跡で狩られてたcurryはもういないのか
成長したな またソフトtamoreは羽生に負けてたぞ
49竜を悪手認定したのに
手を進めたら互角後手寄りになりやがった
これってソフトの欠陥なのかね? 「最善手」はその局面の完全解析なんだから議論する意味はない 手を進めて評価が反転するところまで、49竜の局面で読ませたらどうなるの?
まぁ、枝狩りの関係でその深さまで読んだじゃ〜んってとこで評価値反転することはないことはないんだけど。
いっぺん限界まで深く読ませてみればよろし。 5手進めてで10手読みで評価値の反転を検出したら、現局面からだと15手以上読みで評価値の反転が検出できてるか?ってことね。 tamore評価値
https://i.imgur.com/3Org1JP.png
今日の竜王戦の80手目の羽生さんの49竜なんだけど
指されたときは候補の下の方で評価値が一気に800ぐらい下がって
竜王戦スレでも羽生さんの悪手とかファンタの大合唱だったんだが
今改めて40憶ノードぐらい読ませたら49竜が最善手になった
羽生さん凄すぎないか? そんなごくまれなケースを持ち出されてもな
羽生だけじゃなく、探せばそんなのたくさん見つかるだろ
そもそも評価値は絶対じゃないし
人間の感覚よりは大体強いってだけだ
一局指せばほぼコンピュータが勝つだろうが >>592
40億ノードと同等の読みが短時間で出来る人間すげーってならないか? そもそも人間とコンピュータとでは「読み」の意味が少し違うから一概にどっちが優れてるとはいいづらい。
コンピュータはとにかく物量と数学、統計的理論で読むわけだけど、
人間は物量はコンピュータに劣るけど数学、統計的理論よりも優れた方法で効率的に読まなくてもいい局面を判断できるわけだ。
なので時と場合によって優劣が入れ替わるのは特に不思議じゃない。
ただ、コンピュータの物量が圧倒的なのと、最近評価関数の精度がどんどん上がってる、
つまり局面評価自体が人間よりもだいぶ優れてきてるから人間は勝ちにくくなってる。 136手目、なぜ頼れるモは3三銀なんて自爆手を指したのだろう・・・ >>589
これ65桂と49龍の比較できてるのか?
誤差範囲じゃね >>602
まあ65桂でもよかったかも知れない
それに感想戦では65桂も読んでたみたい
重要なのは、ソフトは49竜を非常に低い評価値にしてたこと
65桂は最初から最善に出てたのに対して
49竜に関してはちゃんと読めてなかったこと >>603
他に良い手があるんなら騒ぐほどじゃねえじゃん・・・
何かを上げるために下げる事でしか評価出来ないなら
一生踊らされるぞ ちなみに、今回の49竜みたいに深く読まないと間違う局面を効率よくたくさん(億単位)集める
方法があれば、それをつかってさらにソフトを強くできる可能性があるよ。 >>604
他に手があってもそれを評価できなければ
相手が間違える可能性が高くなるでしょ?
勝負では有利になるはず >>604
49龍だと先手玉にわかりづらい頓死筋が生じる
渡辺は49龍指されて長考を余儀なくさせた
実戦的にも(長時間読ませた)ソフト的にも最善手
>>606
去年の増田新人王の対局も後手玉が即詰みなのに長時間読ませないと先手敗勢だったからそういう局面結構ありそう 自分が読めてないのにソフト最善とかって・・・
65桂が悪手ならまだしも
ならyaselmoやmafuta2なら49龍が最善にすぐなるのか?
なんつうか踊らされてる奴はずかしいな >>589
まだこんなこと言ってる馬鹿がいるのかよw 救えない情弱、低脳。
もう羽生は、飛車落ちでも強豪ソフトに勝てないのにw >>610
なんで短時間読ませた時の最善のほうを重視するの?
長時間読ませた上での最善のほうが優位じゃないか? >>612
重視って・・・
その65桂と49龍の比較ちゃんとしたんか? 一部分だけ切り取って騒ぎ立てるフェイクニュース信じて踊らされてる奴みたいだな >>611
誰もソフトより羽生が優れてるなんて言ってないと思うが、文脈読めてるか?
>>589は長く読ませたソフトと羽生の手が一致して喜んでるただの羽生ファンボーイだろ
>>613
比較っていうのは実戦的にか、ソフトてきにかどっちの意味?
実戦的の意味なら>>608で書いたように渡辺に長考余儀なくさせたことが優れてる
ソフト的の意味なら長時間読ませた結果最善が49龍なんだから、"現時点でのソフト"では最善だろう というか40億ノードも読ませるより、
実際に4九竜指した局面を読ませた方が圧倒的に効率的だよなあ。 >>606
floodgateの頓死局面集や大逆転集を使った定跡で評価関数作ったりしたけどどうもいらない手まで読んで中盤までに差を付けられることが多いからそんなに単純な話じゃない >>606
詰め将棋ではしっこに玉方の桂馬が邪魔してるかどうかで
詰むか詰まないかが分かれるのがある。
そんな詰め将棋はなんぼでも作れる。
それを静的評価関数でもNNパターン認識でも検出するのは無理。
読まなきゃわからない問題は読まなきゃわからない。 >>568
マジレスすると、人間の場合は再現実験で検証できんからな。
真の強さがどうあれ、タイトル戦で勝った方を、結果から強いと認定する。
まあ対局者同士には読み筋の交換等でどっちが強いか感覚でわかる場合が
大部分だろうが。 >>617
どういうやり方でやったかはわからんけど、
そういう局面集が億単位で手に入ったとして、それを使って学習するなら
そうじゃない普通の局面も同じくらい用意してやらないときっと失敗するんじゃないかなぁっていう予想はなんとなく。
過学習しちゃうからね。
>>618
そういう考え方もあるだろうけど、そうじゃないかもしれない。
やってみなきゃわからんから可能性。 >>620
既に三駒関係では情報を収めきれないから微妙な違いを学習する前に上書きされてしまうのでは?
もっとリッチな評価関数じゃないと 統計学の素養欠けているくせに○○が☓☓に弱いだの強いだの言う輩が多すぎる… >>621
それも本当のところは「わからない」が正解だと思うんだよね。
去年から3駒に余力がないといわれてたけど、elmoの出現でそれが間違ってたことがわかった。
というか余力を測る方法があれば助かるんだけどねぇ。 >>615
こういう話はどうでもええわ
羽生さんのファンスレで悪手を指してないと主張するんならいいが・・・
言ってるように最終でソフトの評価が怪しい局面はある
んなことはみんな知ってるが、だから人間が勝てるわけじゃないし、ソフトのそういう局面の評価を改善させる方法についての提案なら有意義だ
あと、渡辺が長考したって前提が間違ってる
10分で指してる 検討とかで読み抜けが怖い場合は、MultiPV増やしてやろうね。
ソフトは探索効率を考えるので、49龍の筋を読むより別の筋を呼んだ方が総合的に有利と判断したらバッサリ切っちゃうから。
そういうのが嫌な時は、MultiPV=5とかで検討しよう。
勝率だけ考えたらMultiPV使わない方がいいというのが結論だけど、特定の一手を評価をするなら必須だと思う。 ブレンドでtamoreとtamore_G,Kの両方に勝率54%以上になった人はいますか?自分は
片方だけなら簡単に出来たけど、両方は無理です。片方に強いのが出来ても、必ずもう
片方には負け越します。対局数は毎回400以上行いました。 curryは浮かむ瀬に負け越してなかったらここまで強くなれなかったな https://www.youtube.com/watch?v=imMngdPi91o
これみてもわかるとうりソフトだとまだまだ相当深くまで
読ませないと間違うこともまだまだ多いてことね
△49龍がちょいと読ませた程度なら悪手とでるがじつは
深くまで読ませると最善手だったとか
▲57銀じゃなくて▲56桂なら渡辺逆転かと思わせといて
じつは深く読んだら、普通に羽生が勝ってるとか
ソフトは相当深くまでよみこまないとまだまだ間違えることある
てことを忘れないほうがいいね。 お互いに最善手を指さないことによって、より複雑な局面が生じたりするのかもね。 ファンタ判定された手が結局最善手だったというのは何パーセントくらいあるのだろうね 以前の弱いソフトで判定された最善手や悪手と判定された手が今の最新のソフトでは結論が違うことはあるだろうね
もっと進化すればまた結論は変わるのかも知れないが 昨日の羽生さんは△7七桂打に至る構想とか、飛車の転回を未然に防ぐ△6四桂打とかもすごかったなあ 49龍は今後ソフトの性能を測る格好の局面として永遠に語り継がれるだろう 28角もいまや間違うソフトはほぼないんだから、時間の問題だな。 2八角は確かに打たないけど、2八角を金と交換して+300ぐらいの評価をする順を主に読んでいるから
飛車で馬をまる得する長期的な構想力(探索能力?)はまだまだ難しいみたいだ
ここで人間との差が出てくるかもしれない >>635
評価値は自玉の安全度と敵玉の安全度の二次元値であるべきだと
繰り返し提言してるんだが。
電王戦の誰ぞの評価値と分散というのも同じ趣旨か。
まあ、一次元の現状では、枝狩りを抑制して、とても広くとても深く読めば良いだけのこと。
すなわちメモリとCPUパワー。
Brute Force野蛮な力こそ正義! >>638
2次元値をどう使って指し手を決めるのか?って気になるんだけど、そこんとこどうなの?
ただ加算、減算、比率での加算とかやるんであれば、
3駒に1段階要素をはさむだけで大して変わらない気がするんだけど。
NN風にいうなら、1層目3駒、2層目玉の安全度、3層目出力評価値、みたいな感じで
3駒とそれほど大差ないような気がする。 電話?強いよね
序盤雁木
中盤駒得
終盤即詰
隙がないと思うよ
でも若者は負けないよ >>637
ソフト相手に28角打てたとしてもまる得するのは難しくないか? >>599
これの棋譜見てきた
ソフトでもこんな悪手指すんだな >>639
有利なときは自玉の安全度を減らさずに敵玉安全度をちょっぴり減らす。
じわじわ真綿で首を絞めるように相手に逆転の可能性を見せない激辛流。
互角の時は先手番なら攻撃優先、後手番なら守備優先。
不利なときは自玉の安全度を多少犠牲にしても敵玉の安全度を大きくへらす。
一発逆転頓死を意識させて敵の考慮要素を増やす。泥沼勝負術。
…とか。
つうか、そこの最適戦略も機械学習すればいい。 >>644
面白いけどいろいろ難易度が高すぎる気がするなぁ。
まず玉の安全度の教師をどうするのかとか、
有利不利を判断するのに別の評価関数を学習しなきゃいけないなら若干本末転倒ではないかとか。
でも、まぁSDT5の評価値を確率分布にするってやつが一定の成果が出たら、
そういうのも可能になる道が見えてくるかもね。 やねブログの更新がなくてつまらんな
いつも大会前には色々書いてたイメージなんだが >>645
αβ枝刈り出来ないのが最大の欠点だと思う
二次元の値だとαβが出来ず、探索の深さは半分になる
もし出来るなら、評価値は一次元で表せるので、逆に二次元で表す意味もなくなる >>644
あと候補手を2次元でマップする事で見えるものがあるかもしれん。
星状分布の頂点は枝狩りしないほうが良いとか。
読んだ後の評価値分布の推移が台風の予測進路に似てるとか。 >>647
二次元でも明らかに切るべき象限・エリアはあると思う。
それに二次元の方が人間の枝狩り戦略に近いのでは? そもそも枝刈りの前にどうやって探索するの
ちょっとコード書いてみてよ
普通のαβなら5行くらいで書けるんだし >>649
まぁ、2次元値でのゲームツリー探索の枝狩りは、たぶん先行研究がないからかなり茨の道だよね。
でも、何か発見すれば論文書けるんじゃないかな。
興味がある人がんばれw >>650
サンプルコードがさくっと書けるようなら、
こんなに難しい難しいといってない気がするんだけどw ■ このスレッドは過去ログ倉庫に格納されています