▲コンピュータ将棋スレッド141
■ このスレッドは過去ログ倉庫に格納されています
評価関数単体だとNNUEkai4とどっちが強いのか気になる
最近はエンジンは強さよりも相性が重視されるから公平な計測条件が難しいけど suimon関連の話題をこのスレでやり出したら、クエスト2分,アマ県棋戦,出版本の売れ具合,
他の指し手研究類似者とのTwitterでのやり取りがどうだとか、一般の将棋ソフト愛好家からしたら
どうでもいい話題なので本スレでやってくれ >>88
今、探索部をdolphin2に固定して、NNUEkai4とillqha2を対局させているけど、
対局数59 NNUEkai4が32勝(59%)、illqha2が22勝(40%)、引き分け5 となっている。
うちの貧環境では、NNUEkai4 が最強といえるかも。 もう何日かして対局数とかノード数がまともな計測結果がいくつか出てこないとなんとも言えないよな とりあえず速報値が知りたかったから
1手100万ノード固定で300局計測、探索はGW6で固定
NNUE-kai4 145-6-149 illqha2
完全に互角、有意差を出すのは現実的な対局数では無理っぽい ロタ @Rota_JP
【結果から得られた考察】
1手0.1秒→150-200万ノード レート測定に不適 解像度が低い
1手0.5秒→750-1000万ノード 一定の勝率測定能あり
1手1秒→1500-2000万ノード uuunuuunさんサイト測定基準
1手2秒→3000-4000万ノード 時間を2倍にしても勝率に大きな変動はなし
https://twitter.com/Rota_JP/status/1027149612761505792
最低1000万ノードは必要
https://twitter.com/5chan_nel (5ch newer account) 探索エンジンの違いで勝率が変わると評価値の良さが
分からなくなるので制限を設けて計測することにした。
途中経過は以下の通り。
まだ10局なので断言するのは早計かもしれないが、Kai4
よりillqha2の方が評価値としてノードリミット100万なら優れてそうです。
https://i.imgur.com/xOJzWEj.png なんとなくエンジンとセットだからイルカにしようかなってなるわ elmo以降、数百万程度の低ノード測定は不正確で、1500万以上は必須というのが定説だったと思うが、何故みんなあえて低ノード?
nnueだと低ノードでも信頼性があったりするの? 低ノードと高ノードで勝率に差が出てくるのは分かってるけど、
高ノードの結果の方が正解で、低ノードの結果は不正確って認識はなかったな >>100
さすがに深く読ませた同士の結果のほうが信頼性高いのでは? 低ノードだと金沢将棋'98がelmoに勝つこともある あるレギュレーションでの強さは、その条件で測定しなきゃわからん
高ノードだから正しいわけではない
そもそも正確性や信頼性ってなんだよってとこからの話になる ノード数が増えればRが上がることはわかってるんだから、指し手の精度はより高いのでは?
検討時に低スペで1秒しか読ませないなんてことはないしそこそこ多いノード数での計測を信用したいけどな >>104
高ノードで強くなるけど、問題は各ソフト毎にその曲線が異なるってことでしょ
あとはノード毎に出やすい戦型があれば、それによって相性問題が生じる可能性もある >>105本当はせめて3種類くらいのノード数でそれぞれ対局させたほうがいいんだろうけどね、計測班がキツすぎるわな 評価関数だけで比べたら、大樹の枝と最新ソフト比べたらどれくらいR上がってるの? ノード数とかレートもいいけど、ソフトには解けないって言われてた詰将棋がイルカ2ならそれなりに解けるようになってたりしないのかな
さすがに長手数は無理だろうから50手くらいまでで 出先なんでurlでカンベン
ttp://www.ne.jp/asahi/tetsu/toybox/challenge/c1044.htm
こんなのはどうかな? >>109
成らずとか特殊な作為のは簡単なのでも解けない様な >>111
今試してみたけどmateでも詰むので、連続王手の筋を読まないみたいだな 詰将棋用じゃないからより短手数で勝てるならそっちを選ぶのは自然 特殊なのはさすがにだめか
特殊じゃないやつで難しい長手数ってどこに行けばあるんだろうか >>117
局面によっては正しく評価値が出ないから >>119
そんなの言い出したらコンピュータ将棋なんて意味ないじゃん 特定の局面が頻出するなら、それは結局レートにも反映されるわけだし、
そういうの気にし出したら切りないからなあ
もちろん興味として、そういう特殊な状況が気になるのは理解できる NNUEが万能にどんな局面でも評価できるようになるのか気になるんだよね
ttp://www.ne.jp/asahi/tetsu/toybox/challenge/c3005a.htm
持ち駒多いと3駒では厳しそうだけどどうだろう 万能にどんな局面でも評価できるか?無理に決まってるでしょ
枝刈りしなけりゃどんな評価関数だろうが詰ますし、
運悪く枝刈りに引っかかれば詰ませられない、そんだけだ
個々の局面評価を見てソフトの特徴を推し量ろうなんてどだい無理な話 昔はまず無理と言われてたことがどんどん実現してるから、どんな局面でもとはいかなくてもよっぽど変な局面以外は評価できるようになるんじゃないかと思うんだけど 詰みがある局面はGUIのアシスタント機能+詰将棋ソフトに任せておきましょう 何回も言われているが
一番重要なのは対局数だからな
1000万ノードで50局しか計測出来ないなら
100万ノードに減らして500局計測した方が意味のあるデータになる テスト対局させてみました
1秒対局なのでノード数が少なめですが参考までに
定跡はオフです
illqha2+dolphin2とillqha1.1+dolphin
227-66-207 (ノード5〜600万)
illqha2+dolphin2とGW-QQR
288-18-194 (ノード4〜500万)
次はdolphin2固定で、illqha1.1やkai4と対局させてみます >>96
> 探索エンジンの違いで勝率が変わると評価値の良さが
> 分からなくなるので制限を設けて計測することにした。
> 途中経過は以下の通り。
> まだ10局なので断言するのは早計かもしれないが、Kai4
> よりillqha2の方が評価値としてノードリミット100万なら優れてそうです。
>
> https://i.imgur.com/xOJzWEj.png
もうやめようと思うが一応まで途中経過報告になります。
Kai4より若干強いかなといった感じです。
https://i.imgur.com/6b4cabC.png
対局数104
Kai4 GW3 L10^6 47勝
illqha2 GW3 L10^6 53勝
引き分け 4
=========================
illqha2からみたレイティング差は20ぐらい
100局 53勝 47敗
勝率: 0.53
標準誤差: 0.050288507734394784
95% 信頼区間 [0.43, 0.62]
相対イロレーティング: 20.87120466602866
標準誤差: 35.070287293772225
95% 信頼区間 [-48.96256003716197, 85.04323715257749] 今度はGW5.0.5 QQRとの対戦を開始しました。
同様にノードリミット100万で対戦するように設定しました。
まだ10局程度ですがKai4との対戦では見られなかった
逆転勝ちが早くも生じています。
60勝40敗ペースを達成しそうですね。
https://i.imgur.com/cRkZ0s0.png NPSかわるしノード固定よりも秒数固定のほうがいい
ヒトが検討するのにも研究するのにも長時間かけるし、コンピューター将棋の大会にしても一手に4000万ノード程度はかけてる
100万ノードの結果貼ってると開発者が失笑する Core i9-9900Kが10月1日って噂
メインストリームも16スレッドになるな。NNUEだとRYZEN2よりNPS出そう。 対局数が最優先
ノード数を増やして結果が変わるかどうかは調べたい奴が調べればいい
もちろん最低300局な フラゲ見てる限り2は長時間は1.1より微妙そうに見える ThreadRipper32コア64スレッド本日発売
25万くらい 相雁木が千日手という結論は個人的には違うのではないかと考えています(キリッ
じゃあお前先手から上手く打開してみろと。 uuunuuunさんは最近自分では計測しない
Rotaさん頼みだけど、対illqha1.1しか計測してない(+有意差出てない)から
さらなるRotaさんの計測結果待ちでしょう 別アカウントで千田さんに絡むことしかしてないあの人も廃スペPC回して計測したら色んな人から尊敬されるのにね なんか他との対局はせずに大体こんな感じですってくらいで終わる空気なのかと思ってしまったわ
ハイスペPC持ってれば計測手伝うんだけどなあ 低スペックPCで計測しているけど、
最低ノード数がどうのこうのいう輩がいるので
恥ずかしくて結果を晒す気がしない 低スペでも時間かけて計測すれば問題なし
10人集まればハイスペにもまさるぞ ノード数は多いほうが価値があるとは思うけど、対局数さえある程度多ければ充分に立派なデータだと思う >>145 >>146
ありがとう。
これまでの計測結果はもう捨ててしまったので、今後がんばる エンジンをdolphin2に固定して対局させてみました
定跡はオフです
illqha2+dolphin2とillqha1.1+dolphin2
203-66-231(ノード5〜600万)
illqha2+dolphin2とkai4+dolphin2
220-49-231(ノード4〜500万)
illqha1.1+dolphin2の組み合わせが意外と良い結果でした
次はillqha1.1+dolphin2をkai4+dolphin2及びGW+QQRと対局させてみます >>142
千田ショーがキレてるのはsuimon=suiseihuman
PVパクってるだけだから出力しないようにすればいいよ
Incineratorのひともキレてたし追放でいいでしょ 千田に絡んでたのはantisuimonだろう。つまり同一人物
複垢での粘着攻撃だし将棋ソフト開発者界隈もなんか対策できないかな? 低スペPCだけど、計測について教えてください。
指し手2秒で1000局(ピーク時ノード数で160万くらい)と、
指し手5秒で400局(ピーク時ノード数750万くらい)では、
どちらに意味があると思いますか?
指し手10秒だと200局(ピーク時ノード数は軽く1000万を超えると思うけど)はやる気は全く起こらない。 自分も400できるなら5秒で
100と40なら前者 >>152 >>553
ありがとう。
最低でも100は対局させるけど、
大まかな目安で以下の条件を満たしたら、
時間の無駄だと思うから対局を打ち切ることにしている
対局数 勝数
100 66以上
200 123以上
300 178以上
400 232以上
500 266以上
:
今は指し手2秒と5秒の結果の違いを調べるために対局させているけど、
結果が大して変わらないのなら、「あくまでも自分の環境」では、
指し手2秒で十分という判断を下すかも。 >>154
すまん。553ではなく、>>153だった。m(_ _;)m >>154
さらに訂正
誤:500 266以上
正:500 286以上
重ね重ねスマン。m(_ _;)m 100局以上で明らかな有意差があるなら打ち切ってもいいよね
他との対局数を揃えたいとかじゃなければ >>157
信頼区間95%で最低勝率が0.5以上が一般的らしいけど(当方は統計学に無知w)
自分は信頼区間99.99%で最低勝率が0.5以上の勝数で判断してる。
ソフトの相性とか、ノード数とかも関係するかもしれんけど、
当方は自分のPC環境で最も強いソフトを探すのが目的で、
計測すること自体が目的ではないので、これでいいのだw >>130
> 今度はGW5.0.5 QQRとの対戦を開始しました。
> 同様にノードリミット100万で対戦するように設定しました。
>
> まだ10局程度ですがKai4との対戦では見られなかった
> 逆転勝ちが早くも生じています。
> 60勝40敗ペースを達成しそうですね。
>
> https://i.imgur.com/cRkZ0s0.png
もうやめようかなと思うけど再び
マイナス評価からの逆転パターンが生じてました。
https://i.imgur.com/ur7qSFm.png
247局 142勝 105敗
勝率: 0.5748987854251012
標準誤差: 0.03155121733698077
95% 信頼区間 [0.5141700404858299, 0.6356275303643725]
相対イロレーティング: 52.439618125247335
標準誤差: 22.427284170889855
95% 信頼区間 [9.848989963332782, 96.66285718796355] >>158
早期打ち切りの判断は厳しめでいいと思う >>158
すまん。また訂正
誤:99.99%
正:99.9%
m(_ _;)m。 切り捨て目的ならともかく
欲しい結論に対してのデータなら、途中打切りはありえない >>162
切り捨て目的ってなんですか?おっしゃる意味がわからない。
自分の欲しい結論とは、自分のPC環境で最強のソフトが知りたい。
だから最大で1000局を目標としていても、途中で統計的に有意な差が出たら、
その時点で対局を打ち切る。
何が問題ですか? >>163
途中で打ち切るってことは多重検定してるのに近いから >>164
ごめん。多重検定とか意味わからないので、もうちょっと詳しく説明してくれるとありがたいです。
では、最初から対局数を例えば100とか、500とか決めてその対局数を完遂した結果で判断すれば
問題ないことですか?
対局数を1000と決めて、途中の100とか500で有意差が出たら、そこで打ち切るのとどう違うのかよくわかりません。
例えば、途中で100とか500で打ち切ったとしても、それが最初から100とか500とか決めていたのと、どう違うのですか?
無知で申し訳ないけど。 >>165 ごめん。書き間違い。
誤:例えば、途中で100とか500で打ち切ったとしても、
正:例えば、対局数を1000と決めていたとして、途中で100とか500で打ち切ったとしても、
m(_ _;)m >>164
では、もうひとつお尋ねします。
>自分の欲しい結論とは、自分のPC環境で最強のソフトが知りたい。
どういう対局をすれば、「統計的に」私の求める結果が得られますか?
指し手2秒、対局数1000でも自分の環境では重すぎる検証です。 はぁ、ShogiGUIに保存してた棋譜バグってて使い物にならなくなっててワロタ... 横レスだけど、こういう事じゃない?
http://www.igaku-shoin.co.jp/paperDetail.do?id=PA02941_06
途中で気に入った結果が出たところで打ち切ったデータ群を、いくつも収集する
って事になるなら、5%の間違いがあるデータを効率的に集めてしまう事になる
ので注意が必要。 >>171
ありがとうございます。
リンクを熟読しましたが、統計学に無知な私にはほとんど理解できませんでした。
自分の検証で言えることは、対局するどちらのソフトにも肩入れしないこと、
信頼区間99.9%の有意差で打ち切りを判断していることです。
1000局対戦しても統計的な有意差が出ない場合は、
単純に勝数の多さ(プラマイ13〜14%ぐらい?)という主観的な判断になります。 学習棋譜の質に直結するから
低ノードでの正確な棋力は今では超重要情報だぞ
短時間で強いソフトを喉から手が出るほど欲しい層が存在する >>172
あ、
>プラマイ13〜14%ぐらい?
というのは変ですね。m(_ _;)m 藤井七段の振り駒の後手番の多さは統計学的には有意に多そうだからな
先後が決まっている順位戦入れてもかなり後手が多いくらいだから >>159
とりあえずQQRとの相対レーティング差が判明しそうな雰囲気になってきたので
今晩まで続けることにしました。
https://i.imgur.com/q5e2fO2.png
339局 202勝 137敗 引き分け6 (対局数から取り除く)
勝率: 0.5958702064896755
標準誤差: 0.026711567948078614
99.9% 信頼区間 [0.5073746312684366, 0.6814159292035398]
相対イロレーティング: 67.45232091608678
標準誤差: 19.269530974741368
99.9% 信頼区間 [5.124790303986275, 132.0752897620778] ふと思ったが、
バイナリを配布するなら、NetworkDelayの初期値は0にした方がいいと思う >>165
有意差ってのは確率的にしか判定できない
5%とか1%とかは、差がなくても差があると判定されてしまう
仮に有意水準95%で10回同じ検定を繰り返せば、40%は差があると判定されてしまう
打切りって手法の場合は、前の結果を引き継いでいくからそこまでの影響はないだろうけど(99.9%ならなおさら)、
「統計的には有意水準◯◯%です」ってのは間違ってるので、得られた結論は統計的な後ろ盾が得られない
統計に基づいた有意差あるデータが欲しいなら、それこそ有意水準甘くして、試行回数も数百回くらいに落とせばいいんでは? 論文に使うデータでもあるまいし、200局以上で有意水準99.9%を軽く超えてるようなものは打ち切っても構わないと思うが ちゃんとしたレート差を知りたいのか、それともレーティングが少しでも上かどうかを知りたいだけなのかで
必要な対戦数は全然違う >>170
他の棋譜ソフトは?
テキストで見るとどうなってる? 両方dolphin,illqha1.1-kai4だと互角で両方dolphin2,illqha2-kai4だとkai4のほうが強いらしい
1500万と3000万で200局の合計400局 kai4側が55% ロタさんはGW+QQRとdolphin2+illqha2の計測はやらないのかな
結構ロタさんの計測いつも楽しみにしてるんだけど スレの流れ変えるけど
https://i.imgur.com/tAJ3XuM.jpg
MyShogiにこれに近い機能搭載できないかな?
例えば棋譜のフォルダを指定すると解析してこのような感じに表示する(指された手の割合などもあると尚いい)
使い道として、
・24などで自分の棋力に近い人の棋譜を集めて定跡の末端局面でどのように指すかを調べ研究に活かす
・大会で当たる対戦相手の棋譜をぶちこんで人対策
製品版限定でもいいから搭載してくれたら将棋神やねうら王買います ■ このスレッドは過去ログ倉庫に格納されています