▲コンピュータ将棋スレッド141
■ このスレッドは過去ログ倉庫に格納されています
測定の精度は対局数で決まるのということを理解してない奴が多すぎる
ノード数があろうとなかろうと対局数を重ねることが最優先
一番無駄なのは最近多い100局未満の結果
あれマジでなんの参考にもならない >>323のファイルは書式を間違えていたので再アップ
設定値そのものは適用されるものの
オプションファイルを置いている状態ではGUI上での設定変更が効かなくなってた
あくまで設定ファイルのミスなのでエンジンはそのままで無問題
https://1.bitsend.jp/download/0a089154a1820aea85a4b2fb22772d05.html
kai5でDolphin2/illqha2に対して
1700局で勝率52%の設定ファイルも同梱(ほぼDolphin2)
https://i.imgur.com/FfA7xTV.jpg
計測データも少し入っているので興味のある人はどうぞ
エンジンと設定ファイルをワンセットにしたダウンロードURL
https://www.axfc.net/u/3930268 どんなにインパクトのある結果であっても、検証手法が間違っていれば全くの無意味
科学的な検証を行う際の基本中の基本だ >>405
何を偉そうに言ってるの?
インパクトのある結果が間違っているのなら、それを指摘して正しい検証方法でやり直せば本当に間違った結果か
どうかわかるんだから何も問題ないよ。何を指してインパクトのある結果といってるのか
今一つ伝わらないけど・・・ >>403
なるほどmax値とmin値が設定されていなかったのね
検証によるとR+15くらいか >>403
アンドロイド版も作ってもらえると、うれしいです。 ついにuuunさんのレーティングサイトが休止してしまった >>323
msys2ですか、あとで試してみます。 uuunuuunさんのサイトが無くなるのはかなり困るな 実際のところ、電気の無駄と気がついたんだろ
コンピュータ将棋界隈は目新しさもないし
辞めることができて彼にとっては良いことなんじゃないか 計測作業自体が大変と言うよりは新たな管理者(できれば複数人)に名乗り出てほしいといったところか 何人かの有志が居れば、確かにチェスのCCRLのようなもんは簡単に立ち上げれそうな気はする より高いレーティングのソフトの登場のためにはレーティングサイトは重要
開発者のモチベーションになる SCSRL(suimon compute shogi rating list)とか立ち上げようぜ Leelaのチェスと囲碁がやってるような、
棋譜生成、機械学習、比較検証まですべてやれるプロジェクトが将棋にも欲しい
協力者は難しい設定をする必要なくPCつけっぱにするだけ uuunuuunさん、サイトごと消しちゃったのね
http://www.uuunuuun.com
散々お世話になったので残念といえば残念だけど、なくてももう別に困らん なんで消したのだろう?
更新しなくても残しておくことに価値があるのに…
誰が嫌なことでも言ったのかな まあ維持するのもただじゃないししゃあないな
でもできることならレーティングサイトには復活してほしいね、きちんと組織的な新運営で uuunuuunさんがレーティング管理を引退したのは残念だが、今後は新しいソフトが出たら今までどおりロタ氏の計測に期待したい いつものテスト対局です
dolphin2+kai5とGW+QQRです
295-31-174(ノード5〜600万)
55-5-40(ノード2000〜2500万)
dolphin2+illqha2との対局で結構負け越したのですが、こちらは順当に勝ち越してます 自分のところの環境でも
NNUEkai5/dolphin2よりillqha2/dolphin2の方が有意に強いっぽい >>425
ドメイン料やサーバ代の支払い忘れとか? uuunuuunさんのサイト、今見たら復活してたw http://archive.fo/x60ex
ウェブ魚拓とったけどぐちゃぐちゃになった エンジンに同梱したオプションファイルを
評価関数をillqha2に固定してDolphin2を相手に計測
(初めからengine_optionsという名前になっている設定ファイル)
https://imgur.com/a/RW5NOk0
8000局で3964勝-252分-3784敗(勝率51.1%)
>>403と合わせて
Dolphin2ベースの2個の設定ファイルの計測はこれで終わり
500局で53%>>258だったから1700局で足りるかと思ったら
実際のレート差は実は小さかったようで
想定していたよりも対局数が必要になってしまった
>>409
android版は自分も作れるなら作りたいんですけど
コンパイルする方法がよく分からないので現状未定です 詰将棋エンジンのアンドロイド版が欲しい
なのはさんか脊尾さんお願いします
あ、やねうらさんが市販ソフトに詰めルーティンを入れるらしいからGPLだろううしそれをアンドロイド対応でもよかです NNUEの登場で普通に現れる詰みはわりとすぐ見つかるようになったし、詰将棋エンジンの必要性が薄れたわ nnueもそろそろ頭打ちかな
つらい停滞期がまた始まるね これの本体誰だよ?
コンピュータ将棋ファン@t3Jki1WDMTcZaRn
コンピュータ将棋の情報収集垢です。
https://twitter.com/t3Jki1WDMTcZaRn
https://twitter.com/5chan_nel (5ch newer account) kai5も実際にはillqha2から見てR+15くらいなんだろうけど
2週間という期間を考えると結構な進歩だと思う そろそろ厳しそうだけど今後R5000とか行くのかね 誰かが今年中にNNUEは今よりR200は上がるって言ってたが >>441
uuunuuunさんのレート表復活してるよ 既に初期からR200近く上げてるから伸びしろ小さいやん NNUEはAWSとかに100万課金する気があればR4700くらいはすぐ行くと思う >>444
スレのデータは探索部込みだったか、失礼
illqhaも1.1の方が強い説が出ているし
どうやら本格的に天井が近付いていそう >>447
探索部もあるけど超短時間だから結構結果が変わってきてるんじゃないかな Yssの山下さんがR4600くらいが限度みたいなこと言ってなかったか NNUEの容量大きくして限界まで学習するの繰り返すとどこで速度低下の影響のほうが上回るの? >>450
T.N.K.チームがあまり大きなNNを採用していないということはあまり大きくしても弱くなるってことなんじゃないかな?
せいぜい隠れ層のニューロンを増やすかもう一層増やすくらいじゃない?
それも速度低下以前に大きくなったNNをうまく学習出来ればの話になりそうだし 野良が各々学習や検証の為に消費してるリソースを一カ所に集めたら、
もっと強い評価関数ができるのにって常々思うんだよなぁ >>449
30年くらい前は、数学者でも「プロ棋士の4段クラスのソフトはこの世の終わりまで登場しないかもしれない」と書いていた
20年前でも四枚落ちでプロ棋士に負けていた
それが次々と壁を打ち破る手法が登場して、10年くらい前にプロ棋士の4段クラスのソフトが登場した
4600の壁はあっさり敗れると思う elmo絞り→一回でR200上がるすげえ!→何回回しても全然強くなんねぇ
NNUEもいっしょや!
ところでNNUEで作った教師局面でKPPTを絞ったら強くなる? 透。さん、illqhaの人やkaiの人の計測結果からある結論に至った
鵺は作成者を親だと思い、親の環境だと力を発揮する
オカルトです 久しぶりにこのスレ見に来たんだけど、
もしかして技巧もAperyもすでに息すらしてないの? 技巧は開発者が多忙により休止
Aperyは開発者が株式上場でがっぽりだからダントツ一位になれる可能性があるぞ >>403
Kai5のGW7版でillqha2のGW7版で試したらKai5に軍配が上がった。
ところがillqha1.1/dolphin2が強いというレスがあったので今試した。
まだ始まったばかりだがillqha1.1/dolphin2は期待できるかもしれない。
なお全てノードリミット100万で対戦して調査してます。
https://i.imgur.com/RkC6cPt.png
Kai5/GW7 vs illqha2/GW7
https://i.imgur.com/1ZYOqSm.png やねうら王とGodwhaleではNPSが微妙に違うから
ノードリミットではなく持ち時間制限にしないと駄目じゃないか?
そのNPSならNetworkDelay2を500にして秒読み2秒にしたらだいたい100万ノードになるはず >>453
そんな希望的観測じゃなくもうちょっと合理的な理論を持ってきてくれ 対局数至上主義の人はどのノード数以上までなら有意なの?
1万?50万?100万?500万?1000万?1500万?
何か曖昧なので 有意かどうかは対局数でしか決まらないから
例えばR差20を計測したいなら
ノードが1500万だろうが10億だろうが800局程度までは打ち切ってはダメだし
それが無理ならノード数を減らすべきという単純な話
ノード数を維持する為に対局数を減らすのは優先順位が逆 ノード数多いと計測は大変だけど、少なくとも500万くらいはほしい気がするかな
100万くらいだと勝率がuuunさん基準の測定と離れすぎる気がするし、そもそも超短時間で検討とかしないからそんな時間での強さ測ってもなあ どっちが強いか単純に測りたいならノード数なんてどうでもいいでしょ
対局数が多ければ多いほど信頼性のあるデータになる 短時間長時間なんて定量的なもんでもないし、どのノード帯で検討するかなんて人それぞれでしょ
一つの局面延々読ませる人もいれば、多くの棋譜の解析を一手数秒で流す人もいる
統計的な評価とノード数問題は別物で、まずは少なくとも統計的に価値のあるデータ数を確保しなさいよというだけの話
で、ノード数については現状一般化された理論がないので、◯◯ノードで測定しなければいけないなんてことは言えない 超短時間すぎると統計以前にそもそも対局データとしての価値は下がる
数十万ノードと数千万ノードで勝ち越すほうが逆になるなんてことはよくある
数十万ノードで使うことなどないので数十万ノードで強くてもあまり価値がない >>471
>数十万ノードと数千万ノードで勝ち越すほうが逆になる
そんなのあったっけ?
数十万ノードなら手元ですぐに再現実験が可能だから
具体的にどの組み合わせを数十万ノードで対局させると
レーティング表とは逆の結果になるのか知りたいんだけど 逆にそちら側が任意のノードで勝率が変わらないことを証明しないといけないと思うけど >>471
対局データとしての価値とは?
単にハイレベルな棋譜が欲しいなら、
時間を際限なく伸ばして一局やればいいだけ
>>473
任意のノード数で勝率が変わらないんじゃなくて、
◯◯ノードで測定したから大丈夫(何が?)保証はどのノード帯にもない >>472
例えばkai5とillqha1.1
4スレ0.1秒300局だとkai5が53%だったがロタさんの計測ではillqha1.1が勝ち越し
対局数少ないから誤差の範囲内といえばそうだがノード数によって強さが変わるのは間違いないと思うよ
ロタさんのillqha1.1とQQRの検証を見るべし ノード数で結果が逆転する実例を見つけているなら凄いけど
長時間厨は統計が分かってないから
彼らの書き込む「よくある」は全くあてにならないのが問題だな
0回でもよくあると思ってしまうフシがある >>474
検討で使うとき0.1秒しか読ませないなんてことはないから超短時間で強いよりはそこそこのノード数で強いほうが有用じゃない?
つまり両方十分な対局数をこなしていた場合ノード数が多い計測データのほうが価値があると思うんだけど >>475
それ全部誤差じゃん
言っておくけど300局で53%も誤差だぞ
1500万ノード側が有意差が出るレベルで計測されていないと話にならない >>478
誤差の範囲内と書いてあるんだが・・・
とりあえずロタさんの検証見てきなよ elmoが1手5秒以上だと勝ち越す相手に2秒以下だと
負け越すと昨年よく聞いた >>480
elmo絞りすると超短時間だとそれほど強くなくて、そこから計測が大変になったんだよな たしか初代elmoって1スレ0.1秒とかだと技巧2に負け越すんじゃなかったか? >>472
NNUEkai5は以下自分の計測では一手0.1秒のような超短時間ではillqha2にもillqha1.1にも勝率53%程度で強いけど、
uuunuuun氏の対局ログ(1500万ー2000万ノード)ではNNUEkai5がillqha1.1に勝率46%で逆の結果になっている
だから極端な低ノードでは、いくら対局数をこなそうが数千万ノードとは逆の結果になることが多いのでやっても参考にならないと思う
NNUEkai5-dolphin1 256-15-229 illqha2-dolphin1 対局数500 勝率52.7%
4スレ 一手0.1秒 定跡なし Hash1024 投了値2000
NNUEkai5-dolphin1 262-9-229 illqha1.1-dolphin1 対局数500 勝率53.3%
4スレ 一手0.1秒 定跡なし Hash1024 投了値2000
uuunuuun氏の対局ログ(1500万ー2000万ノード) 引き分け0.5勝換算
dolphin1/NNUEkai5 284-323 dolphin1/illqha1.1 勝率46% 散発的に持ち時間長くすると逆転したと言ってるだけで
ノード変化によるレート変化の網羅的なデータは無いしなあ しょぼいコンピュータで時間もかけないならば
持ち時間を少なくすれば統計的に正確でも実用上意味のないデータができて
持ち時間を多くすれば実用上意味があっても統計的に不正確なデータができて
どちらにしろ役に立たない
という当たり前の話じゃないの
なんの苦労もなく承認欲求を満たせるようなうまいはなしがあるわけない ハイスペック長時間の統計がどれだけ一般ユーザにとって有用なのか謎だけどね
そもそもマニアしか興味のないジャンルかもしれないけど ノード問題の戦犯?はelmoだわな
そういう結論になるわけではないのに、長時間計測が正義みたいな風潮を一部に作ってしまった >>485
まあそういうことだよね結局
自分含め一般ユーザーも検討のときはそれなりのノード数ないし深さを読ませるものじゃない?
uuunuuunさん基準の1500万ノードがハイスペック過ぎる条件だとは全く思わないかな
1手100万ノードでソフトの思考を終了させることなんてあまりないと思う、100万NPSの低スペックPCですら1秒なわけだし 1手0.1秒で対局させている人がいまだにいるみたいだが、棋譜のログ見れば分かるが探索深さバラバラだよ。
1スレッドで試してみたが深さ9〜14位で物凄く不安定だ。こんなんで正確な強さが測れるわけない。
思考時間が増えるほどどちらも同じような深さで安定しているから結果の信頼性高くなる 中盤や終盤で複雑な局面を検討させると最善手が変わるよね
100万ノードや数千万ノードでの最善手ももっと読ませると悪手だということが分かったりすることが多い印象がある
で、実戦で勝敗が決まるのもそうした局面で最善手を指せるかによるんだよ
だから、100万ノードでの結果が逆転しないとしても、検討に使うソフトは難解な局面で最善手を見つけることができるかなんだよな 結局何ノードなら有意?
1ノードもあり?
できれば根拠も添えてもらえればみんな納得しやすいかなと
ちなみに自分でもelmo以降のKPPTは何千回と計測してきたが、個人的には1500万は最低ラインかなと
むしろ足りない気もする
nnueはまた違って当たり前なので、有意な最低ノードが知りたかった
統計的に有意な最低ノードがあったほうが不必要な計測をやらなくて済むし、考慮しなくて済む
100万より少ないかもしれないし、多いかもしれない
100万というのは人間が思う切りの良い数字なだけかもしれない
ただ、KPPTとnnueの対戦なら秒数計測で1500万ノード分以上は必要だと思う >>492
それを知るには例えば1局10秒、100秒、1000秒、とたとえばFGの持ち時間の対局で
勝率の相関がどれくらいあるかを数組か数十組か数百組かどれくらいかしらないけど
統計的に十分な量の対戦カードの組み合わせについて調べないといけないんじゃない?
統計わかんないけど 統計はコスパも大切
コストかけても正確さが微増なら意味がない 「100万ノードだとA>Bだけど1000万ノードならA<Bである。
よって長時間ならBが強い」なんて結論出すのは相当頭悪い話だけどな。 >>494
ということで一手1500万ノードに決めたのがuuunuuunさんのレーティングサイトってことかな >>492
そもそもレーティング測るなら
測定環境、条件は揃えるべき >>323
258 配布のソースですが、MSYS2のビルドもエラーで上手くいきませんでした。
search.cppの3313行で、YaneuraOu2017GOKUが呼ばれてるのが原因っぽいです。 >>493
そう
なので今までは1500万ということになっているけど、それ以下に減らすと統計的にどうなのかな、という
>>495
どのソフトでも、ノード数が増えればその分勝率が高くなるが、勝率の伸び方が違うかもしれない
1000万や1500万が長時間と言えないかもしれないが、それ以下では長時間で強いとは更に言えない
実利用は検討用途が多い事も考えないといけない
>>497
そう
完全に同じ条件というのは難しいので、できるだけ揃えたほうが良くね?と思って 結局1500万ノードでは肝心の対局数が全然足りないから測定誤差での議論になる
対局数が足りないことが理解できない人ほど1500万ノード信者になるから議論の質も低い ■ このスレッドは過去ログ倉庫に格納されています