▲コンピュータ将棋スレッド140
■ このスレッドは過去ログ倉庫に格納されています
探索部は結局1手にそこそこ時間をかけて読んだとき何が強いかよくわからないんだよね。
whale3よりgodwhaleのNNUE版のほうが強いって意見もあったし 文句ばっか言ってるのに、俺の測定何千万ノードで、何対何とか棋譜もないのによう信用できるな。
気になった事があったから推理したが
まふ、嘘ついてる確信み〜つけた。
あいつ引き分け全く無い=自分のほうだけ定跡使用で、計測時間短縮して勝率を稼いでる。
だから、新手だらけと言い棋譜が出ないでFA
他にも嘘ついてるだろうけどな。 初心者みたいな質問で申し訳ないんですが、スマホでillqha評価関数を使う場合、探索部はスマホ版やねうら王4.82で良いんでしょうか?
whale6やdolphinのスマホ版は無いんですかね? >>648
将棋所のページのUSIエンジンのリンクから
elmoをクリック>>elmo導入方法をクリック>>
4.elmoをダウンロードしますをクリック PC放置して100戦するまで待てばいいのになんで10や20で慌てるかね 計測することが目的なんじゃなくて自分に注目集めたいだけなんじゃない
「見て見てこんなことやったよ」みたいな感じ
まふとかもそういうタイプだよね >>647
俺がやったら5勝5敗だった。
これから寝るのでさらに20対戦の連続実行をセットして寝る。
2秒対戦結果
https://i.imgur.com/chvgceZ.png 大分前に初代NNUEkaiの公開直後にwhale3で計測してた
NNUEkaiの勝率61%でやや強いと思っていたので0611から変えてNNUEkaiを今まで使ってた
NNUEkai-whale3 11-2 -7 nn20180611-whale3
持ち時間5分 一手ごとの加算20秒 定跡なし スレッド2 Hash1024 投了値1000 同じく初代NNUEkaiの公開直後に計測していたやつ
NNUEkaiも0611(両方whale3使用)もelmoには10戦全勝出来なかった、出来たのはillqha1.1-dolphinだけだった
NNUEkai-whale3 11-2-7 nn20180608-whale3 勝率61%
持ち時間5分 一手ごとの加算20秒 定跡なし スレッド2 Hash1024 投了値1000
NNUEkai-whale3 12-2-5 QQR-GW5.0.5 勝率70%
持ち時間5分 一手ごとの加算10秒 定跡なし スレッド4 Hash256 投了値1000
NNUEkai-whale3 8-2 elmo_wcsc27_Y4.74_AVX2 勝率80%
持ち時間5分 一手ごとの加算10秒 定跡なし スレッド4 Hash512 投了値1000
nn20180611-whale3 15-4-12 nn20180608-whale3 勝率55%
持ち時間5分 一手ごとの加算20秒 定跡なし スレッド2 Hash1024 投了値1000
nn20180611-whale3 18-2 elmo_wcsc27_Y4.74_AVX2 勝率90%
持ち時間5分 一手ごとの加算10秒 定跡なし スレッド4 Hash1024 投了値1000 >>657
そんな少ない対戦数どうでもいいわ
200局以上やってから書き込めや >>658
そんな15時間以上かかることをあなたはできるのですか?
200局とは1局5分設定だと1000分・・・17時間ですよ。
そして経験すればわかるけど10局でだいたい傾向は掴めるのです。
因みに0611はillqha1.1とは20局やっても互角にちかかったです。
細かいところで条件がいろいろ違った場合に大きく差が出るケースも
あるかもしれません。いろんな方がいろんな設定で10局程度やることで
傾向がつかめるんだから私は否定すべきではないと思います。 で、でた〜www
勝率7割のソフトは10戦で7勝3敗と考え奴〜wwwww それよりも2スレってのが気になる
化石PCでも使ってんのかね illpha1.1ですらelmoに3連敗することもある10局で傾向がつかめる訳がない 10局、勝率0.5のシミュレーションを経験すればわかるけど
10セットやれば8-2、2-8以上はよく出る
100セットやれば9-1、1-9以上はよく出る
それは感覚として覚えておくといいと思うぜ
100セットというのは10人が10個の評価関数を検証したとき
つまらない結果が出たときは黙殺して面白い結果が出たときに騒ぎ立てるとした時
誰かが騒ぐことは割とあるということだ >>662
あなたの物言いはおかしいですよ。
10局で傾向がつかめないという根拠として3連敗がありうるという
話になってますw
一体どんな頻度で3連敗が出てくるんでしょw
単純に2分の1の確率で3連敗は12.5%です。
勝率5割 0.125
勝率4割 0.64
勝率3割 0.027
勝率2割 0.008 なるほど
一人が100局やるよりも10人が10局やる方が効率的だし楽だな >>664
elmoに勝率9割程度のillqhaでも10局単位だと3連敗することがあったんですよ。
このときelmoに10局で勝率70%という結果が得られてどうやってillqhaは他のソフトより強いという傾向がつかめるんですか?
例えばAperySDT5とelmoを10局対局されて同じくelmoに勝率70%だったらどう判断するんですか? >>659
・真に強弱のあるソフトでの10戦で得た傾向は、未知のソフトの10戦について何も説明できません
・傾向なんて言葉は使わず、統計で定量的に説明しましょう
・p0.05とか0.01という有意水準に拘る必要はないですが、万人に納得してもらうにはフォーマットに従いましょう
・セットを繰り返し行う(もしくは結果を見て繰り返すか決める)のは、むしろ検定の信頼性を損なう行為です
・そもそも不特定多数が実施でき、組み合わせも多種多様な時点で、潜在的な検定の多重性を考慮しなければいけない案件です
・結果報告は任意なので、本当の実験であっても良い結果のみを恣意的に公表できる(=信頼されにくい)環境ということを認識しましょう >>663
EXCELでシミュレーションしたところ勝率0.5だと
おっしゃる通りだけど、勝率0.7でやると下記の
確率分布に従うよw
10局 7勝 3敗
勝率: 0.7
標準誤差: 0.15718104959867515
95% 信頼区間 [0.4, 0.9]
10回戦単位で、勝ち数が4以下の出現数を調べました。
その作業を10回繰り返して負け越しの頻度は6回でした。
つまり勝率7割の棋士が10回戦毎に区切って負け越す
頻度は100回やって6回しかないということです!
勝ち 1 2 3 4 5 6 7 8 9 10
0 0 2 0 0 2 0 0 2 1 Excelなんか使わなくても二項分布知ってれば一発なんだがこんな事も知らんのかな 663の方がいいサジェスチョンをくれたのでエクセルでシミュレーションした
ら勝率7割と勝率8割では段違いに結果が違ってくるのが分かった。
藤井聡太君がこのまま勝率8割を維持できたらとんでもない結果が生じる
と思います。
勝率8割だと10連勝が良く出現しますw >>669
何が一発なんでしょうか?
負け越しの確率を一発で計算できるということですか? >>668
あんたは帰無仮説を理解ができていないんだなってのがよくわかった
実際には真の勝率は未知であり、試行を繰り返して得られるのはその推定値でしかない
その推定値の信頼性を定量化するのがt値等であって、
真の勝率が7割であると「わかっている」時、負け越す確率が何%かなんてのは意味がないんだよ 10局とかで書き込むなよ。17時間ならすぐだろ。
それがつらいなら持ち時間減らせばいいし、もっといいPC買ってスレッド数増やせ。
計算能力が2倍になれば同じ計算は半分の時間で済む。 >>672
その考え方にたどり着く一歩ではあるのでは。
10戦して7勝3敗だったとき、
真の勝率が1割、2割、……9割のソフトが
運良くまたは運悪くその結果になった
可能性があって、
7勝3敗はその重ね合わせを見ているとも言える。
ただ1割2割のソフトがめっちゃ運良くその結果を出すと言うことは滅多にないとは言えるだろうと。
しかし勝率4割のソフトが7勝3敗を気合いで出してくるのは少なからずあり得て、
7勝3敗はその結果をみている可能性が少なくなく、である以上はどっちが強いかわからんと。 勝率2割が7-3は稀によくある
計測は自由にしたらいいじゃない。それをどう判断するかは人それぞれ キメラが乱立した去年でも10戦で優劣つけようとした人なんて居なかったのに ってかさ、1000局やっても定跡オフでランダムでも無い場合結構同一局面多いのでは? 定跡オフでの検証は時代の流れに左右されない一つの答えだけどねぇ
ある時点のあるソフトで作成した定跡・互角局面集は本当に互角かという話になる 定跡なしだと戦型はかなり固定されるのは事実だけど
全く同じ勝ちパターンを繰り返すってのは少ない印象 むしろfloodgateの技巧2の定跡なんかの方が同一パターンの負けを繰り返しているのをよく見かけるから
あれなんとかしてほしい >>680
なんで検証の話してる時にfloodgateのgikou2_1cの話をしているの? 下手な定跡つかってそれにハマり形含まれてたら嫌ということでは ハマることもあるけど、
数を重ねれば基本的には定跡でトータルの勝率は上がってるイメージだけどね 100局セットして50戦目まで33勝14敗3分だったソフトが100戦後には49勝45敗6分だったことがある
そのソフトは後半に9連敗と5連敗を経験していた
前半50戦で見れば勝率70%だが後半50戦では勝率30%だ
10戦やって9-1だったソフトが100戦後には有意差なしなんてこともままある
あと17時間でできる連続対局はまだ可愛いほうだろ
寝る前にセットして仕事から戻ってきたときには終わってる >>684
ホントに100局対決したくなるようなソフトの力量さ
がない時点ではその場で判断できる局数で十分と考える方が普通だよ。
普通のノートパソコンで連続対局してるとその間他のこと出来なくなるから。
そしてこれまで10局ぐらいで新しく出てきたソフトの強弱はすべてあたってたからねw 他の事に使えないと困るのは、あなたの都合にすぎない。ただの言い訳。
その言い訳つけて、いい加減に計測した結果を得意げに語られても、
統計的には全く信用できないし、それに引っ張られて判断誤る事になる。
ただの自己満足で、他人に迷惑かけるなって事言われてるの、わかってる? 春も秋も一発勝負
そして強いソフトは一発勝負でもやはり結果を出していることが多い
細かいところはともかく10局でだいたいわかるというのはあながち的外れじゃないかもね
16年のポナ、17年elmo、18年pal,白ビールちょくちょく落としてはいたが全体的に強かった >>688
河童がレート高いのに順位振るわないことが多いぞ そんなに必死に否定しなくても
10局検証した人には「あっそ」
100局検証した人には「へー、そうなんだ」
500局検証した人には「マジかー、そうなると今度はアレvsアレもやってみるといいかも。俺はこっちを検証してみる」
みたいなレスをやってたら自然と淘汰されるだろう >>690の言う通りで10局でどうのって人に真面目に返さなくていいと思うけど
ふーん、じゃあそのまま100局くらいやってねってなふうに 10局の検証だってないよりはマシだしな
淘汰するより利用してやれ >>689
河童はuuun氏基準の1500万ノードでは強いが、競技会では一手数億ノードも上がったりするので、
河童絞りが他の参加ソフトより高ノード(長時間)でやや弱いから順位が振るわないってことはないのかな
同じelmo絞りでも1500万ノード基準で検証している人と(河童さんがいくらのノード数で検証しているかは知らないが)、
elmoの瀧澤さんのように一手20秒(去年のTwitterで見た)で検証している人の差が出ているのかも 条件がそろっていない10局を幾ら集めても意味なし。 >>693
そういうことなんじゃないかな
あとは後手番引きすぎなのがね・・・ >>693
WCSC後にQhapaqの人も「河童絞りは長時間だと強くないのでは」と疑問抱いたけど
「長時間計測だと対河童系が一番結果悪かった」って白ビールの人がいってたから長時間弱い説は否定された >>696
評価関数は相性問題があるので白ビールだけだと単に河童との相性が悪かっただけの可能性は否定できないんじゃないのかな
3つ4つの他のソフトとの検証がないと河童が本当に長時間も強いとは言えないんじゃないだろうか >>697
白ビールのチームは評価関数いくつも用意してたみたいだし、相性問題についても問題なさそうでは 感覚的には「一発勝負の大会で成績振るわないから」を根拠に推論する方が筋悪く思う >>693
それは有り得るね
昔、技巧2とか魔女の時代の頃、1手5秒10秒の対局アホみたいにやってたことあるけど、
uuunさんのところどころか、自分でやってた1手1秒の結果とはかなり違くて、
(R差が違うくらいじゃなくて、100差くらいだと逆転してたりもする)
結局、自分で計測すること自体やめたw
あと河童さんは大会だと定跡段階でやられたりしてた気がする なんでそんなに偉そうなこと言うのか理解できない。
コンピュータソフトのどれが一番強いのかを議論しているわけだから
10戦ぐらいで結論づけてまちがっているのなら他の人が逆の結果を
出せばいいことだけじゃないか。結局今回のillqha1.1は、ここで公開して
すぐに検証した結果強そうな結果が出たから最終的には
「uuunuuun」氏は採用せざるを得なくなったわけです。当初は素性の知れぬ
物は無視していましたがこのスレで次々と対戦実績が出てきたので無視
できなくなったんじゃないかな?
===
686 名前:名無し名人 (ワッチョイ 4b8a-kTp/)[sage] 投稿日:2018/07/28(土) 15:55:05.73 ID:JzHAJahw0 [1/2]
他の事に使えないと困るのは、あなたの都合にすぎない。ただの言い訳。
その言い訳つけて、いい加減に計測した結果を得意げに語られても、
統計的には全く信用できないし、それに引っ張られて判断誤る事になる。
ただの自己満足で、他人に迷惑かけるなって事言われてるの、わかってる?
⇒何が迷惑なのかさっぱりわからんw
687 名前:名無し名人 (ワッチョイ 3761-kCGC)[sage] 投稿日:2018/07/28(土) 15:57:25.10 ID:xpwC+5oz0
統計を根本からわかってない人はいるんだよなあ
⇒統計を根本から分かってたらどういう判断になるんですか?
すべて統計的にはデータ量が不足しているので判断はできませんですってか?
つまんないやつだな! キメラ乱立した時に対して強くないソフトが強いとされた時期があった
10局で判断できるというあなたの経験則よりもコンピュータ将棋の歴史と数学を大事にしたい もしもX手までまったく同じ棋譜があったらその棋譜はまとめて一つ扱いにするってのはあってもいいかな
Xをいくつにするかはどれくらい同一棋譜があるのか調査して決めて グダグダ長文考えてる間に一手一秒でも100局回したほうが
話を聞いてもらえるだろうなあ 10局で大丈夫みたいな学術的な理解とかけ離れた事言ってるもんだから
みんな自然と口調が偉そうになってしまうのよ 単純に公開した作者の立場に立てば良いのでは
10局では有難うございますレベルかな
数百局以上なら作者もそれなりに参考出来ると思う 恣意的に抽出した10局出されたりしたら無意味だしな
10局評価とかスルー安定 >>706
ホントにこんなものいいしか言えないやつが多すぎていやになる。
少しはリアルな世界と同じような会話をできないのかね?
偉そうな話しぶりにはうんざりする。
なんだかハンドル握ると人格変わるようでがっかりです。
将棋のスレッドぐらいは普通のレスをしてほしいもんだ。
========
706 名前:名無し名人 (ワッチョイ 3761-kCGC)[sage] 投稿日:2018/07/28(土) 19:56:53.81 ID:xpwC+5oz0 [2/2]
グダグダ長文考えてる間に一手一秒でも100局回したほうが
話を聞いてもらえるだろうなあ
⇒ 対戦数を1000回して結果に有意があるとか言いたい人だけが頑張って
回したらどうですか? 普通の人はそこまで一生懸命にはならないですよ。 >>688
大会では解説聞きながら1手1手見るやん。
するとレーティングで200くらい差がある対局だと、
なんか手応えや力の差が見えてくることがあるやん。
そういう場合は、極端な話、1局でも見えるものがあると思うよ。 >>709
と言うかそれ目的でやってるんだと思ったわ
持ち上げたいソフトのいいとこ切り取ってやってるもんだと
そしたらまさか本気で10局で足りると主張してくるとは >>710
ここには異常な人しかいないんですよ(将棋ソフトにおいて)
マナーとは共通意識のもとで成り立ちます
10局では少ないという意見が多いなら、それがこのスレ上のマナーです
10局で十分というのはあなたの主観でしかなく、集団上その意見に価値はありません
10局で十分だと言うのはあなたの勝手ですが、それに対する批判は受け止めるべきです 俺の家族がみんなでこの番組見たから視聴率100%(キリッ
って感じなのわかってるのかね。 長時間の10局なら意味あると思うよ
棋譜の価値としての 結局大会は人がやる対局を模したものだからPCソフト大会としては不完全なんだろう
そう言う意味では公開されたソフトのレート順位の方が実力に近いのだろう SDT6は皆NNUE?
KPPTでQQRより強い評価関数出てこないかなー(チラッ) >>710
確率の(独立)事象ってのはランダムで、
ランダムってのは試行回数が少ないとしばしば偏る。
偏らずに均等に結果がでるようなのは
むしろランダムでなく作意がある。
6回に1回だけ6が必ずでるサイコロは、
バランス良いイカサマ賽。
宇宙の星はランダムに配置されている…天の川を除き…といっていいだろうが、
格子点のように均等配置はされていない。
偏って変に配置されるから、我々はそれを星座と認識できる。
かように、ランダムはしばしば偏るという確信があるから、
10回程度で偏った結果を見せられても、
意味のないランダムの偏りなのか、
真の勝率に差がある意味がある偏りなのか、さっぱり、まったく判断つかない。 ttp://lfics81.techblog.jp/confidence_interval_ja.html
少ない対局数のとき、どのくらい幅があるのか一目でわかるので使ってみるといいかと >>712
この数式みて理解できたの?
そこまで数学専攻したとも思えないね。
なんでそんなにえらそうなのかね???
俺にとっては下記のURLのほうが統計学の読みものとしては
よくわかって興味深いものがあるよ。
https://shogi100.com/2018/02/23/012/
「デビューから」という条件を緩和してみます。比較対象として、2018年2月21日現在、
羽生竜王の通算対局数は1962局、勝率71.17%です。この成績をもってしても、
「羽生竜王と同じ勝率の棋士が同じ対局数を戦い、どこかのタイミングで29連勝以上
する確率」は9.6%しかありません。羽生竜王の実際の連勝記録は22連勝です。
対象を全棋士に広げると、棋士数を312(新四段の古森四段の棋士番号)、
通算対局数を730局(全棋士平均)、期待勝率を平均50%及び標準偏差10%だと
仮定すると、「全棋士の中の誰かが、どこかのタイミングで29連勝以上する確率」は
約70%です。
さすがに「全棋士の誰か」が「いつか」29連勝を達成していた確率を考えると、統計学的には実現していてもおかしくはない記録、ということになるようです。やはり真の凄さは「デビューから」という点に集約されますね。 知識不足を指摘され教えてもらっても自分のプライドを守ることにのみ必死な人はどの分野にもいる。
相手しても無駄なんことも明白なので程々に。 統計がどうのって意見してる人で、
「はい、これが統計的に誰もが認めるものだよ」って、
具体的にサンプルを挙げている人がいないね。
建設的な意見をだしましょうよ。
ただくさしてるだけの「能書きは不要」です。
素人の私からしたら、10局だけだろうと、
具体的な物を出してる人の方が参考になるけどなぁ。 少ないノード数の計測でもこんな感じでデータを出せば多くの人が満足するんじゃないかと
対局数:500局
例A勝ち:293
例B勝ち:207
引分け:0
勝率: 0.586
標準誤差: 0.02206055312117165
99% 信頼区間 [0.53, 0.642]
相対イロレーティング: 60.35890995887666
標準誤差: 15.796568050416983
99% 信頼区間 [20.87120466602866, 101.46080056999158] ここでの検証結果なんか10局であろうが1000局であろうがいくらでも盛れるんだから、信頼性はないと思うけどなぁ。
結局は自分でやるか、信頼に値する人がやった検証しか当てにならない。 >>726
例えば数十万の少ないノード数で対局数を稼ぐのは簡単だけど、ノード数が少ないと実際の強さと乖離があると言うので、あるレベルのノード数はいるよねと言うのが今の所かな 素人がこのスレを見る必要あるのか
有名なソフトを使っておけば十分ではないのか
検証不十分なソフト同士の対局というマニアックな分野にわざわざ飛び込もうってんだから
ちょっとした数学知識くらい持ち合わせてほしいところ 自分の不得手な分野に突っ込んでいってこれだけツッコミのレスをもらったにもかかわらず
一向に自分の間違いを認めようとしないその姿勢はすごいと思う 「いいね」がもらえると思ったら、ダメ出しされた。
なぜダメなのか理解できないし、ヒント貰っても理解に努めようともしない。
こういう人という事でしょ。 ここまで自己正当化が凄い人も珍しいな
それはそれで尊敬する。迷惑だけどw えびふらいさんが久々に放送するみたいだけど、
最近彼は何か進展あったの? NNUEの計測ってPCがヤバそう(小学生並みの感想)
KPPTでQQRより強い評価関数出てこないかなー(チラッ) >>669
コンビネーションを暗算できるとか天才かな?
ホラ吹き乙 >>726
だから、そんな感じなのはいいんだけど、
「具体的なデータ」じゃないですよね?それは。
あなたの意見よりも10局でも「具体的なデータ」の方が
建設的な意見だと言ってるんですが、
ここ最近で具体的なデータを挙げている人は、
10局の人と20局の人の二人だけじゃない?
さんざんくさされてるけど、私にとってはその二人の意見の方が
参考になります。
ありがとうございます。頑張ってくださいっていえないのかなぁ? 定期的に変なの湧くけどこの前のときも学生の夏休み時期だったような >>737
「コインを10回投げて7回表でした。経験則的に表が出やすいに違いない」
「7割表が出るコインなら、10回投げて裏が多い確率は6%しかないから検証は10回投げるだけで十分」
「コイン10回投げたデータは有意義。この結果を暫定的に採用して俺に感謝しろ」
頭悪すぎちゃう? >>712
初めて見たけど
単純に勝率pを確率変数とした確率分布から信頼区間出してるのかと思った やねうら王 NNUE型評価関数ビルド V4.82公開しました
投稿日時: 2018年7月29日
キタ――(゚∀゚)――!! やねうら王は従来のものを形式変換しただけでしょ?
えびふらい放送は仕事してて放送しなかったので近況報告のようなものでしょ >>740
あたまわるいのはあなたじゃない?
コインで例えるのが間違ってると思わないの?
コインの表裏の確率に偏りがあるとはだれも考えないし証明もできないでしょ。
だから確率0.5で10回投げてもその結果は二項分布の離散確率分布に従った
結果しか出てこないと思った方がいいんじゃないの? コンピュータ将棋に関係ないことは他でやってくれないかな
頭が悪いと思うならその相手はスルーするのが大人なんだがな
ガキばっかになっちまったな >>742
T.N.K.がそもそもYO4.82を改造して使って、それを少し変えてマージしただけじゃなかったっけ? 無償で公開されたものに悪口言う奴らにはやねさんがゲンコツや! >>744
誰もコインに偏りがあるとは考えないからこそコインで例えてるんだろ?何言ってんだお前
真の勝率がコインと同じように差はないかもしれないのに、それを勝率7割あればほぼ勝ち越すから10回で十分と言い張るのは、
コイン10回投げて7回表が出たから表が出やすいという馬鹿馬鹿しい主張とかわらん
あと非理想的なコインの偏りは統計的な答えを出せるし、
二項分布はp0.5に限った話じゃないので意味不明 俺素人だけど、 (ワッチョイ 32e7-53i4) の言ってることは間違ってると思う。
過去スレにもいたけど、やねうらエンジンの比較で自己対戦して10局で充分とか言ってる奴いたけど、コイツと同一人物だったんだなって思った。 ■ このスレッドは過去ログ倉庫に格納されています