▲コンピュータ将棋スレッド121 [無断転載禁止]©2ch.net
レス数が1000を超えています。これ以上書き込みはできません。
>>897
直接対決ではほぼ五分だけど
mafuta2 mafu 50-49-1 てか>>847をみて言ってるのかもしれんが、>>847は計算も順位も変だぞ
>>809がほんとの勝率順だし
実際に計算するとあの検証のmafu.7zからmafu10までR30弱しか差がない上にR±25の信頼区間
つまり全く順位は分かっていないってことだ 実験対決2
4スレ1秒定跡なし100回対戦
remutama48 yasetamafu70 39-61
長時間じゃないと、評価関数の持ち味が発揮されないのもしれないので、作成してくれた方にも失礼ですし投稿はこれで最後にします Program Elo + - Games Score Av.Op. Draws
1 mafu : 130 26 26 700 53.7 % 104 1.1 %
2 mafuta2 : 128 26 26 700 53.3 % 105 0.6 %
3 mafuta3 : 124 26 26 700 52.8 % 105 0.4 %
4 mafuta1 : 124 26 26 700 52.7 % 105 0.3 %
5 yasema10 : 123 26 26 700 52.5 % 105 0.4 %
6 yasetamafu70 : 122 26 26 700 52.4 % 105 1.0 %
7 mafu10 : 105 26 26 700 49.6 % 108 0.4 %
8 elmo : 0 27 28 700 33.0 % 123 0.3 %
>>901
君が BayesElo
elostat計測 途中で書き込まれちゃった
>>901
君がBayesEloを分かってないだけ
elostatなら>>903の結果になる たくさん似たような強さの関数作って混乱させたいの? githubに載っているDeveloper用のcode勝手に拾っておいて「混乱させたいの?」はないだろwww
おろしろすぎる冗談だな。激指使ったら? 激指定跡道場4強いな。
remutama48に勝ち越し 全く知らんかったからBayesian Eloについて勉強してきた。
が、やっぱり>>847では正確ではないと俺は思う。
なにより初期値決めてから少しずつ動かしていく方式だから計算の順番で有利不利がある。
>>847は>>824の対戦成績の順番に打ち込んだと思われるが
とびぬけて弱いelmoとの試合の後に試合をたくさんこなすとRが下がる傾向になってしまう。
>>824の書き込みの順番が
yasetamafu70→mafu10→mafuta2→yasema10→mafuta3→mafuta1→mafu
>>847の順位を下から並べると
mafu10→yasetamafu70→mafuta2→yasema10→mafuta3→mafuta1→mafu
elmo以外が団子だからほとんど入力順が計算順位と等しくなっている
まぁとにかくmafuとmafu10の間に70の差があるのはおかしい。 Googleみたいなすごいのがどかっと来てくれないかなあ
「定跡とか配合とか無駄な努力ご苦労さんw」
みたいなやつ期待 >>909
じゃあ、elmo抜いてまふ系統の評価関数だけで総当たりやりましょうか
それと、申し訳無さすぎるんですが設定上のミスをまた一つ発見してしまいました
evalshare程の大ミスではないので、二つ目のデータはそこまで悪くはないと思うのですが、やはり自分でも正確ではないと感じます
もう一回だけチャンスを頂けませんか?
終わるのはいつになるのかわかりませんが いろいろブレンドしては対戦させてきたけど、素材(elmo、rezero8、mafu10、mafuta3、野生の読み太2)を全部ブレンドすると、ほとんど有意差なしで強い評価関数になる
突然変異的に強いのはできないはず
突然変異を狙うには、絞りに絞ってアウトブリードを作るしかない 検証した人がおるんか
わたしは>>847が直感と反するな〜と思っただけで>>824の結果自体はさほど違和感ないし、
elmoを抜いて計算するとか、計算の順番を変えるとかはデータを扱う側の問題だと思う。
むしろ団子だって分かったからそれで十分じゃないのかねぇ
最強という単語に惹かれるものなのか >>911
いや、やっぱりやめておこう
時間がかかり過ぎてしまうし、自分より正確に測定できる人がやった方がいいし
これで本当に最後の投稿にします >>914
おつかれ
evalshareとかのフィードバックもあったしよかった
なにをミスったかはもやもやするけど 配合じゃなく新しい評価関数作ったとか教育学習して評価関数強くしたとかの時には協力します relmoが奇跡的に伸びただけで
まふ評価関数以降は配合してもそう大きな伸びは期待出来なさそうだな
電王Tまではこの辺りで頭打ちになりそう ダビスタの距離別大会のように条件をしっかり決めないとこのもやもや感は消えないだろうね。
ぶっちゃけ、ウォーズやクエストでソフト指しする層に好まれる10分切れまけや5分切れまけ最強の評価関数が最強と呼ばれるだろうな。
プロ棋士以外には長時間向けは歓迎されないだろう… >>911
EvalShareオフの他に、NetworkDelay,NetworkDelay2を0にしていないだとか・・
いい加減、公式にあるドキュメントぐらい読めよ >>911
技巧2もいれていただけるとありがたいです 短距離血統は手が広いほうが有利だな。相手の読み筋にないから。
学習を補完しあうような形の多種ブレンドが有利。 10切れに合わせると一手10秒程度だから自分の棋譜解析にもちょうどいいし、いいと思うけどね。
悪用されるのは避ける方法が思い浮かばない。 >>918
とはいいつつelmoに勝率7割、relmoに100戦行いギリ有意差出るくらいに強いのは凄いと思う。 >>911
もう意味ないだろ
総当りなんて
五十歩百歩で大差ないで結論出てるよ みなさんの対局設定をみてたら、どれも一手1秒や2秒の短時間が多いけど、最低でも5秒
で対局しないと本当の強さは出ない。だから、uuunuuunさんの基準は5秒にしている。
だから一手1秒や2秒の対局結果を見せられても、あてにならないので全く参考にして
いない。 本当の強さってなんだよこのメルアドキチガイ
5秒なら信用できるって意味不明だわ >>891
それでハードル下げてるとか言うなよw
もっともっと低いハードルを想定してるんだが。
というか、そんなこと言い始めたらそもそもレートの計測自体が成立しないわな。 秒数ではなくノード数だよな
例えば同程度のCPUで1スレッド5秒と128スレッド1秒なら後者が遥かに上でしょ
あとCPU自体のIPCと動作周波数もそれぞれ違うわけだし ノード数はずっと提案してるけど聞く耳持たれないよ。
なぜなら時間がかかるから我先にと対戦成績を報告したい人には都合が悪いからさ。 >>927
君は5秒だと、どのスペックのPCでもみんな同じノード数になると思ってるお子ちゃまかな? まふという人間の評価関数
パソコン安いのしかないようだし
失業中の孤独な人で
アパート一人暮らし、もしくは親と同居
虚言癖レート4300とか言い出す
精神に欠落があり社会に出れない人
まふ定跡を作るあたりの細々とした長期作業をする執念深さで評価関数作る 以上よっちゃんとかいう盗作評価関数の作者さんの有難いポエムでした。 ★将棋の棋士はメガネ障害者ばかり ・普段コンタクトを使用してる棋士
佐々木勇気は普段はコンタクトかカラーコンタクトをしています。
カラコンをすると目玉が黒くなり大きく見えます。
目つきが鋭い人、目がモデルや芸能人のような人はカラコンをしてる可能性が高いです。
記憶力が異常にある直観像記憶(映像記憶)ができる人はメガネ障害者の人が多いです。
東大生や記憶力のチャンピオンはメガネ障害者ばかりです。
東大医学部はアスペばかりです。
佐々木勇気 五段
http://i.imgur.com/K★iBZMLR.jpg
http://i.imgur.com/S★fDFbYJ.jpg
http://i.imgur.com/Y★6F7uy4.jpg
三浦弘行 九段 A型
http://i.imgur.com/L★tTioZz.jpg
佐藤紳哉 七段
http://i.imgur.com/W★UGvq4p.jpg
先崎学 九段
http://i.imgur.com/c★F2xnnF.jpg
メガネなし
http://i.imgur.com/3★PJ57Lc.jpg
行方尚史 八段
http://i.imgur.com/n★jCcI44.jpg
メガネなし
http://i.imgur.com/9★srW23h.jpg
橋本崇載 八段
http://i.imgur.com/6★9d12cl.jpg
メガネなし
http://i.imgur.com/u★dmCfFJ.jpg
久保利明 九段
http://i.imgur.com/y★qTE4YU.jpg
メガネなし
http://i.imgur.com/a★T9yGcQ.jpg
★メガネはメガネ障害者です
将棋の棋士はメガネ障害者ばかりなので、将棋はパラリンピックです
障害者のパラリンピック将棋が好きな人はセンスがない凡人たちです くだらないことばかり書いてないで序盤に穴のないソフト作ってよ 今度のSDTは、探索部はやねうら王が8割とかなるのかね?w コンビニで雑誌立ち読みしてたら、女流棋士のヘアヌードが見れたぜ ponanzaは入玉に弱いから、対策しなきゃ負けまくるだろうなぁ テンプレに追加で入れるべきものがあったら整理し始めてほしい 大会はやねうら王ライブラリ使用のやねうら王仕様が標準でelmo派生でほとんどになるんでしょう >>762も入れておきなよ
誤差レベルの勝敗差で
○○の方が強いと言い切ってしまう報告が後を絶たないし ちょっと配合変えただけの評価関数検討とかうざいから別スレに分けようぜ 評価関数と検索部とやねうらデバックスレでわけようぜ 自分の計算資源を使って自分で満足してる人のほうが
他人の計算資源を当てにして勝手に不満になってる人より
将棋ソフトもスレも有効活用してると思うけど
他人の計算資源を使いたいなら浮かむ瀬やクジラちゃんぐらいパッケージングしないとだめなんじゃない?
あとよくもわるくも本人の魅力も >>762って有意水準10%で両側検定した場合を想定したのか5%で片側検定なのかわからんね
実験してから棄却域を設定するのはおかしいから前者を前提してるのかね? NHK BSスペシャルの話題はスルーなんか?
やね先生も登場していたのに 配合繰り返すだけでレートが10ずつでも上がり続ければ楽なんですけどね >>955
有意検定を知ってて書いた感じではなさそうだしuuunuuunさんとその仲間たちがレート表をより充実させてくれるんじゃない? 河童さんのREMUのおかげで、どうブレンドするとどれがスポイルされるのかとかがわかるようになって、すごく助かってます
河童さん、ありがとう!
いろいろ混ぜると、完全に殺されちゃう血統が出るというのは驚きでした
あと、短距離血統のブレンドを始めましたが、まふ評価関数は短距離からクラシックディスタンス(笑)まで満遍なく強いです
短距離ならelmoや野生の読み太のほうがイケるかなと踏んでいたのですが、敵いませんでした
浅い読みでも細かな穴をバシバシ突いて逆転するので、棋譜を見ていても楽しいです
対局条件は4スレ1秒、Ponder、定跡、ネットワークディレイ関係、eval share全てOFFです
勝敗はあえて載せませんw 絞り方教えてくれー。そして探索部ってなんなんだよおー。絞ったら若干弱くなってる気がするょおー。バッチサイズ、バラバラで教師局面作ったからラーンするときエラー出まくりなんじゃー >>960
ソフト数が2や3ならともかく10ぐらいになってきたので
99.9%は欲しい
なので片方が強いと言えるにはこのぐらいの対局数で希望したい
片側0.1%
12240-11760(51%)
3146-2904(52%)
1425-1292(53%)
853-727(54%)
539-441(55%)
381-299(56%)
293-221(57%)
226-164(58%)
180-125(59%)
150-100(60%)
128-82(61%)
108-66(62%)
97-57(63%)
84-47(64%)
76-41(65%)
66-34(66%)
59-29(67%)
56-26(68%)
49-22(69%)
43-18(70%) >>931-932
ノード数固定も完璧じゃないんだよ
基本的には並列度があがるにつれ無駄読みが増える(同じノード数でも読みが浅くなる)訳で
例えば8スレッド1000万ノードと128スレッド1000万ノードなら基本的には前者の方が強いはず
やるとしたらノード数+スレッド数固定なんだけど、どのあたりを落としどころにするかだよね
時間とスレッド数とbenchコマンドの結果を併記してもらってあとは受け手がどう扱うかに任せるくらいが現実的では >>963
だれもやる奴いなくなる気がしないでもないな
あと実験して結果を見てから恣意的に棄却域を設定するのはどうかね? 90%と95%でそれぞれ早見表作るのが良さそう
基本は95%、長時間なら90%で妥協してと良いとかで使い分けられる
それ以上の精度で計測するのは現実的に難しいでしょう 今話題の無料の観る将棋アプリ将棋DB2?
@backflip1801
foodgateの運用開始しました。
http://floodgate.shogidb2.com で4081番ポートで接続できます。とりあえず、floodgate-900-0とfloodgate-3600-0の2種類のゲームで運用しています。参加お待ちしております。 とりあえず現行のテンプレだとリーグ戦とかのまとまった結果を書き込んでくれる人には使い勝手が悪そうだけど、新しいテンプレ案誰も作らなさそうだから荒削りだけど作ったの張っとく
【対局条件】
持ち時間:
スレッド数:
おおよそのNPS:
開始局面:
[benchコマンドの結果(任意):]
[ハッシュサイズ(任意):]
[その他(任意):]
【対局結果(全体)】
ソフト名,勝数,敗数,引分数[,勝率(任意)]
【対局結果(詳細)】
ソフト名1,ソフト名2,ソフト1勝数,ソフト2勝数,引分数[,勝率(任意)]
記入例:
【対局条件】
持ち時間:1手5秒
スレッド数:8
開始局面:平手
おおよそのNPS:やねうら王4.55 3000000-4000000,技巧2 2500000-3000000
その他:KPPT型のエンジンはすべてやねうら王4.55を使用/定跡について記載のない場合には標準の定跡を使用
【対局結果(全体)】
ソフト名,勝数,敗数,引分数
elmo-qhapaq(河童全力定跡),55,40,5
技巧2,40,55,5
【対局結果(詳細)】
ソフト名1,ソフト名2,ソフト1勝数,ソフト2勝数,引分数
elmo-qhapaq(河童全力定跡),技巧2,55,40,5 【エンジン】技巧2、やねうら王4.64(yasema10評価関数)
【勝敗】4-6
【持ち時間】1手10秒
【CPU】Intel(R) Core(TM) i7-6700K CPU @ 4.00GHz
【OS】Windows10 64bit
【メモリー】16GB
【思考条件】Threads=8、NarrowBook=OFF、USI_Hash=8192,USI_Ponder=OFF
【特記事項】10回しかやってないけどあんまり差つかなかった テンプレなんて別に>>1-5の便利リンクの紹介だけでも良いんじゃないの?
スレ立てした時に面倒が増えるだけだし
テンプレ守れみたいな書き込みでスレが荒れる原因にもなってる いやなんだかんだ調査報告テンプレは欲しい
>>968
リーグ戦の報告の人のためにエンジン名と勝敗を下に持っていきたいのかもしれないが
記入例見ても何のソフトが戦ったのかすぐにはわからんぞ。
エンジン名と勝敗が最初に来るからこれまでのテンプレのほうがわかりやすいように感じる
OSの情報は要るのか疑問だが OSもCPUもメモリも要らねぇだろ正直
対局ソフト、対局結果、スレッド数、持ち時間、(設定)の4〜5項目あれば良い
やねうら王ブログの検証がこの4項目だけど
文句言われてるの見たことないぞ まふさんの悪口を書く人いるけど、まふさん気にしないで下さい。実際にまふさん
が公開した評価関数は、一番強いremutama40で、4スレで軽く4100以上のレーティング
を確認しています。何も悪口言われる筋合いはありません。 まふさんは4100前後の評価関数を7個くらい作ったんか? CPUかNPSは総ノード数出すのに要ると思う。
あとメモリの記載があると例えば>>969を見て、
Hashが8192では、2ソフト分で8192×2+評価関数等があるので
メモリ16GBに対して高すぎませんか?とか突っ込みができる ●自己対局の設定
Threads(スレッド数):両方同じ数にする。使用PCの論理コア数に合わせる
Hash(置換表サイズ):両方同じ数にする。使用PCのRAMの1/4にする
USI_Hash:↑と同じ
USI_Ponder:必ず両方Falseにする。ここを間違える人が圧倒的に多い
Byoyomi_Margin:0にする
NetworkDelay(通信の平均遅延時間):0にする
Network Delay2(通信の最大遅延時間):0にする
MultiPV:1にする
Minimum_Thinking_Time:両方同じ数にする
EvalShare:Falseにする
OwnBook(定跡):出来るだけ同じ定跡を使う。定跡OFFは同じ展開ばかりになるのでオススメしない(並列探索すればマシにはなるが)。様々な互角局面から、1局面につき先後入れ替えで対局させるとさらに良い
●有意に強いといえる勝数
50局中 34勝以上(99%)
100局中 62勝以上(99%)
500局中 279勝以上(99%)
1000局中 541勝以上(99%) 531勝以上(95%)
2000局中 1057勝以上(99%) 1044勝以上(95%)
3000局中 1570勝以上(99%) 1554勝以上(95%)
・信頼区間にかかわらず最低500局ぐらいは対局したほうがいいと思う
・有意差ではなく勝率推定したい場合は最低3000局以上くらいないと測定誤差大きいと思う
・定跡が微妙な場合はp<0.01でも信頼性低いと思う
・総当り戦は素直にBayeselo使うのがいいと思う。LOSも簡単に出してくれるし もう、ここまで厳密だと逆に誰も自己対戦報告しなくなるだけじゃね? 厳密になるぶんには誰も困らんとは思う。ただこんな個人が勝手勝手にやる匿名掲示板で、例え手法に問題がなくてもまともな検証なんかできると思えん。ディスるわけじゃなくてね。微々たる?差を必要としている人は自前でやるだろうし >>972
やねは所有マシンのスペックを事前に公開してるだろ
匿名掲示板とは条件が全く違う 99%だとか言ってる奴は荒らしだろ
計測ブームなんて既に下火になりかけてるんだから
テンプレは従来のままでいい
変に改変しても荒れるだけだしな 将棋DB2のfloodgateは野良なのか?
接続しても大丈夫? >>976
BayesEloとやらのほうが素直なのか?
>>847と>>903が同じ人が出したBayesEloとElostatなわけだよね
>>909みてるとElostatの結果の方が素直にみえるが ルール厨の書き込みなんて放っておけって
こういう意見が衝突してる時には
テンプレは現状維持が定跡
どの意見を採用しても
採用されなかった意見の発案者が荒らしに変貌するからね どちらにせよ勝率6割程度では例え1000対局しても価値はない
せいぜいやや強いぐらいのことがわかるだけなので
この乱立環境ではせめて100対局で勝率7割ぐらいの
圧倒的に強いといえるものがほしい
それ以外は計測の練習にしかならんよ そもそもブリードブームの前は、人が多くなる選手権後のソフト大量公開時期ですら今の対局結果テンプレ守ってる人が多かった訳で、「テンプレが冗長」とか理解力がない奴の言い訳でしょ
追加でリーグ戦用のテンプレ作るとかはありかもしれないけど、現行の対局結果テンプレを変える必要はない テンプレ改変の議論なんか950超えてからするもんじゃない
現行のまま立てて次スレでのんびり議論すればいい話
勝手に改変する前振りに利用する雰囲気も出ているから
立てられる人は荒れる前に早めに現行テンプレで立てて欲しいね どんな精度で満足するのかはやる人の勝手だろうよ
99%の精度が必要なら自分でやりゃいいわな テンプレのどこかに、まふさんのGITHUBも含めよう 今検証募集してるremutama40と混ぜたりした検証も 現在の配合組み合わせじゃelmoに勝率70%が限度のようだ レス数が1000を超えています。これ以上書き込みはできません。