▲コンピュータ将棋スレッド121 [無断転載禁止]©2ch.net
レス数が1000を超えています。これ以上書き込みはできません。
調査報告テンプレート
【エンジン】
【勝敗】
【持ち時間】
【CPU】
【OS】
【メモリー】
【思考条件】
【特記事項】
例:
【エンジン】技巧2、やねうら王4.55(elmo-qhapaq評価関数)
【勝敗】40-5-55
【持ち時間】1手5秒
【CPU】Intel Core i7-6950X 定格 (HT ON)
【OS】Windows10 64bit
【メモリー】16GB
【思考条件】Threads=20、NarrowBook=ON、USI_Hash=256,USI_Ponder=OFF など
【特記事項】使用定跡や感想とかなんでも
対戦させる場合でよく間違っている人のケース
※Ponder=OFFにすること
ここを忘れてる人多い
定跡のONOFFも忘れずに 参考までに
ShogiNetの人のブログは
"将棋でディープラーニング"でググると一発でみつかる それ別人だよ。そのひとツイッターで大会には出るつもりないってつぶやいていた リゼロ、相居玉どころか5筋に双方の玉があると KKPT, KPPT の値がないように見える
不具合っぽいけどよくわからん。。 よく知らんのだけど探索部分だけでRいくつくらい変化するの?
uuunuuun? @uuunuuun1 5時間前
リゼロエポック1、GPSfish(R2885)と10−9。このあたりと釣り合っていそうな雰囲気。
探索が最新のやねでGPSとはかなり差があるため、評価関数の強さはその分差し引く必要がある。 >>12
はやっ
さすがに搾り直しはやり方書いてるし自分でやれって感じだろうな。
棋力に大きな変化があったらつぶやいて欲しいところだけど。。 人々の協力なんて、
嘘とハッタリで生きる在日さんには得られないものだからね リゼロ評価関数 epoch 5から6まで
キターーーーーーー(゚∀゚ 三 ゚∀゚) やねうらお的には未踏の荒野を歩いている気分だろ
もっとがんばれ
才能があり努力したものだけが味わえる境地 電王トーナメントではやねうら王に是非優勝してもらいたいわ そしたらしばらくニコ生の評価値ソフトが「電王やねうら王」とか見栄えの悪いことになるし コンピューター将棋全然わからないけど、雑巾絞りって同じソフト同士の棋譜を使うのが最適解なの?
ある程度強くなったら、違うソフトとの棋譜を使うほうが穴が埋まりやすい気がする
同じソフトで絞り続けると過学習のような形になって、重大な欠点に気付かず学習してしまうことが無いのだろうか
振り飛車の局面で評価値と勝率にギャップのある局面があるのも、序盤の形を過学習してしまっていることが原因なのでは? 5,6 も5筋の玉は評価がカラだね。次が楽しみ。
浮かむ瀬との比較で、大駒重視の評価、玉の周りでも金駒軽視って感じか。
駒得から始めてるからかな。
成長が見えるのは微笑ましいけど、すでに勝てる気がしないw >>24
人力に頼らずコンピュータだけで完結できたら効率的
ということが根本思想にあるから
プロ棋士棋譜が良いとか悪いとかいう評価はそもそもどうでも良いこと >>26
プロ棋士の話は一切していない…
今の雑巾絞りでは得意な局面と苦手な局面の差が出てしまう可能性があるから、技巧やその他のフリーソフトとの棋譜も使うほうが穴が埋まるのではないかという意味 >>27
技巧やその他のフリーソフトはプロの棋譜を参考にしとるからあかんやろ
GAN的なやつで2つの評価関数を用意して互いが互いを強くするみたいな構成にするとどうなるのか
同じ値に収束する気もするがやってみないとわからないような >>28
多分彼は雑巾の効率的な絞り方の話をしているのであって、リゼロの話はしていないと思うよ α碁は自己対戦ばっかりやってると変なローカルミニマムにハマるので
対戦相手のプールを作って学習みたいな話はしていた。 現在のレート上位ソフトはほとんど誤差のような範疇に固まっている
どんなに強いelmoでも低いレートのソフトに負けることはある
つまりelmoより弱いソフトでも、elmoより正確に読むことができる限定的な局面が存在するということ
その限定的な局面を少しでも減らせれば、将棋ソフトはまだまだ強くなると思う
苦手な局面を減らす方法はいろいろある
もしかしたら三駒では表現しきれないことかもしれない
私が思いついたのが、別のソフトと対局させ別のソフトが勝った時の棋譜を学習させる方法だけど、これが正しい方法かはわからない いわゆる四駒ってKKPPだけど、これがKPPPになったらもう今の計算資源では
扱いきれない大きさと重さになってしまうんだろうな。 四駒は重すぎるのでPPPとか誰かやらないのかな
すでに試した結果弱いのかもしれないが PPPってKKPPよりテーブルサイズは小さくできても、計算コストは大きそうだけどどうなんだろ 伸びしろはいくらでもあるだろ
やり方がわからないだけで 自分でやらないくせに、やりようはいくらでもある
とか言い出す奴って https://book.mynavi.jp/shogi/detail/id=76073
激指14からさらに一回り強くなってレートはどのくらいになったのか。
あと、ついに段位としてPro+を誰はばかることなく表示できるようになったのは
時代だなあ。 やねうら王のリゼロepoch6が出たのでelmoと対局させて見ました
ノード数2000万位で100局ではリゼロから見て
49-10-41
ノード数5000万位で50局ではリゼロから見て
24-6-20
同じような傾向でした
リゼロは以外に強くて、評価値のグラフもお互い絡むことも多く兄弟ソフトみたいですね
今後のリゼロ期待してます リゼロがエルモ超えたと
やねうら王じゃなくリゼロでやねうら王開発したほうがいいのか これでバグ有りという恐ろしい真実。
また一回り強くなるなんて凄い リゼロはやねうら王+エルモと違った評価値出しますね
(過去の棋士の棋譜検討比べると) リゼロはアニメ好きのやねっぽい命名なんだけど。Twitter検索しようと思うと
ノイズでしかないので、少しなんとかならんもんか 山本とPonanzaが6月25日にまたTV出るぞ
しかもNHKスペシャル
東大将棋部出身で朝鮮系日本人(帰化済み)の山本一成とPonanzaを、こりゃ将棋に無知な一般人まで覚えてしまうね 電王戦 名人vs人工知能 (仮)
http://www6.nhk.or.jp/special/detail/index.html?aid=20170625
4月1日、将棋の名人・佐藤天彦VS人工知能、電王戦第1局が行われた。人工知能の初手に誰もが唖然とした。3八金。定跡にはない手だった。
その後も斬新な手を繰り出すポナンザに対し、佐藤天彦名人は敗北した。しかし対局後、佐藤名人は晴れやかに語った。「将棋は自分が考えていたよりも深く大きな宇宙だった」。敗れた悔しさよりも、人工知能によって、将棋の世界の奥深さを気づかされたと言うのだ。
羽生善治は、「この勝負には私たちの未来がつまっていた」と語る。人間の固定観念を覆す「創造性」を人工知能が獲得したこと。そして人工知能によって、人間がさらなる高みに到達できることを示したと言うのだ。
この番組では、将棋の頂上決戦で起きたことを、未来社会における「人間と人工知能の関係」を先取りしたものとして捉えていく。人工知能の革命的な一手は、どんな驚異的進化を物語るのか。私たちに何を突きつけるのか。
第二局が行われるのは、5月20日。将棋という小宇宙で展開された2番勝負を、羽生善治が読み解き、人間と人工知能の関係の新たな可能性を探っていく。 epoch7は開始局面でうっすらと評価がつくようになった
浮かむ瀬とは注視している駒が違う感じ >>51
ハメ手対策の乱数等確率3八金を何かの象徴のように語るのは止めてほしいな。
その辺のことは本当は羽生がディレクターに指摘しなければならないのに。 電王トーナメントは本当にelmoがスタートラインになるんだな。
R4000をベースにここにどれだけRを積み重ねられるかの争いで、
去年の技巧みたいにelmoが出場してもDNQということは十分にありうると。 演者はDの言いなりだろ
業界外ならなおさら
インタビューなのに
台詞用意してくるのもいるからなw >>53
勝率が一定内に収まってるんだから、それならランダム性を取るのは羽生的には勝利を追求する手だと思ってるのでは? MicrosoftもAIをアピールしてきたな
【MicrosoftのAIが「ミズ・パックマン」で全面クリア】
https://news.yahoo.co.jp/pickup/6243413
こちらのやり方のほうがDLより将棋向きな気がする >>38
WCSC26版ならだいたい14に勝率7割とかだっけか
ただWCSC26版はプロの棋譜なしの自己対戦からの学習だったはずで、人間的な棋風が受けてる製品版激指的にはどうなんだろうという気も ポナ山も限界が見えたからDLに手を出したのかな
elmoと対局させてるが、すでにリゼロ7はかなり強くなってる気がする KPPTがほんとに限界なら来年は別なこと考えないとだめなのか USI改定案か意欲的だなあ
yaneuraou.yaneu.com/2017/06/16/%E6%8B%A1%E5%BC%B5usi%E3%83%97%E3%83%AD%E3%83%88%E3%82%B3%E3%83%AB-%E8%AA%AD%E3%81%BF%E7%AD%8B%E5%87%BA%E5%8A%9B%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6/ これ情報量増えてないような気がする
GUI側が表示の時に付け足せばいいんじゃないの shogiguiって確かに表示はきっちり数字とか文字チェックしてるんだよね
将棋所だと全然チェックしてないから、例えばmate時にunko -32とか
nodeにsugeeeeとかなんでも表示出来たりする
逆に開発時に結構便利だったりするんだけど やね
ContemptFromBlack :
Contemptの設定値を先手番から見た値とするオプション。Stockfishからの独自拡張。
先手のときは千日手を狙いたくなくて、後手のときは千日手を狙いたいような場合、
このオプションをオンにすれば、Contemptをそういう解釈にしてくれる。
(Contemptを常に先手から見たスコアだとみなしてくれる。)
デフォルトではfalse。 >>67
ShogiGUIの方が妥当な実装だと思うけどね
将棋所の実装は見るからに危険
もっともUSIの定義がそもそもあやふやだから、何が正しいのやら uuunuuunさんのところの検証見ると、elmoはバグを抱えて角落ちで大樹、飛車落ちでGPSと釣り合ってたのか
ただ大樹も駒落ちは仕様外でゴミデータ参照してたはずだし、駒落ち測定って難しい >>70
念のためやねの最近のcommitで駒落ちのバグが修正された話ね 今日のNHKは千田六段の特集だった
自室は殺風景な洋室で机とデスクトップPCと本の入っていない本棚だけ リゼロの手法なら駒落ち上手専用ソフトができるかと思ったけど、
上手勝ちのデータを増やすために駒割の差を持ち時間で補うとすると、2倍でR120として
R500なら16倍、R1000なら256倍、R1500なら4096倍
角落ちなら何とかいけるのかな 負ける手順は勝つ手順より何十桁も多いだろうから
負けないことを学習するより勝つことを学習するほうが効率がいいだろうという素人考え 負けばっかりだとelmo絞りの勝率による補正がほぼ意味がなくなる
評価値プラスの局面がほとんどないってことだからそれがどうなるか
確かに角落ちぐらいなら上手もそこそこ勝ちがあるからなんとかなりそうな気もする >>76-77
ランダムムーブを入れている以上、駒のただ捨てみたいな局面があるわけで
勝率0%ってことはないから、勝敗による補正はきちんと機能すると思うよ。 こう書くと怪しさ倍増だが >>79 のURLは安全だ
心配せずに踏みなさい ブラクラチェックでチェックした限りでは大丈夫そうだが、それ以上の確信は持てない。
一応有名所のブラクラチェッカー
ttps://www.aguse.jp/ 開発者のTwitterでも話題になってるから大丈夫だよ >>84
どこの駒に注目してるか、ってことはプロクラスになると面白い情報になるのではないかと。 >>51
タイトルから仮が消えて、人工知能 天使か悪魔かになった
朝鮮系日本人(帰化済み)のポナンザ山本もすっかり有名人になったな このNHKスペシャル17日放送予定だったが1週間延期したんだな 先読み!夕方ニュース午後6:00 - 6:50(50分)
◆20分頃 特集「藤井四段・AI将棋界でいま」/勝又清和さん(現役棋士・六段、東京大学大学院・客員教授)
http://www.nhk.or.jp/radio/hensei/detail.html?r1.68514.2017-06-21.130 どこまでがアルゴリズムでどこからが人工知能なの?
コンピューター将棋も人工知能? >>89
IBMは人工知能など今は存在しないと言ってる 正直言って人工知能ではない
研究費貰ったり商売するためにハッタリかましてるだけ 強いAIを実現してないのでどこもゴミと言ってなんの意味があるのかは不明 FGにYssCNN_F128L12_a48x2ってのがいるね
YSSもディープラーニングか >リゼロ評価関数epoch8公開しました。
キターーーーーーー。これでelmoと同等かな。終盤強いから検討のとき助かる https://www.youtube.com/watch?v=hp9LTLq0GpU
つべで藤井聡太関連のクリップを漁ってたら、これの4分55秒から出村弁護士が出演してた。
出村先生選んで札幌でわざわざ取材させるのは結構いい調査してるなあと。 検討モードが一番信頼できるフリーソフト教えてください 後手番って横歩よりも角換わりに誘導したほうが勝率いいんかな。 PEXTが使えないCPUで多少速くなる(飛車が盤上にあるとき限定)
// 飛車の横の利き
inline Bitboard rookRankEffect(Square sq, const Bitboard& occupied)
{
// 中略
#if defined(USE_AVX2)
u64 u = (occupied.extract64<1>() << 6*9 ) + (occupied.extract64<0>() >> 9);
u64 index = PEXT64(u, 0b1000000001000000001000000001000000001000000001000000001 << r);
#elif defined(__arm__) // 32bit arm
u64 u = occupied.extract64<0>() >> 9;
u32 index = ((uint32_t(u) & 0b1000000001000000001 << r) | (uint32_t(u >> 27 - 3) & (0b1000000001000000001 << 3 + r)) |
((uint32_t(occupied.extract64<1>()) << 6) & (1 << 6 + r)))
* UINT32_C(0b10000000100000001) >> (r + 16) & 0b1111111;
#else
u64 u = (occupied.extract64<1>() << 6*9 ) + (occupied.extract64<0>() >> 9);
u32 index = u32((u & 0b1000000001000000001000000001000000001000000001000000001 << r)
* UINT64_C(0b1000000010000000100000001000000010000000100000001) >> (r + 48)) & 0b1111111;
#endif
return RookRankEffect[file_of(sq)][index] << r;
} なお movegen.cpp の歩の打てる所チェックのPEXT64も同じようなことが可能だが
ほとんど効果がなかった <チラ裏に書いておこう>
// 前略
// このRANK9に集まった情報をpextで回収。
#if defined(USE_AVX2)
u32 index1 = u32(PEXT64( a.extract64<0>(), RANK9_BB.p[0]));
u32 index2 = u32(PEXT32((u32)a.extract64<1>(), (u32)RANK9_BB.p[1]));
#elif defined(__arm__)
u32 index1 = ((u32(a.extract64<0>()) & 0b1000000001000000001 << 8) |
(u32(a.extract64<0>() >> 27 - 3) & (0b1000000001000000001 << 3 + 8)) |
(u32(a.extract64<0>() >> 54 - 6) & (1 << 6 + 8)))
* UINT32_C(0b10000000100000001) >> (8 + 16) & 0b1111111;
u32 index2 = (u32(a.extract64<1>()) & u32(RANK9_BB.p[1])) * UINT32_C(0b100000001) >> 16 & 0b11;
#else
u32 index1 = u32((a.extract64<0>() & RANK9_BB.p[0]) * UINT64_C(0b1000000010000000100000001000000010000000100000001) >> 56) & 0b1111111;
u32 index2 = (u32(a.extract64<1>()) & u32(RANK9_BB.p[1])) * UINT32_C(0b100000001) >> 16 & 0b11;
#endif
</> Garry Kasparov: "Deep Thinking" | Talks at Google
Garry Kasparov and DeepMind’s CEO Demis Hassabis discuss Garry’s new book “Deep Thinking”,
his match with Deep Blue and his thoughts on the future of AI in the world of chess.
https://www.youtube.com/watch?v=zhkTHkIZJEc Alpha Goは風のように現れ
無敵のまま風のように去っていった。
=== 完 === カスパロフは
プーチンに公然と逆らっても消されない
というのが凄い >>110
政治家として実力や権力欲はないが名声は大きいタイプは
古今東西殺すのは最後にしてもらえる >>51
Nスペ微妙だった
事前貸出ルールは無かったことにされて、ただの事前貸出対策ランダム指しの初手38金を
山本一成でも「なぜその手を選んだのか分からない」PONANZAのおそろしい手!!ってことにされてたのにはワロタが >>112
さすがにそこまでの作り方ではなかったと思う。
単に評価値で見てみたらそこまで悪くは無い手でそれ以上でも以下でもない、
ということを知っていても知らなくてもそれぞれのストーリーを聞き手の中で組み立てて
了解可能だったと思う。
おそらくこれ、最初は将棋一本で作ろうとしてプロデューサー試写でダメ出し入って
それで人工知能総合番組にしたんだと思う。
だから正式タイトルが決まらなかったし一週間伸びた。 電王戦の記者会見でnhkの記者が「Ponanzaはシンギュラリーティーに到達したと言えるのでしょうか」と頓珍漢な質問してたな
その程度だろう ジャップはLGBT差別して同性婚を認ず、血液型で性格がきまると信じてるからな >>116
貴方の祖国はどうなんですかねえ(注 韓国は男女差別、地域差別が酷い国として国際的に非難されている) >>117
下らん煽りに乗るな
ジャップ呼びは酷い行為だが、それされただけで韓国認定してしまった時点であんたも奴とおなじ穴のムジナになるんだ
同じく相手の人種を勝手に規定存在しない敵に向けて攻撃開始してしまってるからな >>118
良識だが匿名相手には無駄
しかし匿名でもしっかり心に響くのだから面白い 今日の朝の番組で藤井4段がソフトを凌ぐなんたらかんたらいってたが見逃した 最近、平岡さんが禹さんの舎弟みたいになってきてるなあ 教授今度はコンピュータではなくフジー君について語るのかw rezero8+elmo=relmo8より
rezero8+mafuのほうが強いものが出来る >>126
それ作ってみたけど評価値の出方めちゃくちゃおかしかったぞ やねうら王のソース読んでたら、evalmergeコマンドには隠しオプションがあるんだな。
比率でなく評価値の絶対値が大きいほうを採用したり、小さいほうを採用したりできるようだ。 それ登場して即使ってみたけど
弱くなるだけだからあんまり意味なかった >>130
あぁ、絶対値で大きいほうを採用=それ以上大きい評価値は生成されないってことか…。 >>128
ですね。elmoのアウトブリードでelmoより強いんで、配合素材として優秀で重宝してます。 >>133
ありゃりゃ、そういうことじゃないんですね。
ダメだな。算数ニガテだ。 評価関数ブレンドも1回限定の
評価値補完の手法にすぎないということなのかな、結局大本の評価関数は大量の局面を用意して学習させなきゃだめと 高品質の教師局面を効率的に大量に用意するゲーム
ブレンドもその一環 elmoの手法が標準的になるってことは独自路線だった古豪ソフトもトップクラスに復活するってことなのかな? 4スレ0.1秒
mafu + rezero8
勝ち124(62%) 先手勝ち72(72%) 後手勝ち52(53%)
relmo8
勝ち74(37%) 先手勝ち46(46%) 後手勝ち28(28%) >>137
できがいいけど金と時間がなくて学習が甘いソフトが強くなるな >>138
それじゃなくて
mafu+rezeroとmafu+relmoの対戦を試さないと
その結果は当然かと 3駒以上の新しい評価項目の発掘が今後の課題やな
NNから評価項目抽出できたらええんやけど >>142
R4000超えてるからねぇ。まず勝てない。 >>142
試しにrelmo8と去年の技巧を飛車落ちでやったらrelmo8が勝ったわ 短時間なら浮かむ瀬相手に飛車落ちで勝つことはあるけど、きちんと時間持たせたらどうだろうねえ 駒落ちについてはあんまり語らん方がいいと思うけどね
駒落ちでもたまたま動いてくれたし、たまたまかなり強かっただけで、平手の強さと駒落ちの強さの関係はそのソフト次第でしょ
駒落ちでの挙動や強さにはなんの保証もないし ちょうどrelmo8 + まふ評価関数の対戦してたけど
テンプレ埋めるのだるいから貼るのやめます(´・ω:;.:... 情弱丸出しなこと聞くけどまふ評価関数ってmafu.7zって方?
それとも_.depth.x.7zって方?
ブレンドに使いたいんだけどどっちか分からん >>150
>現在「mafu」(まふ評価関数)のブレンド相手の情報募集しています。
とあるから、mafu.7zの方だと思ってるけど 磯崎はまふとrelmo対戦させたりしてないから分かってないのかな?
定跡なしでもrelmo超えとるし そういえば、むかーしPonanzaとかいう非公開ソフトがあったような気がするが記憶にないわ mafu.7z + epoch8 が現状最強ということか
なんだか日替わりで最強が入れ替わってないか? >>155
千田がまふ評価関数を部分的に歪んでいると言っているのも念頭にあるのでは スマホと言えど技巧はやっぱり強いな
勝勢になったのに100手以上粘られた FRCが一番わかりやすい例
Fischer Random Chess
この変則チェスは、1996年6月19日にラプラタで発表された。フィッシャーの目的は、
序盤定跡の記憶や準備に頼らず、創造力と才能で勝負が決まるようなチェスの変種を作ることであり、
そのためにチェスの初期配置をある一定の条件の下にランダム化した。
CCRLにもあるし
フィッシャー有能 やねうら王のソースを眺めていたら
// 精度の良い評価関数ならばこの幅を小さくすると探索効率が上がる
// やねうら王のKPPT(Apery WCSC26)ではStockfishのまま(18付近)がベスト。
という項目が2017-early-search.cppにあったから
今の評価関数(まふ+rezero8)なら幅を小さくすると強そうと思って15から3刻みで色々と試したけど
6まで下げても0.1秒200局で互角だしあまり変化はなかった
流石に探索部には素人が手軽に強く出来る部分は残っていないのね・・・ >>165
depth 5以上でないと利いてこないパラメーターを0.1秒対局で計測できるわけねーじゃん 3スレ2秒で計測し直す
とりあえずパラメータ6でスタート まふは歪んでいるの?
それなら人の棋譜解析にはrelmo8使っておくか。 まふは歪んでても強いという棋風を味わえる。
電王戦トーナメントで優勝するソフトはelmoから+300〜+400上げないとならないのかもしれない。 relmoに勝ち越せるブレンドはできたんだけど、今度は技巧2にやや負け越すようになってしまった
負け方が大反省ばかりなので、技巧に見えてこっちに見えてない筋がけっこうあるみたい
技巧の血が欲しい(吸血鬼かw) なんだかんだ将棋ダビスタはrezeroとelmo系の第一世代のイブリードしか上手くいかないことがほとんど。 >>177
まぁ実際はそれだろうな
自分で320勝250敗とか労力&時間を費やしてたら、「勝ち越せる」なんて軽いフレーズで流さないからね
驚くほど少ない対局数だろうことが容易に推測できる 最新のリゼロとelmoを混ぜるとelmo+R300ぐらいになっているんだろうか・・ 計測が追い付かん。
relmoの他にも、技巧2との勝率も出した方がいいんだろうが そういやここで統計を書くと必ず「そんな糞スペックでは意味ねーわ」というレスが付くので、スペックを書きたくなくなるのは分かる
実際問題NPSだけが大事なんだから、糞スペックのヤツはこうやって見栄を張るといい
NPS平均1000kのPCで3秒対局
ここに貼り付ける時は「NPS3000kのマシンで1秒対局してみたんだが・・・」
嘘だけど、実際無問題だし、見栄も張れるしこれでOK 「もうやめて、Ponanzaのライフはゼロよ」
状態だな
まふ神降臨
第5回 電王トーナメントどうなるんだこれ >>182
同じNPSでもスレッド数少ない方が強いんでしょ?それじゃ過小評価でしょ
そもそも低ノードでは〜って言い訳にはなってないよな
短時間で弱いっていう事実が残るだけで >>183
電王トーナメントはやねさんの言う通り大規模じゃんけん大会になるだろう じゃんけんでお金もらえても誰も損はしないけどなw
まあ頑張ってた人は気の毒ではあるが まあ山本もいずれはponanzaもそうなるって言ってたし
こんなにも早いとはおそらく誰も思わなかったろうけど じゃんけんってのは実力拮抗して運次第って意味?
そうはならないよね。最近数週間、数日の進歩をみてると R4200が基準としてなんだかんだ言って、やねさんや平岡さんなど強豪ソフト開発者はR4300クラスのソフトをぶつけて来るんじゃない? 平岡や磯崎も焦ってると思うよ
まふさんの評価関数は最強! プログラミングする人とチューニングする人それぞれがタッグを組むのがやはり最強か。オープンソース化した効果で凄まじい勢いだ。
いよいよポナンザの山下兎ペアもアドバンテージがなくなってきたか? floodgate復活したら4000超えで安定する世界になってそう?? 例年通りだと10月くらい?
まだあと3ヶ月もあると更に足切りライン上がりそうだが。 時間を掛けた計測の最中に
その評価関数が時代遅れになっているの悲しすぎ
まふ+rezero8評価関数 NPS1300kN/s 秒読み2秒 115局時点で
53勝 delta = Value(18);
56勝 delta = Value(30);
30に増やしても特に弱くなる様子はないみたいだ
(delta = Value(6);や(9)はあからさまに弱かったから増やす方向で計測した)
対局数116 先手勝ち57(52%) 後手勝ち52(47%) 引き分け7
mafuzero8 delta = Value(18);
勝ち53(48%) 先手勝ち28(50%) 後手勝ち25(46%)
mafuzero8 delta = Value(30);
勝ち56(51%) 先手勝ち29(53%) 後手勝ち27(49%)
誤差レベルだから1000局指しても有意な差は出ないかもしれない
まふが更新されたから何の意味もないデータになってしまった😇やる気ゲージは既にゼロ >>194
レートは相対的なものだからみんな同じくらいの強さだったらレート低くなるんじゃね? まふ10が強くなりすぎて既存のリゼロやレルモなどと混ぜてもかえって弱くなる >>200
まふ10は序盤だけじゃなくて終盤も強いの? 適当すぎて笑うわ
実際のところ強くなりすぎてどころか強くなってないけどな
野生の読み太とずっと4スレ5秒(1手1200万ノード程度)で対戦させてるが(まふの推奨どおりgithubにある定跡ありで)、
野生の読み太に比べて有意に強いとはとても言えない成績(それどころか今のところmafu10は負け越している)
まぁまふのgithubにも書いてあるが、mafu10はひとつ前の評価関数よりもレーティング的には低いくらいだよ
R4200も確実にない コロコロ言うこと変わるのは相変わらずだな。まぁ実験を繰り返すのは悪くない
超短時間のレート計測らしいから2秒とかでどうだか >>203
その持ち時間じゃ有意にも何も100局も指してないでしょ
具体的に何局指して何勝何敗なのよ? そのうち「elmoとハム将棋を配合すると面白い配合になって強くなる」
とかいう事例が出てきそう mafu10について
もの凄い反響ありがとうございます。すでに短時間対局で2800局程度の情報を頂きました。
それによりますと前回の「mafu」よりR30程度弱くR4100程度であるという計測結果です。
今回の評価関数は「教師局面生成用評価関数」という位置付けで作成しています。
具体的な違いは?と言われれば「mafu」+「mafu10」の配合でもレートが少し上がります。
これは出来るだけ正確な教師局面生成が出来るように評価パラメタの配分にこだわった効果で、次に学習した局面の特徴を捉えやすくするためです。ですから10人が「mafu10」から評価関数を作っても特定の評価パラメタにハマリにくいので、いろいろな評価関数が出来ることが期待されます。
さらに通常、学習で特徴を特化(過学習)してしまった評価パラメタを慣らすには、前に学習した教師局面と混ぜて再学習等行うことが必要ですが、この「mafu10」では評価パラメタが抑えられている(まふ評価関数は何故強いのですか?で私が書き込んだようなrezero系配合のような例外はあるが)ので突出した新しい評価関数と上手く配合するだけで慣らしが出来ます。(再学習を何時間もやるより超高速) 奴の型は有限なれどその組み合わせは甚大
無限に等しい数に及ぼう
キメラ化した世界についていけない >>207
win10pro
CPU_i7-6700K, MEM16G,
thread=4, own_book=on(mafu10はプロジェクト3学習用定跡、野生の読み太はオリジナルの定跡使用), hash=4096, byoyomi margin等はすべて0, 当然ponderもOFF
1手5秒
野生の読み太 44勝(64%) mafu10 24勝(35%)
局数が少ないから200局指せばここから互角近くまで戻す可能性はあるが、少なくともここまで離れてしまったら、現時点でも野生の読み太に比べてmafu10が有意に強いとはいえない、くらいは言えるでしょ
ちなみにrelmo,yaselmo,rezero8,mafu_project2等でも対戦結果を計測しているが、このPCで他所の結果とほぼ整合性が取れている
1手5秒計測で、50局以上計測した上でここまで離れた成績が数百局後に反転するなんてまず無い レート計測に異なる定跡をつかっちゃダメでしょ。
互角局面集、もしくは定跡を揃えるか定跡なしで計測するべき それで、どの流れを読むと教師局面生成用の定跡でソフトの強さが測れるか
説明していただけますか? 214 215 ですけど 211 への書きこみです。すみません 2800局のデータを集めたまふさん vs 100局にも満たないイキリオタク まふさんgithubにまともな対局の結果がでています ソフト界発展のためには、進歩早いほうがいいですし
一般の人に協力してもらうのもいいと思います
定跡はオフで対戦すれば評価関数の強さをたしかめられますね 進歩が早すぎるというほど早くはないだろ
せいぜいレーティングがelmoから50程度上がったくらい
アルファ碁の成長から見たらクソみたいなもん しかし圧倒的な棋譜不足から自己対戦での強化方法が確立したのに、また質の高い棋譜が必要とされるとは皮肉だな もうまふ定跡載せてキメラ化した状態が一番最強だと思えてきた。
フラゲ復活はよ 技巧2はなにこれ意味わかんねみたいな手が少なくて、筋のいい正着手を示してくれるから良い。
俺も技巧2がいいと思う 常に最新最強のソフト追っかけてる人の気持ちが分からん
コレクターの自己満的な感じなのかな?
研究検討に使いたいなら、追っかけてる時間があれば既存の技巧2なんかで研究検討してた方がよっぽど時間の効率がいいと思うんだが ソフトによって局面の過大評価、過小評価あるんだから複数の評価関数使うだろ普通は
最新ソフトもダウンロードして研究検討すればおk 強さが分かってるソフトならいいけど、
強くなってるか分からない、強くなってたとしてどれくらい強くなってるのか分からないソフトを落としたところで無意味だと思うけどね
強さの評価を自分でやるならやっぱり時間がかかるし、詰め将棋の一問でも解いてた方が棋力向上になるかと
最新ソフト追っかけてる人は、棋力向上諦めて自己満、コレクターに走ったとしか思えない
まあその人らのおかげで、ソフトを効率良く取捨選択できるんだけどw 強くなってるなら無意味じゃねえだろww
無意味の意味分かってる?ww
時間だの効率だの言う割には2ちゃんにゴチャゴチャ書き込むんだな(笑) コンピュータ将棋のスレでわざわざ人間の棋力(笑)について語る時点でコンピュータ将棋の追求を諦めて、自己満の棋力オナニーに走ったとしか思えない >>234
コンピュータ将棋スレでそれを言うのは場違いにも程がある(笑)
このスレはお前みたいに自分の棋力向上や研究してる人たちだけじゃないんだよ。 適当なランダム手ではなくε-greedy使ってる開発者はいないのかな このスレの住民は
1 競プロ的に楽しんでいるプログラマ
2 ダビスタ的に楽しんでいるちょっとPCに詳しい人
3 棋力向上のためのコンピュータ将棋研究家(笑)
4 ソフト指しのためのソフト探し
こんなところだろう。話が噛み合わないのも当然だな。
コンピュータ将棋研究家がフルボッコにされているので、隔離用にコンピュータ将棋研究スレというものを建ててもいいのかもしれない。 コンピュータ将棋研究スレ [無断転載禁止]©2ch.net
http://mevius.2ch.net/test/read.cgi/bgame/1499638034/
suimonさんのために専用スレ建てたんだよな。みんなでこっち使おうぜ。 >>239
適当なランダム手を確率的に入れて、それ以外では評価値の最大のものを使っているんだから、ε-greedy みたいなもんだろう 立てるのは自由だと思うがスレタイが分かりづらいと思う。
「研究」という単語が入っただけじゃ分からん。
棋力向上とか戦略研究とかそういうワードを入れるべき >>243
なるほど、そういうくすぐり方をしないとだめなのか。某ブログのタイトルパクったのがミスだった。 ソフト使いたいだけの輩がソフトの進歩に少しでも貢献してる人を馬鹿にするのって
自分は募金しないくせに募金してる人を偽善者呼ばわりする輩にも似て不愉快だな 今のところmafu.7zとrezero8の組み合わせが
単純な配合では一番強そう ブレンドが強くなる道だとしたら競技性が成立するのかって疑問がでてくるよな。
下手したら独自性のルール違反のが最強ソフトになる可能性もあるわけで。。 最強まで来れば最強である事が独自性だから問題ないと思うが
入賞ラインにどの程度の独自性を持ったソフトが入るかは分からないね
非やねうら王ライブラリのソフトが決勝進出まで行ったらそれだけで凄いという状況でしょう今や スレッド6 1手2秒 で定跡なしの100戦だけだけど技巧2と対戦させてみた。
mafu.7z 対 技巧2 77 0 23
relmo 対 技巧2 72 0 28
mafu10 対 技巧2 81 0 19
参考程度に >>249
relmoは2スレ0.4秒でもそんな感じだな
nozomiとやるとrelmoとまふで差が出るかも 他系統な自己対戦をしたいんだけど、技巧2も弱すぎるのがなぁ
ひとまずnozomiともやってみるか AlphaGoの成長と比較するのはお門違いだろうよ 今やっている竜王戦
丸山41手目をやねうらエルモは▲33銀成がいいというんだが、そのあとの変化△78桂成▲43馬まで進めると思考停止してしまい正しく読み筋が表示されなくなる
これはバグなんだろうか
先手後手どっちを持っていても、一手進めると回復するから実戦で致命的な欠陥にはならないのかもしれないが、ちょっと不気味だね 魔女や技巧は読み進めるようだからこれはやねうら王のバグかな
やね先生お願いします うちではShogiGUIで候補手3手以上にすると思考が止まる?模様
読み太、技巧、魔女は候補手3手以上指定しても問題ないみたい
棋譜は竜王戦の中継サイトにあるよ >>256
たぶん、環境やオプションに関係なく再現できるので、やねうらエンジンの特性に起因してると思います
棋譜は
http://live.shogi.or.jp/ryuou/kifu/30/ryuou201707100101.html
で40手目の局面から検討モードにして
▲33銀成△78桂成▲43馬としたところで発生します
△78桂成の局面では▲43馬△62玉▲54桂△同歩▲44角...と読みが正確に表示されるのですが、
▲43馬の局面で読ませると思考深度が△62玉▲54桂と2/3で止まってしまい終わりです。 >>259
解決しました
既出でしたね
ありがとうございます >>262
お前も次からリンクぐらい貼ってやれよw ついでで質問して申し訳ないけど
>あと、MultiPVを2以上に設定しているときは、fail low/highしたときに読み筋を出力しないようになっている。Stockfishがこうなっている。…
この仕様の元やねうら王は出力しないというわけなの?
将棋所で>>260試してみたけど、MultiPV2では動いて、MultiPV3では出力しないようだけど
上の記述の実際は、MultiPVを3以上に設定しているときはってことなのかな? >>260
>やねうらエンジンの特性に起因してると思います
そんなことはないです
>>256の指摘はもっともな指摘です
あなたのトラブルは環境を晒せばすぐ解決するような簡単なFAQレベルのトラブルに過ぎないと思いますw >>264
> MultiPV2では動いて、MultiPV3では出力しないようだけど
お前にとっての「動いて」がどういう状態なのかわからないし、
お前にとっての「出力しない」は何を出力しないというのか どれくらい強くなったかの検証に時間を割くよりも、研究やら詰め将棋やらに時間を割いた方が棋力向上になると思うんだけどなぁ
強いソフト追っかけて、高スペで動かして、FGで1位になって。でも将棋の内容は分からない、だったらなんのためのソフトなのって話。
実際、このスレで県代表狙える人ってどれくらいいるのかね。興味ある あなたが棋力向上を目的としてるなら、このスレは合ってないので>>241へどうぞ >>264
私のはオプションの検討モードをオフにしていたのが原因でした
オンにしたら読み筋が正常に戻りました >>267
楽しみ方は人それぞれだってーの
お前の楽しみ方を他人に強要すんなよ
将棋ソフトの開発者は自分が将棋に強くなるために将棋ソフトを作っているのではない 何か見落としがあるかもしれないけど
ひとまず王手掛けられたときに、詰みにならない逃げ道がMultiPV未満の場合に
思考停止(ノード探索数が数百程度から増えずに、思考時間ばかりが経過する状態)
することがある様子
GUI:将棋所とShogiGUI
将棋エンジン:やね4.72
エンジン設定項目:MultiPV(や候補の手数)を2以上にすると再現する模様
再現可能な局面の例
http://kyokumen.jp/positions/lns1k2nl/1rg2G1b1/pp2pSppp/2pp1p3/9/9/PPPPPPPPP/1B5R1/LNSGKGSNL%20w%20- >>266
MultiPV=2では思考が継続されて読み筋が出力され続けて
MultiPV=3では思考が止まって読み筋が出力されていない
ように見えるというようなことを言いたかった
>>269
検討モードオンオフ関係なしにMultiPV=3以上(ShogiGUIでは候補手3手以上)でも思考が停止するようです 検討モードをオンにしたら読み筋が表示されるようになったのは見せかけでした
思考が停止してしまうことに変わりありませんね
>>273の局面で誰でも確認できると思います
既出ということのようなので気にしないでください
私には解せないですが この一手ということが明らかな時点で思考を停止するのかな
この一手が指されたあとにじっくり時間をかけて読めばいいんで実戦では実害ないですね
むしろ、読みを停止したのなら停止したことが分かるほうがいいので、検討モードをオフに戻しました
検討モードは雑な読み筋を出力するだけなので >>276
思考停止するわけねぇだろカス。思考停止してるのはお前の頭だわ さすがやね先生仕事が早い
おまいらもFAQレベルと簡単に切り捨てないでサクッと検証くらいしといた方がいいぞ
開発者本人はこの手の質問多くて面倒だろうから検証せんでもでいいけどここはデバッグスレみたいなもんだし PV1で使う人が多いからこそ
ずうっと放置され気付かれなかったバグなのかねえ だからテンプレに沿って回答しないと再現してくれる有志が出てくれるまで待つことになるだろ
使用方法を理解しているくらいは証明しないと fc2でよっちゃん4が公開されてたんで早速マイキメラと戦わせてみた
マイキメラ- 6勝 引き分け-1 よっちゃん- 3勝
どやっw 検討で重要なのは中終盤だから
初手から対局させて勝っても検討精度が高まるわけではないよね よっちゃんの評価関数作成主も何を目的としてるのか分からん ・自分の棋譜の解析、悪手敗着の発見
・序盤や難所での指し手の研究
のために、将棋ソフトを使ってみようと思い、PCを買いたいと思うのですが、
あまりお金が無く、
(セレロン、メモリ4GB、HDD500GB、WXGA)+αくらいのノートPCくらいを買うつもりです
そこで+αの部分で、性能を上げるなら、
セレロン→Corei3、メモリ4GB→8GB、HDD500GB→SSD128GB、WXGA→フルHDの
どこを優先させるべきでしょうか?(予算的にこのくらいが限度)
WXGAでもGUIの候補手や読み筋は充分見られるでしょうか メモリ4GBだとソフトは同時に1本しか回せない感じでしょうか? >>285
研究に使うならメモリ4GB→8GBかなぁ
4GBだとソフト起動時にエラー出ることがあってストレス溜まる
将棋ソフトはCPU負荷が高いのでできればセレロン→Corei3も欲しいところだけど、
今はスマホで名人に勝てちゃう時代なので、アマチュアが研究に使う分には
多少のスペック差なんて誤差の範囲という気はしなくもない
画像解像度は2chを見るのに不自由しないなら十分すぎるぐらいかと 某所コメントの対局数12戦でワロタ
ここにも勝率だけのコメントがよく書かれるけど、絶対に信用しない方がいいなww
やっぱり素人でもきちんと貢献できるfishtestはよく出来てると思う
fishtestまでいかなくても、対局数・時間・スレッド数書き込み必須の報告掲示板?コメント欄?みたいなものなら簡単につくれそうだが 質問者がFAQを読んでなかったのは確かなんだし、細かいこと言うなよ >>287
ほんと軽く調べるだけならマジでスマホで十分だな
将棋中継でソフトの読み筋表示してる時あるけど、手元のスマホで検討させてもほとんどの場面でそんなに大きく違わないし 初歩的な質問ですみません
エルモ-shogiGUIで検討しながら手を動かして
既に検討した局面に戻った時また1から思考し直すけど
検討済みの局面の検討結果って保持出来ないのでしょうか? 検討結果を分岐に追加するのでは駄目なの? もしくは検討結果をコメントに追加 >>296
ありがとうございます、pcから離れたので明日試してみますm(_ _)m 暇だからmafu.7zと大樹やらせたら99勝1敗になってほんとにR800離れてるんやなって
人間じゃないわ >>287
どうもありがとうございます
神の一手を知りたいわけじゃないから、セレロンでも充分ですかね
今のソフトだとAVX2とかよく分からないけど、
セレロンでも新しければ取り敢えず大丈夫なのかな >>285
AVX2に対応したCPUと16GBのメモリ
というやねうら王最低限仕様のパソコンなら
後は何でも良いのでは
それで安いのはレノボしかないと思う まふ評価関数じたいが強くない
elmoにどれだけ勝つか不明だけど定跡入れれば勝ち越せるでしょうが
定跡オフだと強くないですよ
ということはですねエルモに定跡入れれば強くなるわけですから まふ評価関数にそのエルモが強くなる定跡を組み合わせればもっと強くなるんじゃないか? ザコンザが今更公開されたところで何もインパクト無いものになってしまったなw
雑魚ソフトは雑魚ソフトで非公開で俺王者(笑)してればいいわ(笑) uuunuuunさんのレート計測方法ではmafuはレート4000くらいになるのじゃないか まふさんのアプローチは驚嘆しました。
実験で強く出来ない場合も多いでしょうけど継続して強い評価関数作られてます。
そして手入力の定跡作成。
まふさんの存在は将棋ソフトの向上を加速していますね。 【エンジン】やねうら王4.72(mafu+relmo8(50))、やねうら王4.72(mafu+rezero8(85)) ※()は配合比率
【勝敗】対局数400 先手勝ち164(42%)後手勝ち221(57%)引き分け15
mafu+relmo8(50)
勝ち193(50%)先手勝ち84後手勝ち109
mafu+rezero8(85)
勝ち192(49%)先手勝ち80後手勝ち112
【持ち時間】1手2秒
【CPU】Intel Core i7-7700K 定格 (HT ON)
【OS】Windows10 64bit
【メモリー】32GB
【思考条件】Threads=8USI_Hash=1024
Hash=1024定跡=まふ定跡ver11
詳細
https://github.com/mafu-opening-theory/Shogi_opening_theory/blob/master/まふ定跡(Apery形式)エンジン設定等/エンジン設定(参考)%20やねうら王early.txt mafu50%+relmo50%が最強らしいからアップロードしてみた
知り合いとかに配るのに使ってくれ >>307です
mafu+relmo8(50)はmafu(50%)relmo8(50%)
mafu+rezero8(85)はmafu(85%)rezero8(15%)ということです やねうら王、リリースでアップに移ったか
ソース落とすのも軽いしexeも見つけやすいし、なぜ今までやらなかったレベル ■手持ちの最高レート評価関数だと角換わり定跡が死んだ
プロ棋士の方とかは結構気になるかと思いますので書いておきますと、
R4100付近になってくるといままでの定跡がいろいろ使えなくなりました。elmoとは互角だった局面で−300とか出して来たり、
浮かむ瀬時代では無理攻めだったのが成立したり。完全に作り直し状態です。
↑プロの序盤がだいぶ変わりそうだなあこれ。 7月16日(日) 午後11時00分
BS1スペシャル「名人VS将棋ソフト 最終決戦〜密着・電王戦〜」
去年、羽生三冠を下して名人位を奪取した若き天才・佐藤天彦名人。
勢いに乗る佐藤名人は、今年春棋士相手に負け知らずの最強将棋ソフト「ポナンザ」と電王戦二番勝負で対決した。
将棋ファンの期待を一身に背負って戦いに臨んだ佐藤名人だったが、結果はポナンザに圧倒的な差を見せつけられての2連敗。
棋士の頂点に立つ名人がなぜソフトにまったく歯が立たなかったのか?
佐藤名人への長時間インタビューを元にその真相に迫る。
【出演】将棋棋士 九段・名人…佐藤天彦,【出演】将棋コンピューター開発者…山本一成,【語り】岡本信彦
http://www4.nhk.or.jp/bs1sp/x/2017-07-16/11/17021/3115183/ >>313
プラス1000のレートの世界でやっとわかる善悪だろ
それ、人間界でどうこう生きるもんなのかね
人間界は振り飛車でタイトル持ったり争ってる世界だぞ >>314
NHKスペシャルが題名変わって将棋要素が少なくなってがっかりしたが、こういう事だったのか
1週間放送延期した理由もこれか >>315
どの世界でもそうだけど、トップの技術を見て
徐々に下位に浸透していくから意味はあるんじゃないかな >315
プロが居飛車優勢になってもアマじゃ相変わらず振り飛車人気みたいなもんかな 将棋ソフトも評価関数もtorrentで配布しようぜ 江戸以来のプロの居飛車・振り飛車比率と
評価値による微妙な差と一致する凄さ?集合知? やねうら王以外のソフトの進捗って聞こえて来ないけどどうなんだ?
ステルスで開発している上に、やねうら王から情報吸い放題なんだから
理屈の上では全チームやねうら王以上の強さになっててもおかしくはないんだよな? >>285
AWSで超高性能マシンが1時間百円で借りられます まふ関数乱発で検証しきれませんw
なぜタヌキにしたのだろう まふは2つ出てるけど検討にはどちら使おうかw
まふのレートは4050くらいか nozomiの作者さんも強くなってるかもわからんのにAWSに課金して自己対戦するのがしんどいって話してたから
全部公開する代わりに計測に協力してもらうって言うのは正しい方向なのかな >>330
AWSのWindows環境ならいま公開されてるソフトは何でも動く
AWSのLinux環境ならLinuxに対応してるソフトしか動かん >>331
なるほど、AWSやGCEで動かしてる人はwindows環境使ってるんですね
私は以前にGCEのlinux環境でやねうら王学習させようとしたんですが動かなくて、、 >>332
Linuxの方が安く済むので根性ある人はそっちでやった方が良いよ
shogigui含めて全部Linuxで動く >>333
linuxのしかもコマンドラインだけだとlinux初めて触るものにとってはちょっと厳しいですかね
やねうら王もmakeにlinux用のビルドとかあったりするんでしょうか >>285
2コアセレロンは普段使いでもキツイ。
せめてcorei3か、4コアセレロンにすべきかと ノートパソコンなら国産の割高ノートだと
同価格のスマホやAndroidタブレットの方がNPS出たりするからね R4300かもしれない組み合わせ情報※検証結果求む
やねうら王 公式サイトにこんな情報が書き込まれた※最強の組み合わせは「mafu10」50%+「野生読み太2」50%だそうです。
「mafu」50%+「野生読み太2」50%が「elmo」に対して勝率70%以上だそうです。しかもその組み合わせに「mafu10」50%+「野生読み太」50%は勝率70%ととんでもない強さらしいです。情報提供者のPCはi7-4790K及びRyzen7 1700と非常に高性能スペックの持ち時間5分1手10秒だそうですから、1手当たり4000万ノード以上の計測となりますが検証結果求む。
上記は相性かもしれないが、「mafu10」50%+「野生読み太2」50%が「elmo」に対しても勝率70%以上となっているそうなので、R4200程度はありそうだ。私自身も「mafu10」は定跡使用でR4200までは確認しているので長時間対局になりますが、検証の価値有りと判断しています。
キメラ配合のやり方が分からない人もいるかもしれないので、検証プロジェクトにて上記配合したものをアップロードしておく。
学習用定跡作成プロジェクト開始 まふさんってのはアマ強豪なの?只者ではない感じだけど >>337
12局x5セットって書きこんでるけど
その理由が
大会では多くても20戦ぐらいしか対局しないので20戦過ぎて勝率が上がるエンジンが存在していたとしてもあまり価値が無いと思います
と意味不明な理論持ち出してるけど、合ってるのこの理論 フラゲ復活したら地球編からナメック星編へと遷移したDB状態になりそう どうせならR基準ソフトも2800から変えたほうがよさそうだけど適当なものがないのかな 対局時の勝率が今までの対局数に依存してるみたいな言い方 >>340
意味不明な理論ですね。たとえば100戦やって54%勝ち越したするとそれは有意とはいえない。
この場合は400戦行う必要がある。 是非とも千田先生に千田定跡と千田評価関数で電王トーナメントに賛成して欲しい ここ一番で7戦やって4勝出来ないやつはその後何連勝しても意味はない
みたいな発想? 10秒60局なら0.1秒600局の方が
10分の1の時間で済む上に余程信頼出来るぞ
持ち時間を増やしたら対局数を減らしていいとかないから >>347
> 10秒60局なら0.1秒600局の方が
> 10分の1の時間で済む
算数すらできない奴が何言ってもな・・ 12戦だと10勝して参考になるかどうかというレベル
12戦全勝なら文句なしに強いと言えるけどね mafu10と野生の読み太2を50対50で混合したものと、elmo_wcsc27を、4スレ 一手5秒、探索やね(まふ野生はv4.72、elmoはwcsc27用v4.53)elmo定跡使用、BookMoves200の同じ設定で100局対戦させて、まふ野生側の64勝36敗で、レーティングは4061です。 >>347
一年前はそういわれてたけど、最近は棋力の時間依存性が問題視されててね...
まあ10局とかじゃ殆ど意味がないのはその通りだけど >>351
少なくとも短時間での棋力差は正確に測定出来るから有用だと思うけどね
やねうらおのように4スレ2秒で400局とか計測するリソースがないのなら
素直に短時間にしてその思考時間での棋力差をハッキリとしてくれた方が余程参考になる
流石に60局は論外でしょう 60局でelmoに56-4みたいなありえん強さの評価関数が公開されるはずもないし 0.1秒で何百局なら、0.1秒において信頼の置けるデータが得られる
10秒で60局では信頼の置けるデータはなんら得られない >>355
いやそれは否定される
私も書いてるが仮に60戦やって60戦全勝の場合
勝った側が強くないということはほぼありえない
この事実は信頼性が高い 電王Tなんてここ一番で1勝や2勝できるかって大会でしかないのに
雑魚ンザはそれを理由に言い訳しそう(笑)
ざっこ(笑) >>355
elmo以降のソフトは0.1秒の棋力と長時間の棋力にものすごい差があることがわかったから0.1秒でレート測定は難しい 今、自作でアレンジしたソフトとelmo_WCSC27を約8000万ノードでの連続対局をやっている者です。後日結果報告したいと思うのでよろしくお願いします。 >>356
それはそういう結果が出てから言ってくれ
>>359
だから0.1秒なら0.1秒の比較が正しくできてるってことでしょ
長時間が絶対的な前提である必要性はない >>362
0.1秒のレートとか測定してどうしたいの? >>363
別に0.1秒にこだわってるわけではなく、>>352が言ってるように短時間なら短時間なりの正確なデータが出ると言っている
短時間と聞くと脊髄反射のようにelmo以降は短時間だと〜と言い出す奴がいるが、それは論点が違うぞと
あとは短時間は無価値だってのもおかしくて、短時間のコンピュータ将棋のレギュレーションがあってもいいし
短時間で強いなら、より短時間で棋譜解析できることになる >>364
「正確なデータ」の定義がずれている
ソフトの全力を引き出して出た結果を「正確なデータ」とすることが一般的なので、短時間で出た結果を正確であると論じること自体がおかしい
同じソフトでも一手1秒対一手10秒で対局させれば後者が勝ち越すことは火を見るよりも明らかで、短時間で有意差が出たとしてもそれは「(ほかのソフトに比べて)短時間に強い」ソフトでしかない リルモに勝ち越せるソフト作った人はdownload公開して下さい >>370
野生の読み太とmafu10を5:5ブレンドした評価関数 そりゃ長時間で400局とか指してくれたら神データだろ
100局未満のゴミデータをドヤ顔で貼ってる長時間厨は何を示したいのか意味不明
データとして見て欲しいなら最低でも200局までは粘れよな
本来なら200局でも少ないくらいだが
正確なレート差ではなくどちらが強いか程度の議論では
偏り具合によっては使えるラインではある 最近サイレント・マジョリティがサイレント・マイノリティになってる? 6スレッド 1手2秒
mafuta1 relmo 46 9 45
mafuta2 relmo 60 5 35
mafuta2でmafu10と同じくらいかな http://ii.ttlv.jp/20170711/
野生の読み太作者さんによる蟲毒の壺2
が早朝まで続く模様 >>375
elmoだけ負け越しているのとどのソフトも同じようなもの >>364
残念ながら、0.1秒とかの短時間での強さそれ自体を計測したい人は居ないので。 >>339
麻布高校将棋部出身の臆測。
麻布→まふ elmo
rezero8
yasei2
mafu10
mafuta3
relmo8
yasema10 >>372
まあでもそのゴミが10人居ればプラチナに。
ほぼ同じ環境というかノード数に揃えて、だけど。 >>340
やねさん珍しく優しいよね。
御機嫌なのかしらん。 シーズンでいくら勝とうと日本シリーズ取れないチームは強くないということだろう >>380
測定者が100人いても、その100人が公表するわけではないので、結果の公表が恣意的になりNG >>375
リルモにどのソフトも勝ててないから、新しく作った評価関数はどれも不適格ですね 後手の持駒:歩三
9 8 7 6 5 4 3 2 1
+---------------------------+
|v香 ・ ・ ・ ・ ・ ・ ・v香|一
| ・ ・ ・v玉 ・ ・ ・ ・ ・|二
| ・ ・ ・v銀v金 ・ ・ 龍 ・|三
|v歩 ・v歩v桂 ・ ・v金 ・v歩|四
| ・ ・ ・v歩 ・ 歩v歩 ・ ・|五
| 歩 ・ 歩 ・ ・ ・v角 ・ 歩|六
| ・ ・ 銀 歩 銀vと 桂 ・ ・|七
| ・ ・ ・ ・ ・ 金 ・ ・ ・|八
| 香 金 ・v馬 ・ 玉 ・ ・ 香|九
+---------------------------+
先手の持駒:飛 銀 桂二 歩四
この局面、▲5四桂打 以下35手詰で先手勝ちなんだが、
詰将棋用エンジン以外だと中々詰みを見つけてくれないな
長手数だから詰みまで読めないのか >>314
しこりんがナレーターとはNHKも良く分かってるな 長手数の詰みは汎用エンジンではあきらめろ
そしてこの局面の詰みが読めたからこのソフトの終盤は強い!とかいう理論も聞き飽きた
求める部分が間違っている 現実に存在する棋譜で最も手数が長いのは何手詰めがあるんだ?
100手詰めとかあっても見逃しそうだけど 後手の持駒:桂二 歩
9 8 7 6 5 4 3 2 1
+---------------------------+
|v香 竜 ・ ・ ・ ・v歩v桂v玉|一
| ・ ・ ・v銀v馬 ・v金 ・v香|二
|v歩v歩v歩 ・ ・ ・ 銀v銀v歩|三
| ・ ・ ・v歩v金 ・ ・ ・ ・|四
| ・ ・ ・ ・v歩 ・ ・ ・ ・|五
| ・ ・ 歩 角 ・ 金 ・ ・ ・|六
| 歩 歩 ・ 歩 ・ ・ 歩 歩 歩|七
| ・ ・ ・ ・ ・v金 ・ 玉 ・|八
| 香 ・ ・ ・ ・vと ・ 桂 香|九
+---------------------------+
先手の持駒:飛 銀 歩二
次に▲2二銀打とすれば先手勝勢だが、
何故かソフトがこの手を読めない やっぱりいろいろ試したがまふ10が一番安定して強いように感じる。
技巧2にも8割近く勝ち、対relmoに6割5分程度 詰み探索ルーチン使いまくる終盤長時間検討特化型のソフトの需要はあるけど
やるひとはいない。 >>389
必死はかからないように見えたけど4八金が質駒になってるのか。。 ここ最近の流れを見ていると、狭い世界での最適化に進んでいて過学習してそうで怖い。
それとは別に、短時間と長時間で強さが違うってのは面白いね。局面だけ見て長手数読んだ
時と同じ評価値を返すように学習しているはずだけど出来ていないって事だよね。
めったに無い落とし穴の時も考慮して評価値を返すのが良いのか、それは出来ないけど
だいたいの場合ならより正しい値を返す方が強いのか、って世界になってきている感じかね。 >>389
読み筋が希望に添うか不明ですけど、22銀打のルートは返してきてる様子
*検討 時間 01:12.9 深さ 26/43 ノード数 165221892 評価値 31111
読み筋
▲2二銀打 △同 金(32) ▲3一龍(81) △3九銀打 ▲1八玉(28) △2六桂打
▲同 歩(27) △3三金(22) ▲2二飛打 △4三馬(52) ▲6二飛成(22) △2八銀成(39)
▲同 玉(18) △2七歩打 ▲1八玉(28) △2八歩成(27) ▲同 玉(18) ▲劣等局面 シンプル合議将棋の読み筋 詰探索をやれば多少はマシになるが どうも置換表への書き込みがうまくいってないっぽいんだよなぁ、書き込むんだけどすぐ塗り変わっちゃうというか 雑魚ンザは大会出た後に俺は長期的には負けてないんだーとか子供じみた言い訳しかしない雑魚ソフトだからもう世の中に必要とされてねーんだよ(笑) 5秒対戦の所見たら全ソフトに勝ち越しないようで
mafuta2が一番なのか そこらの最適解を突き詰めた研究ないんか
何秒まで詰めてもまともな評価できるのかとか まふさんのおかげで強いソフト入手できます
電王戦トーナメントの優勝レートの基準がどんどん上がっていきますね >>399
技巧2への勝率だとmafu10が圧倒的だった 蠱毒によると
yasema10とmafuta3が2強で
やねうらお検証によると
mafuta3よりもmafuta2の方が強いと
しかもmafuta2は長時間だと更に強くなるとな
もう追いきれねぇよ >>397
ブレンドで均質化が進むほど異系統が重要に成ってくる。 >>400
研究の前に理論的検討と仮説をたてないといかんだろう。
そもそもどんなに深く読んでもその末端は短時間読みになって、そこの正確さが問題に成るはず。
すると、普通に考えて、短時間で正確で強いソフトは長時間でも強いはず。
すると時間の長短で逆転が生じるのはおかしい。
逆転が生じるのではなくて、正確さ強さの差が強調されて、統計的に強弱判定しやすくなるというだけなのか。
ちょっと話を戻して、強い評価関数は、序盤から終盤までデコボコなく滑らかに有利さを評価しているのが理想的。
そうすれば枝狩りも正確になるし、逆転も生じない。
序盤の僅かな有利を隙無く徐々に拡大して完封して押しつぶす。
そのような棋風の高レートソフト同士の勝負では、わずかな評価関数のデコボコが間違った枝狩りに引っかかると敗北につながる。
弱い方に、そのような間違いをさせて、きちんと負けさせてそれを検出する為には、可能な限り多数回の枝狩りを行わせる必要がある。
それがつまり長時間対局ということではないか?
あとは任せた。 評価関数が正確になるほど細かい局面判断が出来るが、非常に細かい差なので時間をかけないと勝ちきれないケースが出てるってこと? >>407
将棋は悪手を指した方が負けるゲーム。
(不利な側がどんどん不利になる、一手の価値が終盤ほど上がって逆転を誘発するという性質もある)
どちらを主で考えるかだが、高レート同士では悪手率が減るので弱い側を主に考える方が良いと思う。
弱い方がキチンと悪手を指して、強い方に正しくとがめられて不利を拡大され、
観察者に弱い側が負けたという正しい結果を返すには、どうすべきかということ。 mafu10とmafuta2を対戦させてる人いる?
まふさんの評価関数の中で2強だけど >405
実際やってみると短時間(1秒未満)だとelmoに7割近く勝つ評価関数が
5秒でやるとelmoより弱いってことがあってどういう理屈なのかサッパリわからん アピール文が料理のレシピみたいになるのかな。
何々と何々をこの割合で混ぜた、定跡はこれこれにあとは秘伝のタレを少々 まふさんが
「mafuta2」70%+「yasema10」30%
を組み合わせた「yasetamafu70」をアップロードする予定とのこと
この組み合わせで「mafuta2」に短時間だと大幅に勝ち越すようになったと 3駒の表現能力の限界で読みはじめのメジャーな形では差が出なくて読んだあとのマイナーな形で差がついてるだけやろ
傾いたコップにどれだけうまく水を入れるかや
最終的には4駒で学習してた評価関数を3駒の評価関数に畳み込んで使うのが実戦上で最強になるんじゃね だいたい2駒の技巧2でも浮かむ瀬クラスに成長しているのに
3駒の限界がその真上にある訳もなかったな
毎回大会の度に3駒限界説が出るけど何だかんだ成長し続けている ディープラーニングで作った評価関数は既存の探索とは簡単にくっ付けられないの?ポナンザのやつは探索は既存のものだっけ? >>413
やせたまふ70現在計測勝ち越し中
来週にはこれを超えるものをまふさんが公開してくるのでしょうか >>416
そもそもponanzaのは指し手のオーダリングに使うpolicy networkであって、評価関数のようなものではない それはわかるんだけどもvaluenetを作ったとしてそれをモンテカルロ木探索じゃなくて既存の将棋の探索でいけるのかどうか 振り飛車棋風作ってブレンドがいいのかと思いまして
次プロジェクトはそれで >>421
丁寧な言葉でデブをdisるのはやめるのだフェネック > mafuta3兄弟について「やねうら王 開発者」より、なんと6500局もの対局結果を頂きました!(格が違った)
1手何秒かは知らないけど、この短期間に6500局はヤバすぎて乾いた笑いしか出ないわ 何百万マシンに投資してるんだろ
電気代も合わせたら凄いことになってそうだ 後手の持駒:金 銀 桂 歩五
9 8 7 6 5 4 3 2 1
+---------------------------+
|v香 ・ ・ 銀 と ・v玉 ・v香|一
| ・ ・ ・ ・ ・ ・ ・ ・ ・|二
|v歩 ・ ・ ・ ・v歩 とv桂 ・|三
| ・ ・ ・v金v銀 ・ ・ 角 ・|四
| ・v桂 ・v歩v歩v桂 ・ ・ 歩|五
| ・ ・ ・ ・ ・ ・ ・v飛 ・|六
| 歩 歩 ・ 歩 ・ 銀 ・ 金 ・|七
| ・ ・ ・ ・ 金 ・ ・ 玉v歩|八
| 香 ・ ・ ・ ・ ・ 飛 ・ 香|九
+---------------------------+
先手の持駒:角 歩二
後手番
昨日の藤井君の将棋の棋譜からの派生局面だが、
MPV=1の時の上下動がかなり激しかったので上げてみた。
(エルモ+やね4.68、スレッド1で詰みからプラス4桁まで変動した。) やねさんの計測はさすが。
今のところやせたまふ70が最強?
mafu10とmafta2より強いのは凄い やねぐらいマシン酷使してると次のサーバ用CPU出た時に今のマシンを中古で売った方がいいんじゃないだろうか
消費電力ヤバそう デュアルEPYCだと使用率100%でも327Wと
デュアルXeonより高性能なのにデュアルXeonより低消費電力だね
http://jisakutech.com/archives/2017/07/36256 >>430
suimonはやねから買ったとツイートしてたな
次は誰に売るんだ?w >428
すでに4.73やでgithub.com/yaneurao/YaneuraOu/releases 藤井4段vs最強コンピュータ将棋見てみたい気持ちはあるが、当分の間実現しないだろうな >>428
後手に勝ち筋があるケースだから
評価関数は候補の探索順に影響を与える感じかな。
ベンチマーク例としては簡単すぎる気も >>422
モンテカルロ木探索は、評価関数がゴミだからしゃーなしにつかうもんだろう。
精度が高く高速なバリューネット(局面の勝敗確率評価=評価値)ができあがっているなら、
モンテカルロ木探索などせずに将棋のというかstockfish風探索で足りる。 yasetamafu70 対 技巧2
デビュー以来の連勝記録は11連勝でストップ
コンピュータソフトでも無敗の29連勝が再現できない・・・ それにしても、ブレンド素材の評価関数たち、矢倉もしなけりゃ横歩も取らないんだね
相掛かりか角換わりしか指さない。最終的に行き着く先はそこなのかね >>441
そんな序盤の選択はバックトラック自動定跡生成を24時間動かし続けるってのが
将棋プログラムのメインの使用法になるまで全く何とも言えないと思う やせたまふ70っていままで一番強いかもしれない。
技巧2と70戦までやって勝率85% アウトブリードは当てるとデカイな 四間飛車側を持たせて技巧2とyasetamafu70を対局させたら
見た事のない穴熊崩しを披露し始めた
http://i.imgur.com/2UXmkHZ.jpg >>445
いやこういう崩し方は普通にあるぞ・・・ 「yasetamafu70」が「mafuta2」70%+「yasema10」30%
「yasema10」が「mafu10」50%+「野生の読み太2」50%
ということは
「yasetamafu70」は実質、「mafuta2」70%+「mafu10」15%+「野生の読み太2」15%
ブリーダーの職人技が光る 何なのこのブリードって
何で混ぜると強くなるのか判明してるの?
なんかまじないじみてて怖いんだが 一方が過大評価しててもう一方が過小評価してるような局面があったとしたら
混ぜたらちょうどいい塩梅になるとかあるのかな 俺は最初聞いた時、平均顔みたいなものかと思った。
適当に顔を集めて平均するとイケメンになるやつ。
まぁ同レベルの奴集めて丸め込むとミスる局面が減るんじゃないか? お前ら、なにyasetamahuガーとかmahuta2ガーとか言ってんの?w
どれもレート差ほぼ横並びで、誤差の範囲内の勝率なのに必死になって自己対戦してるのいたら笑えるw
どれもドングリの背比べだろw
次の電王Tはponanzaが圧倒的に優勝するだろうなw 適当に混ぜたら強くなるとか黒魔術といいたくなるなw
合議とか最初否定的に見られてたが
アンサンブル効果みたいなものがそれなりに効果出すんだから、リソース増やさずに使えるブレンドは有力な強化法なのか? それはホンマモンのブリーディングも同じだろ実際
新馬セリ6億で1円も稼がずに引退とかw みんなで好き勝手にバラバラにそこそこ強い評価関数をたくさん作って
最後に寄せ集めて平均とれば3駒関係での最強の評価関数が出来る気がしてきた。 ブレンドって悪手率が下がる代わりに関数の平均精度自体は低下してるんじゃない? yasetamafu70 gikou2 81 1 18 こいつは序盤から中盤差し掛かりくらいまでで強い
ソフト選んで何したいんだろう?
https://live.fc2.com/53319816/ 👀
Rock54: Caution(BBR-MD5:e0d4793365125e4bd37cad56cd2ee290) >>389
elmoはなかなか読んでくれないな
技巧2と古いAperyは読んでくれたが浮かむ瀬がなかなか読んでくれない
浮かむ瀬ってAperyだよなぁ >>395
multiPVってあるのか
elmoでも増やしたらすぐ読んでくれたわ 今更だけどuuunuuunさんのとこで飛車落ちの限界レートについて触れてる実験のときのelmo(やねうら王)って、まだ駒落ちバグ抱えてるときのバージョンだよね
どれくらい影響してるんだろうか mafu10 mafuta2 yasetamafuって正直三つ巴に感じる。3駒の限界?
mafu10 yasetamafuより強い mafuta2より弱い
mafuta2 mafu10より強い 技巧2への勝率いまいち
yasetamafu mafuta2より強い mafu10
に今のところ負け越し ponaの棋譜から作った評価関数を配合素材にしてみようかな フラッドゲート復活したら俺が雑魚ンザけちょんけちょんにしてやるくらい強くしたソフト公開してやんよ(笑) bonanzaとかぶるのでのこすのはnzaでなくponaで 強いとか弱いとか言うけど、せめて、何スレッドの設定で何秒将棋で何戦したか教えてほしいわ。 >>414
なるほど…と思ったが、短時間戦でも
差し進めて中終盤になればマイナー局面に成るから
そこで正しく優劣が表れるのでは?
お互い荒い序中盤で、強い側のソフトが運否天賦で中終盤の優秀性を発揮する余裕無く挽回不能に陥り勝率5割になるケースが多いのかね?
長時間戦の方が均衡状態が長く続いて手数が延びる傾向は…ありそうというか、明らかにあるか。
どっかのブログにも出てた。
高レートソフト同士だと256手は短いという指摘があるし、人間でも将棋は100手で決着するゲームじゃなくて、150から200手での決着を想定して時間と体力配分すべきという話はあるような。 >389
Bona6だとこの程度の詰めろ2回ならすぐ詰みまで読むけどな
(Bona6は評価値が325XXとかになったらMate:N、N = 32600-評価値±1) evalmergeを繰り返すとメモリ不足になるね
マージが終わってもメモリ解放されない仕様なのかな? ARM環境はいろいろきびしいので
4.72のevaluate_io.cpp / evaluate_io.hをちょっくらいじって
KPP_synthesized.binを対称性を前提に215806680バイトで扱うようにしてみたテスト
当たり前だが通常サイズのファイルも読める
zipファイルの中身はまんまevaluate_ip.cpp/h
https://www.axfc.net/u/3823976
pass:YaneuraOu
test evalconvert kppt32 eval kppt32 neweval
とかやるとちっこい評価関数に変換できる
なおこの変更を加えると以後生成されるファイルはことごとく小さくなる ai5のYaneuraOuコンパイル通らなくない?
可能ならコンパイル済みのARM用475版YaneuraOuの実行ファイルも欲しいかも 自己対戦の結果貼ってくれる人は>>6のテンプレを使ってくれるとありがたいのだけども NPS(またはコア数) 持ち時間 勝敗 の3つだけで良いよね
OSとかメモリとか要らんしテンプレが冗長過ぎるのが誰も守らない理由でしょう >>475
これってファイルサイズが減るだけ?
使用メモリも減るの? ファイルサイズだけだよん
対称性を考慮すれば使用メモリを減らすことは可能とはいえ
若干性能は落ちるのは明白
なにがなんでもそうせざるを得ない状況でもないし
まあやる気が出ない案件ですわ やねうらお氏によると
NPSの向上でR40上がって、評価関数の失った情報でR40下がるから
トータルでは余り変わらないとか見た気がしたけど
探しても見当たらないから夢だったか・・・
AVXがどうこうとかも読んだ気がしたしリアル過ぎるから夢じゃない気がするんだけどなぁ 強いとか弱いとか言うけど、せめて、何スレッドの設定で何秒将棋で何戦したか教えてほしいわ。 評価関数のファイルサイズはSBCをmicroSDで運用していると頭痛の種
ネットで転送するのも右に同じ 以前から小さくしたかった
できればzipで固めたのを直接読み込めるようにしたかったのだが
楽ちんぽんなライブラリが見つからない yasetamafu70
vs
yasetamafu70のKKP_synthesized.binだけを(mafu.7z+rezero8)のものに入れ替え
https://srv01.bitsend.jp/download/d1884ead604d6d41b61f29a074253abe.html
88-4-108
http://i.imgur.com/hUR7dBe.jpg
(下の名前は他の実験の時のまま変更してなかった)
互角局面集使用
nodestime50に設定した1局10秒程度の超短時間対局だけど参考までに まふさんの野望は一つ
電王トーナメントまで評価関数の情報開示し続けて、定跡を非公開のまま一部の製作者のみに渡し、ポナンザを予選落ちにさせること
私はまふさんを応援します >>486は3スレ0.5秒で試したら
50局時点で純粋yasetamafu70側が勝率6割
流石に超短時間過ぎて参考にもならなかったか・・・ yasetamafu70 mafu10 48 2 50 雑魚ンザは今年は予選落ちだろ(笑)
あっ、もしかしたら恐れをなして逃亡もありえるか(笑)(笑) 最近やねが優しいのは、出回ってる評価関数より数段上手のものを隠し持ってるからだと思っとる >>466
もうrelmoで大樹に飛車落ちで勝ち越すよ elmoより強いrelmoより強いmafuより強いのを開発済みで
電気代回収メソッドの間にお遊びか 出回ってるやつは
同系評価関数同士でぐるぐる回ってるだけで
技巧2やnozomiには対して強くなってないからな まふ系統のソフト同士を4スレッド1秒100回ずつ対戦させてるが、どれも成績が似通ってる
突き抜けて強いのはないという印象 nozomiに95%勝てるようになってからR4300とか言ってくださいって感じ まふさんはレート4300とか検証少ないのに書くのがよくないね
実際4000から4100とかなのじゃないか 技術的理論的な話は昔からガバガバなんでそのあたりはポエムと割り切ったほうが… nozomiは試してないがmafu10もyasetamafu70も技巧2への勝率ベースでR4050前後(uuunuuunさん基準)
relmoもelmo +100は過大評価だと思う。 自己対戦で昨年のより何割強くなりました(ドヤッ
ってのとまふ系統も大して変わらんわけか まふさんによる将棋ソフト貢献度
まふ定跡の貢献 ◎
独自にフリー公開で最強の評価関数作成公開 ◎ uuunuuunさんの基準ってスレッド数バラバラなことの影響は十分検証できてるのだろうか yasetamafu70と
yasetamafu70のKKPをrezero7に入れ替えたもの
http://i.imgur.com/mCpQrFG.jpg
3スレ0.5秒(NPS1500程度)で互角局面を使って300局対局
rezero7のKKPを使った方が勝ち越すというまさかの事態
KK、KKP、KPPの3ファイルはそれぞれ別々に考えた方が良いかもしれない
過去の弱小ブレンドもKKPだけは他に流用すると強いとかもありえる 同じelmo系で強くなったとしても、技巧2への勝率が下がったりするし
ここまでいろいろ出てくると個人じゃ強さや傾向を纏めるの厳しいよね。 よっちゃん10強いなあ
まふ系の評価関数をフルボッコしやがる >>503
定跡は貢献とは言えんな
技巧の序盤の穴埋めとソフトメタドーピングで強くできることを示しただけ
新しい知見も技術も生まれてない
ブリーディングとか関数いじりも、理論体系がないので所詮トライアンドエラー
学習時の定跡の寄与が大きいことを示したのは間違いなく大きな功績 今さっき、やせたうま強いなと感心してたばかりなのに
よっちゃん 圧勝してるなぁ 1戦目だけどw 多分いま配布されている評価関数の中ではよっちゃん10が最強 あ すいません 2戦目 先後入れ替えたら 普通によっちゃんが負けました 野狐で絶芸の置き碁対応バージョンが稼働して、
中国甲級リーグの棋士も二子で歯が立たないとか。
ウォーズもponaの駒落ちbot常駐させればあいのに。 >>511
初心者なんですが
これってelmoと同じようににやねうら王のエンジンで動かせるの? やたらなんでもかんでも公開するのは研究としては良くても競技的に良くない
という話が定期的に出てくる よっちゃん 3秒将棋で51手で技巧2詰ませたから なかなかやる そういえば よっちゃんって ひふみんが羽生につけたあだ名だったわ 技巧の二駒関係評価関数をどうにかやねうら王で読み込ませることできないか? 技巧は系統が違うから混ぜることが出来れば一気に強くなったりとか あとやねうら王で二駒関係の学習出来たりすると嬉しいな 技巧2に8割り勝ててもR4100にも届かないんだね。
よっちゃんはR4100に届くかな。 4スレッド1秒定跡なし100回対戦
よっちゃん9対やせたまふ 50-49-1
よっちゃん10対やせたまふ 49-50-1
よっちゃん10対よっちゃん9 49-51
投了値99999
大体同じ
他にも色々な組み合わせで対戦してみるが マシンスペックにもよるけど3秒にするとよっちゃん方がよっちゃんだと思う elmoとかよっちゃん10とかにしたときの
エンジン名って
エンジン設定画面のところのエンジン名を書き換えちゃっていいんですか? >>530
将棋所では、エンジンのフォルダ直下にengine_name.txtというファイルを置き、その中にエンジン名を書けば変わる。
ShogiGUIはエンジン名を書き換えてOK 蟲毒2だと最上位ソフトは丁度elmo+R100辺りなんだよな
ponanzaに近い位置で団子状態だけども
ここから更に大きく進化とか出来るのだろうか・・・ まふさんもソフト出してすぐ引っ込めたりしない方がいいですよ ベース素材に同じものを使っているかぎり、最高の棋力は全部のベストブレンドより強くなるはずないよね
やっぱこの先は、自分でオリジナルのアウトブリードを作るしかないか うさぴょん作者かデュアルEPYCの見積もりを出したらしい
Xeon勢はうさぴょんに追い越されるピンチ!! ドワンゴも賞金出すからにはソフトの「同一性」をどう判定するかの基準を決めておいたほうがいい
>uuunuuun? @uuunuuun1 10 分前
> 評価関数間の近さを測定するソフトをどなたか作ってもらえないものか。これだけ自作が盛んになると盗作の問題は必ず出てくると思うのだけど。 よしchokudaiさん監修で大会に参加するのに簡単なプログラミングのテストをやろう。 ぴゅう太の日本語BASICにすれ
イースを作った剛の者がいたがw 4スレ一手5秒、互角局面集を使用して対局しましたが、mafuta2(70%)とyasema10(30%)で配合し(カッコ内は配合の比率)、次にmafuta1とrezero8を5:5で配合し、更に、この2つをを5:5で配合して完成です。暫定ですが、今の所4スレ一手5秒では圧倒的に一番強いです。 >>540
逆じゃないの?
たまたま配合率同じになっただけで
盗作疑惑持たれる可能性あるじゃん >>544
レシピが複雑すぎて訳が分からないのでBitSendで下さい<(_ _)>
https://bitsend.jp >>544
「圧倒的」なんて表現使わず、勝敗を書いてほしい 去年の電王トーナメント直後に平岡さんがエイプリーの評価関数とやねの評価関数のdiffとってほぼ一緒っていってなかったっけ?(猿はライブラリー登録されていたので、それを使うのは全然問題ないんだけど
Linux でdiffとればある程度は分かるんじゃない? >>480
NPSが同じでもスレッド数によって挙動は変わるので(逆も然り)、その二つはORじゃいけない
あとメモリの搭載量はいらないにしてもHASHの設定値はいるでしょ >>550
ライブラリ登録されてたのはApery_WCSC26までで、真やねは浮かむ瀬とほぼ一致してたから問題視されてたぞ
電王トーナメントで使った証拠は無いからその後何もなかったが
評価関数の比較するのこれだろ
https://twitter.com/HiraokaTakuya/status/787871913817231360 もっと強くなってるかと思ったが、elmoからR100ちょっとしか上がってないのな
Ponanzaは定跡整備とelmo絞りは殆ど確定でやってるだろう(痛い目見た)し、意外とponaがあっさり優勝するかもしれん 名人とやっちゃったしもうあんま人との対戦に関心なさそうだしponanzaまだやってんのかね? お前らがR100「しか」とか言ってるのが信じられんよ
雑巾絞り以降、ここ一年ちょいの伸びはそれまでに比べれば異常なレベル
それでも半年でR200、一年でR400くらいのペース
elmoの公開が5月だからまだ2カ月ちょいだぞ?
2カ月でR100伸びてたら十分だろ elmoオワコン化はその内来るのは分かってたけどいくら何でも早すぎる
これponanzaでも対応できるのかね リゼロ作ったやねうら王はリゼロバージョンアップでelmo+500くらい
先行ってる よっちゃんという評価関数はどんなものですか?ついていけなくて。教えて下さい。 やねうらおは密かに四駒開発してて電王トーナメントでぶちあげてくれるとおもってる
現在の学習方法集めてるのはそのための布石だと この勢いだと去年までの話は
もはや全部なかったことになるレベルだろw そうなったらポナ元の
「下手したら今後数年最強」
発言がより光るな 電王トーナメントで使われるPCのスペックが分からないから四駒は手を出しにくいでしょう
ドワンゴがメモリを64GBから32GBに削減したせいで、N4Sこと大将軍が急遽三駒に変更した事例があるし
あれはKKPPだったかな? 持ち時間が長いほど悪手が減り、互角で中終盤を迎えるようになる=中終盤力が重要になるってことなのかな?
関係性は不明だけど、最近の大会上位ソフトは終盤力あるソフトが多い気がする。Ponaもelmoも技巧もクジラも終盤強い やねは少し前GitHubの開発メモにPPAP型評価関数の実験について書いてなかったっけ
本気かは知らんが これか。既に黒歴史発言だな
山本一成@Ponanza電王? @issei_y
今年の世界コンピュータ将棋選手権のPonanzaはたぶんめちゃめちゃ強いことになる。過去現在、そして下手したら今後数年の未来までも含めて史上最強の将棋プログラムになるかもしれない。 >>566
16bit化とか飛角だけとか
メモリ節約する方法はあるから問題ないだろう >>571
会社の名前を出して始めたのに一年も経たずに撤退したら、正しくどん判金ドブ >>569
かっけーーーー
次も同じソフトで挑んでほしいね 透。 @co2845229 3時間
yasetamafu70 VS yasetamafu70+ 200局計測結果
一手2秒 yasetamafu70+は一晩追加学習したもの
長時間での結果も気になり一手10秒計測しながら眺めていると
1勝-8勝-1分けで長時間だと更に強くなりそう
https://pbs.twimg.com/media/DEmvDNeUwAA0r2P.jpg
またR100伸びたのか!!
雑巾カチカチとは何だったのか・・・ >>543
あれはぴゅう太の実機で動いてはいるが、日本語BASICではない
TMS9900用のアセンブラで書いてある 黒歴史発言は
囲碁の世界もぶっ倒そうと思っているんで
だろw yasetamafu70+凄いね。これでR4100は越えたかな。
非公開だけどアノニマス+やねさんでelmoからR100以上上がったのは快挙 今現在elomoにこの成績と同等以上になりそうなソフトはどれくらいあるの?
>Ponanza173勝 elomo89勝 4引分 勝率65.8%でした。(対局条件は10秒秒読み・Xeon24core ・定跡なし・クラスタなし・Deep Learning未使用) >>580
最新のやねうら王 + relmo8で同等
mafu各種がrelmo8と同等以上 >>581
実際にelmoと300以上対戦すればわかるけど65%以上の勝率はないよ
elmoに+60の評価関数に対して+60の評価関数作っても+120の勝率が出ずに+50前後だったりもする。
相性の問題が出ているだけで真のレートは選手権ポナの少し下あたりで伸び悩んでる。 yasema10は300局以上指してelmoに勝率66%超えだし
複数ソフトとの対局で算出したレート差でもelmo+R100超えてるから
探索部の強化も含めたら当時のponanzaは超えていそう
http://ii.ttlv.jp/20170711/
蟲毒で検証されていない評価関数はデータがイマイチ信頼できないから
検討用にはyasema10を使っておくのが確実な気がする 長時間になるほどelmoと他の評価関数は互角に近付くらしい。 >>586
だからそのデータを出してくれよ
300局でいいからさ yasetamafu70に升田幸三の勝局集を追加学習させたのを見たいね
それらしい棋譜ができるのじゃないかと シャッフルしたのを幾重にも重ねて学習させるのは駄目ですかね? 546さんへ 配布されている評価関数は、著作権の関係で配布主に無断で勝手に再配布してはいけないと思うので、申し訳けないです。ごめんなさい。
ブレンド出来る人用に書いたつもりです。でも、すぐにより強いのが、まふ先生などから公開されるので大丈夫ですよ。 評価関数が乱立しすぎ
頭一つ抜けたのが出てきたら起こしてくれ 抜けた評価関数が出来ても
すぐにそのブレンド評価関数が乱立するから同じこと
ブレンド無しだとmafu.7zが強いからそれを使えばよい うらおがリゼロepoch9以降を公開しないと始まらんよ 現状だとmafu10、mafuta2、野生の読み太2の組み合わせが最強
これにリゼロ8を混ぜると強いと書いてる方がいたが、うちだとどうやっても弱くなっちゃう Threadripperの価格確定
https://www.youtube.com/watch?v=J3pJ_--nf5E
Ryzen 1950X 16C32T 3.4GHz $999
Ryzen 1920X 12C24T 3.5GHz $799
Corei9 7900X 10C20T 3.3GHz $999
ついに16コアが12万円で買える時代が来たか… >>510
>技巧の序盤の穴埋めとソフトメタドーピングで強くできること
いや、それ自体がすでに十分すぎるくらい立派な知見だし、
新しい技術のきっかけになってると思うのだが。 >>564
やねの意見を敢えて過激にまとめるなら、Bonanzaからelmoまでの12年間は
チェス由来のStockfish探索の導入を除いてすべて結果的には無駄な努力だった、
ってことだし。 >>598
定跡の効能とデメリットについては初めからわかってたことでしょ
定跡という概念を新しく持ち込んだわけでもないし >>599
強化学習(Bonanzaの機械学習とはまた違う)をソフトが導入し始めたのはPonanzaでも数年前くらいだし、現在の主流はBonanzaの全幅探索と正反対だ
流石にそれは吹かしすぎ yasema10はmafuta3に勝ててない、それでいて勝手な推測レートが4200など評価関数として不完全であるね >>603
だから探索についてはStockfish由来の〜と言及してるんでしょ
んで、次元下げとか学習手法については全部無駄で、
KPPTに単純なelmo式で事足りたと 蟲毒の棋譜はNPS3000万で4秒対局だからかなり貴重だな
家庭用PC換算だと1手30秒くらいの上質な棋譜が1500種類近く手に入るとは贅沢な話だ >>540
ライブラリ使用とはポケモンやダビスタのようなプラットフォーム上で勝負をするという意味とイコールなんだから
独自性なんてないと思ったらいい
6Vポケモン作ったら勝ち 4スレッド1秒定跡なし
よっちゃん、まふ系統の全ての組み合わせを
100回ずつ対戦させ、総勝数で順位をつけた
mafuta3 406-383-11
yasema10 405-387-8
yasetamafu70 402-388-10
mafu10 398-391-11
よっちゃん9 395-398-7
mafu 394-401-5
mafuta2 392-402-6
mafuta1 391-403-6
よっちゃん10 382-412-6
結果はこうなった(見辛くてすまん)
マシンスペックや対戦条件によって全然違った
結果になると思うが、参考までに。 >>606
たぶんそれ約3,000,000nps(3百万nps)ですよね? やねうら未来探索をぶち上げた時は
従来のいかなる将棋ソフトの流れも汲まない
とか言ってたけどな
まあネタだけどw まふさんへ質問
ソフトの対戦見てると横歩取り指さないのは何故でしょうか? >>574
キメラではそんなに強くならないみたいですし、大合神シボレーだれか作らないかな。
例えば、クライアントを起動しているだけで、大合神パワーでまふさんが絞った評価関数を作成、公開。
それを、対戦させて結果報告するとか
ちなみに、私はプログラムの能力0です >>602横からだが
実験で検証されないアイデアなんかただの妄想じゃん?
その証拠にwcsc27でまふ定跡の有用性が確かめられるまでは定跡スナイプ戦略なんか全然なかった。そんなに既知であると言うなら、まふ定跡より前の例を示してくれませんか。 ryzen7 1700買おうと思ってるんだが、yaneuraでどれくらいnpsでるかな 将棋ソフトのため"だけ"にPCを買ったりハイパフォーマンスモデルを選ぶのは無駄
AWS借りて使ったほうがいい方がいい
やねみたいな富豪かつケチ臭い人は別 >606
1500でなく2000くらいアルのでは
決着がついたのだけで1913 KifuBaseにブチコム
あと256手と千日手 >614
人間の世界で有用性は分かっていたけれど、コンピュータの世界では昔は質の
いい定跡が作れなかった、ってことかいな >>617
ここ二週間だけで一万円ぐらい課金してるんだけど本当に現物買うよりお得なのか? >>622
読みの浅い段階では▲3四飛を読んでいるけど、深くなってくると途端に「これあかんヤツや」ってなる
そんなに悪い手なのかね?w 学習時の定跡で棋風が変わるなら、リゼロ方式でも学習初期のランダムムーブの手数、割合で棋風が変わるんだろうか >>608
mafuta3 406-383-11 .514
yasema10 405-387-8 .511
yasetamafu70 402-388-10 .508
mafu10 398-391-11 .504
よっちゃん9 395-398-7 .498
mafu 394-401-5 .495
mafuta2 392-402-6 .493
mafuta1 391-403-6 .492
よっちゃん10 382-412-6 .481
よく途中で嫌になって止めなかったなw >>626
丸1日半かかったw
好奇心だけで頑張ったが結果が平凡すぎて
こんなもんかと脱力したわw >>621
20週で10万やろ
4年で100万や
どのスペックでどの程度回し続けるのか考えたら損益分岐点は出るやろ 引き分けはノーカウントにしたけど
勝率51.4%でも約800局信頼区間95%で誤差±3.5%だから、有意差無しだな これじゃあまり強くなってないと言われても仕方ない。これ以上の棋力の向上にはブレンド前の強化学習 でもっと強くするしかないのかな 大会で勝ちたければここに出ているような話を一つ突き抜けた
発想をひねり出さなきゃ無理か。当たり前だが。 自分はちょっと違う実験してるんだけど、完成した評価関数にrezeroのepoch0混ぜてどれだけ棋力が維持できるのか調べてる
mafu10に半分epoch0混ぜても大樹の枝には勝てたりするんだよ、これはどういう風に考えたらいいか?
あと伸びない評価関数にepoch0極少量混ぜたら伸び代が出来ないかなと期待している >>608
これぐらいじゃ誤差の範囲だよな
たぶんもう一回同じ対戦させたら
全く順位が変わると思うわ
あとelmoは基準だから絶対入れてほしいね 初期状態を相入玉のランダムな状態にして学習させたら入玉うまいのができるんかな? 入玉は詰ますのと点数勝負を別々に学習させたら面白そう こんな け゛ーむに まし゛に
なっちゃって と゛うするの >>632
epoch0って評価値0のファイルじゃなかったっけ?
だとしたら、50%でブレンドすると単純に元の評価値が半分になるだけな気がする
ということは、自分の中では全部半分の評価値の中からいいもんを選ぶだけだから、指し手は変わらんのでは? >>608
よく頑張ったな。
ここからさらに強くするには大規模な学習が必要かな >>641
そうか。ポナンザの駒割りも表に出てたから、ポナンザ駒割りでも強いのが出来るんだね。 >>631
次回の電王トナメは同じくらいのレーティングの団子レースになるから
正直勝ち抜けに一番必要なものは当日の運やで まあとにかく一発勝ちゃ勝ちだからな
稲庭みたいな変なのでいってみてもいいのかも >>648
玉以外100とか適等に割り振ってもいいぐらいコマ割りはどうでもよい yasema10対elmoで2秒6スレで300対局の結果
yasema10から見て128-28-144と何故か負け越し。
一方でmafu10ではなくmafuとの混合だとelmoに99-16-85と勝ち越し。
まふ氏のところで上がってる勝率66%のデータは5秒4スレだけどここまで変わるものかな?
それとも互角局面開始(24手?)だとmaf10が定跡強化しているからそちらのほうが効いているのか? 駒割りは意外と重要だけど大きく違わなければ差は出てこないと思う
ponanzaはaperyと違って飛車より馬の価値が高いから、そういうのは影響でそう >>652
評価関数で間接的にコマ割りが表現されてるから気にしなくてええんやで コンピュータ将棋とプロ棋界の歩み
http://qiita.com/tibigame/items/c3566aca81ada69d2c71
elmo以降に何が起こったのか
・Qhapaqがelmo絞りを行いエロ河童となりelmoと互角の力を得た。
・やねうら王がelmo絞りによる評価関数学習用のルーチンを洗練させて野良評価関数が多数育成される。
・ゼロベクトルからの学習をループさせることでelmoと同等以上になることが示される。
・ゼロベクトルから定跡を食わせて学習させることで少ない局面で浮かむ瀬級にできることが示される。
・複数の評価関数を合成させる技術:キメラ合成が解禁されelmoより+100となる合成法が発見される。
・洗練された定跡を用いて遥かに少ない局面でelmo+200以上の領域に到達できることが示される。(この間選手権からわずか2ヶ月) 激指定跡道場4クッソ強いな
yasema10に87-13で勝ち越しだわ 改正版(勝率順)
yasema10 463-429-8
mafuta3 461-428-11
elmo 459-438-3
yasetamafu70 450-438-12
mafu10 449-440-11
よっちゃん9 450-443-7
mafu 438-457-5
mafuta2 435-459-6
mafuta1 434-459-7
よっちゃん10 425-469-6
elmoに勝ち越した評価関数
yasema10 elmo 58-42
mafuta3 elmo 55-45
よっちゃん9 elmo 55-45
最も勝敗差が大きかった対戦
yasetamafu70 mafuta2 62-35-3
以上です。 >>656
どうもです
elmoより強くなったって間違いだったのか?
そして
よっちゃん9>よっちゃん10なの? けっきょくelmoに勝っててレートも高いのはyasema10 mafuta3の2つだけかな。
自己対戦ベースで強くなってても他と戦わせるとそうでもないって言うのはあるあるらしいからね。 ちゃんと初手から指させたら
yasema10とrelmoのどっちが強いんだろう 前にnodchip互角局面を使って6スレ2秒で戦わせたけどもう少し差が出たよ。
それだとelmoのレートが下がると思う。たぶん4スレ1秒だとどの評価関数も精度が高くて差がでない。 >>653
ゼロフィルのepoch0評価関数にランダム値の評価関数から作った棋譜を学習させると
値が付けばつくほど弱くなる、値の付いてない局面は駒割りだけで評価してて、そっちの方が強いから
駒割りが無効化されるほど評価関数の学習が進むまでは駒割りは効いてくる 持ち時間10分一手10秒加算でやったら結局elmoが最強だったり >>660
あくまで参考程度にして下さいw
ただ、個人的に互角局面から指させるのは反対です SDTを占うなら結局大会仕様機で検証せにゃならんだろ
というステマ まふ関数が思ったより定跡チックに指さない
と言っても交配が進むともっと歪な序盤になるけどね
今更ながらポナって最序盤は変な手だけど、銀冠穴熊組んだり銀矢倉狙ったり構想は手堅くて人間好みな気がする やねうら王以外、GitHub更新がないみたいだけど、オープンソースにも色々あるんだね >>653を解説
例えば、歩の駒割りを;-1して、「KK歩」を全て+1、「KKv歩」を全て-1すれば評価値は変らない。
同様に、歩の駒割りを;-1して、「K歩PT」を全て+1/37、「Kv歩PT」を全て-1/37すれば評価値は変らない。
取り合いの評価で駒割りだけを使うようなロジックが入っている場合は挙動が違ってくるけどおおまかな
所は上のように、学習していけば駒割りの値は評価値に組込まれるので大丈夫ってこと。
逆に、KKPやKPPTのうち駒割り成分を、例えば最大最小が同じになるようなルールで取り出せば、
その評価関数における駒割りがどのように評価されているかの傾向もわかるね。 それなら駒割りって元々いらなくない?
計算資源の無駄な気もするけど何かメリットあるの? 複数使え
むしろ評価関数だけじゃなくて技巧みたいな探索から別の物も使え
詰み探索はさらに別に詰み専用の物を使え 駒割りが関係ないならepoch0を半分混ぜても意味ないよね まじで? 透さんって方公開してくれたのか。
ありがたや すごいね、めっちゃ嬉しい
これに勝てるのを ブリード出来たら報告やね >>673
>>667を100回読み直してからおいで >>677
となると駒割りが関係なくはないのでは
epoch0を半分混ぜても意味がなくなるように駒割りを設定すべきでは
たぶんそれが真の駒割り >>678
だからSEEって書かれてるじゃん
なんでお前はそんなに国語力と理解力がないんだよ >>656
勝率を表記
yasema10 463-429-8 .5191
mafuta3 461-428-11 .5186
elmo 459-438-3 .512
yasetamafu70 450-438-12 .507
mafu10 449-440-11 .505
よっちゃん9 450-443-7 .504
mafu 438-457-5 .489
mafuta2 435-459-6 .487
mafuta1 434-459-7 .486
よっちゃん10 425-469-6 .475
最上位と最下位のレート差 30.6 >>657
この結果だけではそうとはいえない。
少なくともよっちゃん10がよっちゃん9より強いとも弱いとも言えない、しか
わからない。 >>679
KPPは12年前のBonanza1ではなく9年前のBonanza4以降
KPPTはNDF >>599
生物の進化と同じで無駄ではないと思う
いろんな物が試されて少しずつ変化してきて駄目なものが淘汰されて生き残ってきたのが今の形式なので
長く続けているからこそ、まれにbonanzaやNDFやelmoみたいな突然変異が現れて一気に加速することもある >>674
うちのエースと戦わせてみてる
これ、評価値おかしいぞ
200%とかを繰り返しただけだろ?
常に自分がちょ〜優勢と言っている
ラリっててハイになってるだけっぽい >>685
明らかに何か間違えてるよねこれ
初手でいきなり評価値-100くらいの48玉指したり、初手78金に300点くらいつけたり挙動がおかしい >>656
uuunさんからツッコミ入ったで
uuunuuun @uuunuuun1
やねうら王はデフォールトでEvalShare = onになっていて、
これをoffに切り替えないと別の評価関数を指定しても
同じ評価関数で対局するというトラップがあります。
>yasetamafu70 mafuta2 62-35-3 でR100近く離れてるしここは大丈夫だと思うけど
面倒だけど全部のカードの対戦書き出してくれると嬉しい uuunuuun? @uuunuuun1 39分39分前
その他
評価関数がどれも同じだという某所のデータ、ちょっとおかしいような気がしてきました。私が測ったyasetama10 vs elmoは200局程度でR100以上離れていたし、eloqhappaに対しても150局でR120位離してます。 uuunuuun? @uuunuuun1 36分36分前
その他
やねうら王はデフォールトでEvalShare = onになっていて、これをoffに切り替えないと別の評価関数を指定しても同じ評価関数で対局するというトラップがあります。@BigHopeClasic そもそもelmoが上位に来るのがおかしい
どの配合もエルモを超えているのに >>691
https://github.com/yaneurao/YaneuraOu/blob/master/docs/%E8%A7%A3%E8%AA%AC.txt
>共有する条件は、YaneuraOu + やねうら王のバージョンナンバー + EvalDir名 が合致したときです。
評価関数フォルダ名を変えればEvalShareがオンになっていても大丈夫だと思うんだが 昨日改正版をあげた者ですが、全てonになっていました
よって、私のデータは何の意味もありません
大変申し訳ありません
お詫びとして、改正版の評価関数に
rezero8、relmo8、yasetamafu70+を加えた計13
評価関数の総当たりをやります
いつ終わるかはわかりませんが、今回の件は大変申し訳ありません
万が一、結果が同じになった時はお許し下さい どんまい。
雲のアイコンの人は上の方のレート差には興味がなさそうなのに数字には誠実だな >>696
基本どの評価関数もelmoに勝ち越すので
elmoが最下位にならないと結果として変と思って下さい >>698
関数じゃんけんになってるとしたら、その限りではないでしょ >>686
まふさんがいってるように序盤はメインで食わせた定跡を使わないとダメなんじゃないか?
学習局面が極端に中終盤以降なのでは お前たちは何故engineの配下にevalフォルダを作るんだよw
んなことしたら、同じ評価関数でエンジン切り替えたりするの面倒じゃん これ後手が勝勢の局面なんだけど、先手が41金と51金を繰り返すと千日手にできるんだけど、
ソフトはなぜか千日手を選ばないんだけど、なぜなんだろう?
後手の持駒:金 銀 桂二 香 歩二
9 8 7 6 5 4 3 2 1
+---------------------------+
|v香 ・ ・ ・ 金 ・ ・ ・v香|一
| ・ ・ ・ ・ ・v玉 ・ ・ ・|二
|v歩 ・ ・v歩v金v歩v桂v歩v歩|三
| ・ ・ ・ 角v歩 ・v歩 ・ ・|四
| ・ ・v歩 ・ ・v銀 ・ 歩 ・|五
| 馬 歩 ・ ・ ・ ・ ・ ・ ・|六
| 歩 ・ ・ 金 ・ 歩 ・ ・ 歩|七
| ・ ・ ・ ・ 銀 ・ ・ ・ ・|八
| 銀 桂 玉 歩 ・ ・v飛v飛 香|九
+---------------------------+
先手の持駒:歩二 >>692
個別ではそれぞれelmoを上回っていても蠱毒の壺で潰しあった結果
トータルでelmoを下回ることはありうると思うが >>696
どんまい
むしろそのデータ貴重なんで待ってるで >>696
onになってても有意差の出たカードはあるわけで、そのへんが興味深い 有意差出てないって
800局勝率50%で信頼区間95%で46.5%〜53.5%の範囲 >共有する条件は、YaneuraOu + やねうら王のバージョンナンバー + EvalDir名 が合致したときです。
例えば
C:\elmo\やねうら王実行ファイル
C:\elmo\eval\評価関数ファイル
C:\mafu10\やねうら王実行ファイル
C:\mafu10\eval\評価関数ファイル
こういうフォルダ構成でやねうら王の同バージョンで対局させた場合にどっちかに評価関数が共有されちゃうってこと?
こりゃだいぶ多くの検証勢が逝ってそうね これ例えテンプレ使ってたとしてもEvalShareに触れてる人いなかっただろうから
謎の信用できそうなデータ()が出来上がってたんだろうな… 初期設定でなぜチェック入ってるのだろうね
対戦のとき必要ないのに 異種評価関数との自己対局のときにこの設定で引っかかるバカが後を絶たないのでデフォルトでオフになっています。 >>703
この局面で将棋所でもshogiGUIでも
▲4一金 △5二玉 ▲5一金 △4二玉
▲4一金 △5二玉 ▲5一金 △4二玉
▲4一金 △5二玉 ▲5一金 △4二玉
▲4一金 △5二玉 ▲5一金 △4二玉
▲4一金
にて先手反則負け
もしくは▲4一金が入力できないが正しいのにそうならないのはバグですか? https://github.com/mafu-opening-theory/Shogi_opening_theory/blob/master/まふ定跡(Apery形式)エンジン設定等/エンジン設定(参考)%20やねうら王early.txt
>EvalShare 評価関数を共有メモリに展開する・・・True
これまふさんのとこも設定直した方がいいわ まふさん、オフにせずずっと検証してたの?
人に検証頼んだりしたのは平気だろうけど・・・ >>714
千日手が実装されているKif for Windowsで試してみたけど、12手目の42玉で千日手になるね
後手の持駒:金 銀 桂二 香 歩二
9 8 7 6 5 4 3 2 1
+---------------------------+
|v香 ・ ・ ・ 金 ・ ・ ・v香|一
| ・ ・ ・ ・ ・v玉 ・ ・ ・|二
|v歩 ・ ・v歩v金v歩v桂v歩v歩|三
| ・ ・ ・ 角v歩 ・v歩 ・ ・|四
| ・ ・v歩 ・ ・v銀 ・ 歩 ・|五
| 馬 歩 ・ ・ ・ ・ ・ ・ ・|六
| 歩 ・ ・ 金 ・ 歩 ・ ・ 歩|七
| ・ ・ ・ ・ 銀 ・ ・ ・ ・|八
| 銀 桂 玉 歩 ・ ・v飛v飛 香|九
+---------------------------+
先手の持駒:歩二
▲4一金 △5二玉 ▲5一金 △4二玉
▲4一金 △5二玉 ▲5一金 △4二玉
▲4一金 △5二玉 ▲5一金 △4二玉
▲4一金 △5二玉 ▲5一金 △4二玉
▲4一金 >>718
このケースだと連続王手の千日手だからルール上は先手負けにならないといけないので
どっちにしろダメですね >>719
なるほど、連続王手の千日手は禁止だったね、すっかり忘れていたよ
ありがとう、スッキリした ShogiGUIで試したら連続王手の千日手で後手勝ちになった
Kifu for windowsで試すと最後の41金を入力する前に千日手が成立 >>721
なるほど、ShogiGuiの場合、検討モードだといくら繰り返しても千日手にならないけど
対局モードだと千日手(後手の反則勝ち)になるんだ >>707
個別のカードの話だよ。
>>656
>yasetamafu70 mafuta2 62-35-3
これR99差な訳で。
こういうのが個別のカードで出てるのに全体では収束してるのが面白かったのよ。 >>723
だからその個別対局のデータも、そんなサンプル数では有意差はないんだよ 100局、200局、300局、400局、500局で
それぞれの信頼区間90%での誤差一覧表が欲しいね
テンプレに入れよう 俺が知りたいとかではなく
一覧化して書き込んで誰でも分かるようにするべきという話よ
自前で調査したデータを書き込みたい人用ね なるほど
同じソフトを対戦させても62-35-3という結果は1%弱くらいの確率で生じてしまうわけだな。
>>656の総当たりは100戦を45回くらいやっているわけだから
62-35-3があっても確率的に変というほどではないな
よく95%信頼区間で有意差とか言われているが、むしろ5%で裏切られると思った方がいいかも 0,1乱数発生器で100回50セットやるとこんなん
52 54 48 49 51 58 51 45 54 50
49 53 47 54 46 46 51 55 43 58
48 53 55 57 58 52 42 49 46 55
45 50 36 53 49 47 51 58 51 51
53 49 44 53 49 47 60 50 55 46
最大 60
最小 36 >>727
221 名無し名人 sage 2017/07/15(土) 15:35:11.44 ID:8IiilvNw
アマチュア大会で入賞という棋歴が光っているね
これが他のニワカコンピュータ将棋研究家には真似できない部分
この方はsuimonさんだぞ。
頭が高いぞお前たち。 やせたまふ70+あげてくれたのかー。 ありがたい。
今手持ちの適当に組み合わせたキメラ合成関数がエルモに80%くらい勝てるから
やせたまふ70+との対戦が楽しみ >>732
継続対戦中18戦15-3
でも やせたまふ70+ ほうが強いと予想してる >>733
suimonさんはまとめサイトと違って2chでネタを仕入れても自分の言霊で執筆しているからただのまとめ人ではないんだよな。
そこがアクティブなsuimonさんのすごいところ。 >>685は、やせたまふ70+じゃないね 弱すぎるし 評価値むちゃくちゃだったw >>674は yasetamafu70より ずっと弱いし そもそも壊れてる やはりここから先はブレンドしてただけじゃ強くならないなと思い、うちのエースをシボレーで絞ってみている。
やねさんのおかげで実行は簡単になったものの、実行にかかる時間だけはしょうがないね…。 >>124
100局でも差が大きければ有意差になるに決まってるじゃん。
統計の勉強したことあるの?
> 対局数がn=100n=100の場合、(中略)
> r>0.5822427
> であれば有意に強いと言える。
http://tadaoyamaoka.hatenablog.com/entry/2017/06/14/203529 >>728
いや、検定というのはそういうもので、5%で偶然が起こっても
むしろ95%の必然と理解しようねという話だから。 674の「yasetamafu70に6割勝てる奴」はyasetamafu70+じゃありません
yasetamafu70+は誰にもお渡ししておりませんので・・・ 透。 信頼区間95%は20回中19回は当たるという意味
100局45回で測りたいなら信頼区間99%で37.5〜62.5の範囲に100回中99回収まる
有意差なし mafuta2と野生の読み太2を5:5で配合するだけで、私が試した配合では、
最強なので試してみて下さい。だだ、4スレ一手5秒だけの検証で、これ以外では、
分かりません。ちなみにelmoと4スレ一手5秒、定跡切りでは、100局での勝率は、
yasema10と有意差はないです。elmo以外には、4スレ一手5秒で皆勝ち越しています。 まふさん
EvalShareの設定
OKです設定ミスはないということですね suimon先生がエアリプを送ってくださったとしか考えられない。
変なのについて言及されているので。
suimon @floodgate_fan
ネットに上がっているブレンド評価関数、中には変なのも混じっているようだ。
◯◯に7割勝つとかだけでなく、自分でその評価関数の出す、評価値や読み筋に違和感がないかをよく確認しなければならないと思う。
午後4:59 · 2017年7月15日 多分EvalShareで実質同じ評価関数同士になっていて
そこで100局で6割みたいな偶然が起こったんだろうな >>739
一つのソフトの組み合わせのみについて、考えるなら99もレート差あればどちらが強いかという意味においてはかなり確度は高いよ(レート差99が妥当とは言っていない)
そこのみについて考えるなら、普通に信頼区間の考えを用いるだけで良い
ただし、セット回数が増えれば、真の勝率からの信頼区間から外れた結果を得る確率も上がるので、それを抜き取って有意差があるとするのはおかしいという話 データ取り直す人は
定跡のオフとかも確認しないとね
同じ数値同じ設定にしないと 勝率 ・・・ 95%有意と言える対局数
51% 6764局
53% 752局
54% 423局
55% 271局
56% 188局
57% 139局
58% 106局
59% 84局
60% 68局
とりあえず早見表作ってみた
計算間違えていたら訂正頼んだぞ 喜べ
99.9%で当たるくじを45回引いたときに全部当たる確率は95%だ
計算しやすいぞ 734 名前:名無し名人 (オッペケ Srea-bXhv)[sage] 投稿日:2017/07/14(金) 23:13:26.47 ID:7eVa3cumr
三浦の▲54角にponanzaが一瞬-1000を出したのはやっぱり間違いっぽいな
△97香成から必至かけるも後手玉詰む筋を示してた
91飛とかわすか、86飛87歩に82飛と引いておけばいい勝負だったみたい
741 名前:名無し名人 (ワッチョイ c3af-dQC/)[sage] 投稿日:2017/07/15(土) 11:16:06.38 ID:pLXdmp7g0
54角いい手だな
一瞬で慶太から時間を奪い去って後は間違えるだけにしてしまった
仮にポナンザが正しかったとして、ポナンザレベルの対応をされても-300程度ならローリスクもいいとこ
744 名前:名無し名人 (ワッチョイ 4eb6-z+eH)[sage] 投稿日:2017/07/15(土) 19:32:05.29 ID:OBJyiHLg0
>>736
自分もやってみた
111手目指した後に数十秒経って、急に後手優勢から先手勝ちに表示が変わって驚いたわ
この場面では、三浦 >>> エルモだな
http://www.eiou.jp/kifu_player/20170714-1.html なんか、「配合してちょびっと強くなった!」とか馬鹿のやることに見えるのは俺だけ?
根本が強くなってなくね? evalshare off 定跡off 2秒6スレッドでやってみた。
elmo mafuta3 40 3 57
elmo yasema10 33 5 62
relmo yasema10 44 7 49 ディープラーニング頑張ってるPona山の方がよっぽど将来性あるんじゃないか
結局、今までPonaが強かったのって開発者のそういう頭の良さが関係あると思う 汎用的な方法だとパラメータ数でもう上限に近そうだし、やはり進行度を上手く取り入れるしかないんじゃないかねぇ。
多分、中盤までは今の延長で良いと思うから、終盤判定と、終盤用のロジックが新しく欲しい。 詰めまで何手
手抜けるかとか足りない駒数とかを上手く表現できると良いんだけどなぁ。 >>757
勝率別 ・・・ 有意に強いと言える対局数
51% 6764局
52% 1691局
53% 752局
54% 423局
55% 271局
56% 188局
57% 139局
58% 106局
59% 84局
60% 68局
elmo mafuta3 40 3 57 → 勝率58%、有意に強いと言うには後6局は欲しい
elmo yasema10 33 5 62 → 勝率65%、有意にelmoより強い◎
relmo yasema10 44 7 49 → 勝率52%、有意に強いと言うには後1500局は欲しい
elmo yasema10以外はデータ不足だね Qhapaq @Qhapaq_49
評価関数分解機、多分完成。これからwindows用にビルドしてやねうら王にプルリクしてアピールと使用法をブログに書いたらミッション完了ですか。うーん、ここからが長い。
新しいおもちゃが来るぞ suimonさんは有意検定にも詳しいんですね。
さすがコンピューター将棋の第一人者。勉強になります。 744で、mafuta2と野生の読み太2を5:5で配合が強いと書いたものですが、後でmafuta2との
対局をしていないことに気づきました。そして、早速対局の結果、mafuta2の方が、より
強いことが分かりました。間違った情報を伝え申し訳ありませんでした。この場を借りて
お詫び致します。<(_ _)> なんでtwitterから持ってきてyasema10最強という結論なんだ?
uuunuuun? @uuunuuun1 4時間前
ブリード種はたくさんあるしあとには残らないと思うのでレート表には載せないつもり。yasema10が一番強いと言っているものでもない。 検定はなぁ…
とにかくデータ数増やせば小さい差であっても有意と言えるようになるが、
そんな小さな差が現実的に意味のある差なのかという問題がある shogidroidで、一番弱いのはgpsだと思うけど、次は最初の技巧?
ある程度勝てるソフトと指したいw >>772
デュアルXeonだとかなり早いのですね。
suimon率で他のニワカコンピュータ将棋研究家のぼくのかんがえるさいきょうのとうけいがくを論破。
さすが! いつまでsuimon率以外で消耗してるの?
次のブログタイトルはこれだ! >>760
言いたいことは分かるが、コンピュータ将棋関係者であり将棋を指す方で県大会上位を争う研究をしているのはsuimonさんただ一人。
開発の委託とかしないと開発者にとってメリットや面白みがない。
今後の大きな課題だろうね。 よっちゃんとかいう何の実績もないゴミの報告はいらんぞ
まぁただの売名だろうけど よっちゃんって、あのFC2動画主のナマポ野郎が作ったやつだろうが(笑)
あんなの使ってる奴はあほ(笑) よっちゃんは有意差のあるレベルで
yasema10より強くなったら来てくれ レート4200やレート4300などと実際はレート4000程度の評価関数を、
誇大に公開したり(取り下げたり)するものではない。 まふさん質問の答えになってないよ。
なぜまふさん作成の評価関数は横歩取りを指さないの?って質問に対して。 てか本当にR4300もあったらぶっちぎりで優勝だろうがww XEON持ってる人羨ましいな。
一晩学習回していろいろ遊べるし、振り飛車の評価関数作ってみたり出来るだろうし
何より自己対戦も早い キメラはお手軽簡単だけど絞りで強くする方法は何か難しいな。シボレーの動かし方は分かっても細かい設定の意味わからんから諦め気味 やばい、mafuta2とelmoを4スレ一手5秒、定跡切りで対局中だけど、67局時点で52勝13敗
(勝率80%)R241差で、wcsc27のponanzaの対elmoの勝率65%を軽く超えていて、びっくり。yasema10
とはレベルが違う。なんで、こんなに強いの。 将棋24で対戦した棋譜をやねうら + elmo で解析して復習してます。
ちなみに私は将棋24の下の方の級位者です。
大変勉強になるのですが、贅沢を言うと私には絶対に読めないであろう手順が多数表示されます。
例えば(難解な)終盤31手詰めだとか、10手以上先でやっと理解出来る優位になる場面とか
詳しく見るとなるほどと思うことも多いのですが、私の上達にすぐ役に立つのかな?と少々疑問にも思っています。
多分、私の求めているのは私よりずっと強いけど、プロの解析では無く、将棋24の初段位の人が
解析してくれるのが一番勉強になるのではないかなぁ?と思っているのですが
その為にはやねうら + elmo の思考時間を調整する以外にどんな方法があるのかご教示頂けないでしょうか?
また、私の勉強方法についてアドバイスを頂けましたら益々幸いです。
よろしくお願いします。
もし、スレチでしたらごめんなさい。 >>795
技巧2でレベル落として解析するのがいいかも。3手先ぐらいの読みを示してくれる。 YouTubeで初段ぐらいの人の実況動画見るといいかも >>794
yasetamahu70の方が強いから.
>>413にそう書いてる 弱いソフトとかレベル落として解析ってのはあまり良くないと思う
気になるところをMultiPVで検討するのが一番いいのでは しういうオレは、ぴよとの対局をelmo系のソフトを検討モードで動かしながら推奨手を棋譜に記録していって、手を意味を考え、覚えるということをしている >>800 まふさんのは短時間であって一手5秒だとyasetamahu70はmafuta2には全然
弱いよ やねうらおのイントネーションってどっち?
や↑ねうらお
や↓ねうらお
どっちだ? 改正版2(勝率順)
mafu 372-320-8
mafuta2 371-325-4
mafuta3 368-329-3
mafuta1 368-330-2
yasema10 366-331-3
yasetamafu70 363-330-7
mafu10 346-351-3
elmo 230-468-2
elmo対まふ系統の評価関数
mafu 70-29-1
mafuta3 70-30
mafuta2 70-30
mafu10 67-32-1
yasetamafu70 67-33
yasema10 64-36
mafuta1 60-40
elmo対まふ系統の評価関数以外で最も勝敗差がついた対戦
mafuta3 mafu10 63-36-1
rezero8、relmo8は大体のレーティングが出ているようなので外しました
また、よっちゃんとyasetamafu70+も外しました
この計測結果が正しいかはわかりませんが
参考までに。 もしかしてeval_shareトラップに引っ掛かった方?
再計測ありがとうごさいます。mafuって最初のmafu.7zですか? 強いやつ同士で持ち時間1時間切れたら30秒でやってもらわないと、検討に使うソフトの選択としては残念だが役に立たない eval_share以外に設定ミスないでしょね
まふさんみたいにレートのウソ書くのとは違うだろうけど >>809
もし良かったらですが、各ソフトの個別の対戦成績も教えてもらえますか? >>816
わかりました
ただ、ちょっと用事があるので後ほど 上位陣は概ねelmoよりレート120以上強いのは間違いなさそうか
すごいなあ mafuta2とelmoを4スレ一手5秒、定跡切りで100局対戦させてmafuta2側の70勝25敗引分5(勝率73.68%) R差176で
レーティングはelmo+176で4137になります。単純計算上ではwcsc27のponanzaを超えていると思うのですが・・・ 「さっき、現局面をソフトで調べました。互角です」(千田六段)
「野生の読み太」と「まふ評価関数」で調べたそうだ。 >>821
suimonさんがmizumonに突撃するチャンスだな。 レート4100とかすごいね
技巧2に85%勝てる感じ? 全対戦成績
yasetamafu70 mafu10 48-52
yasetamafu70 mafuta2 49-49-2
yasetamafu70 yasema10 54-46
yasetamafu70 mafuta3 51-48-1
yasetamafu70 mafuta1 48-51-1
yasetamafu70 mafu 46-51-3
yasetamafu70 elmo 67-33
mafu10 mafuta2 52-47-1
mafu10 yasema10 55-45
mafu10 mafuta3 36-63-1
mafu10 mafuta1 40-60
mafu10 mafu 44-56
mafu10 elmo 67-32-1
mafuta2 yasema10 51-49
mafuta2 mafuta3 47-53
mafuta2 mafuta1 57-43
mafuta2 mafu 50-49-1
mafuta2 elmo 70-30
yasema10 mafuta3 58-41-1
yasema10 mafuta1 52-48
yasema10 mafu 52-46-2
yasema10 elmo 64-36
mafuta3 mafuta1 51-49
mafuta3 mafu 42-58
mafuta3 elmo 70-30
mafuta1 mafu 57-42-1
mafuta1 elmo 60-40
mafu elmo 70-29-1 いくら評価関数のキメラ化がブラッシュアップされようとも、
ディープラーニングがその遥か上を行っている可能性
電王トーナメントでPonanzaが優勝しても評価関数ブレンドブームは続くのかな ブレンドブームって開発者の人以外がブレンドして遊んでるだけでしょ
開発者の人たちは雑巾絞ってるんじゃ? 周りが遊んでるだけだから主要陣は流されないでほしいけどね
uuunuuunさんの投票も野良系の評価関数を載せた方がいいって意見が多くてびっくりだわ
絶対載せない方がいいと思うけど 自分は野良系の評価関数を載せた方がいいと思う。将棋は勝負の世界で、より強い
ものに価値があると思う。強ければそれでよい。あと、レーティングの数値が上がる
ほど、今まで一強だったポナの価値も下がり、他の開発者の人たちも頑張っている
という証になると思う。 野良の評価関数載せなくていいから、はよ水門開いてほしい 最大差
evalshare
yasema10 463-429-8 .5191
よっちゃん10 425-469-6 .475
mafu 372-320-8 .537
mafu10 346-351-3 .496
勝率50%の対局より差が少ないな そういや野生のfloodgateってあったよな。今こそ使うべきだろ >>832
どれか1つでも野良を載せたら、
じゃあ他の野良は何故載せないのか?
とか、自分が作った奴も乗せてくれ、とか喚くバカのせいで
いちいち面倒なやり取りが発生するからな さくらも山本にマシンをタダで貸すくらいならfloodgateに一鯖を提供すればいいのにな
命名はご自由に >>829
くっそ計算コスト重いディープラーニングをつかったPonanzaがスペック制限のある電王戦で優勝すると思った理由を聞いてもいいか
スペック制限のないWCSCでも優勝できなかったのに 別枠で野郎系のみのランキング表を作っておけばいいんじゃね?って思う レーティングの計算なんてマシンスペックいらないんだから、レーティング出してくれた人のために自分で出してむしろ公開してやれよ。
このスレでやれ対戦数が少ないとか文句言う奴はだいたいクレクレ 野良系なんてランキングに入れても僅差の中に同系統のソフトが無数に並ぶだけ
いらないと思うけどなあ? floodgateサーバーダウンと関係あるかわからないけど、、
Tomoyuki Kaneko? @tkaneko 7月12日
弊キャンパス、連日のように節電依頼があって、貧すれば鈍ずという感じで、精神に悪影響がある。
本郷ではそんな放送流れていないのだから、契約電力そのものを上げてもらえると良いのだが。
東京大学駒場図書館? @UTokyoKomabaLib 7月13日
駒場Iキャンパス全体の電力使用が契約上限に迫る日が続いているため、
駒場図書館では、やむを得ず12:00-16:00の間、断続的に冷房の運転を止めることがあります。
冷房停止時には、特に3、4階で気温が上昇しますので、なるべく下層階をご利用いただき、水分補給を心がけてください。 Rank Name BayesElo + - games score oppo. draws
1 mafu 4117 25 25 692 54% 4061 0%
2 mafuta1 4102 25 25 698 53% 4064 0%
3 mafuta3 4094 25 25 697 53% 4065 0%
4 yasema10 4084 25 25 697 53% 4066 0%
5 mafuta2 4082 25 25 696 53% 4066 0%
6 yasetamafu70 4060 25 25 693 52% 4069 0%
7 mafu10 4047 25 25 697 50% 4072 0%
8 elmo 3961 26 26 698 33% 4084 0% 上位の勝率は誤差レベルだな
対elmoを差し引いたらどれも有意差ないレベルの勝率しかない 丁度EvalShare有効で
実質同じ評価関数で対局したデータが
>>626にあるけど
中身が全く同じでも800局で勝率48.1%〜51.4%までブレてる
キメラで正確なランキング作るならそれぞれで数千局しないと無理 >>847
こんな評価関数ばかり作って発表して得意がってるの? >>809
>よっちゃんとyasetamafu70+も外しました
これはなんでです? elmo公開2ヶ月で+R200か
このキメラの伸び白がどこまであるか分からんが
SDT予選落ちラインがどこまで上がるやら >>837
その時点でtopの野良だけ乗せればいいのよ >>839
ディープラーニングをどこに使うかは色々選択肢があるから、絶対に使えないと言い切れるほどじゃないよ。
探索時には使えなくても、学習時に使うなら計算に物量投入できるから。
例えば評価関数のブレンド方法に使うとか、そういうメタな方法なら電王戦でも使える。 www.google.co.jp/?gws_rd=ssl#q=東京大学+本郷+節電 >>837 853番さんの意見に賛成です。別に全部細かく載せる必要はなく、一番強い
ものだけ載せればいいと思う。弱い野良が載せてほしいとか仮に言ってきても、弱い
奴が何ぬかしとんねんで撃沈されておしまい。837番さん考えすぎだと思いますよ。 次から次に湧いてくる野良を計測して野良トップを特定する作業を誰がやるの?
その時点のトップを特定したとして、後から湧いてくる自称最強野良をどう扱うのか
いちいち計測するのか…。他人にやってくれとは言えないなあ 847見てわかるように同じくらいのポンポン出てくるしその度に計測して一番強いの決めるとか手間がかかり過ぎる まふさん性能良くないパソコン1台のようで(6980円?、中古で買ったの?)
現在検証してほしい組み合わせ「mafuta3」60%+「rezero8」40%※対局結果求む
mafuta3がtanuki-wcsc27の遺伝子を色濃く受け継ぎ(6九玉、5八金の配点が高い)角換わりにおいてもelmoの6二金、8一飛型を5八金型で倒しているので、こちらの進化系に絞って配合情報を募集します。
Qhapaq新ツールREMUで「mafuta3」を解析すると「elmo41%近似」と出ました。KPPT型においてelmoと玉位置配点が異なり、tanuki-wcsc27遺伝子が棋風として見えるのに驚きです。
Qhapaq新ツールREMUが示唆しているように、人間の目で見て違っていても機械的に同一性が認められ、relmoのようにrezero8を1:1で(今回40%)配合するとレートが向上するのであれば、Qhapaq新ツールREMUはすごい配合発見器になるかもしれません。(評価関数自体が数字の集合体なので、検証の価値がかなり有ると思っています) >>846
一応わかってると思うけど、最高学府って大学全般のことやで? ポナンザに似ている評価関数が最強でいいと思うんだよな。
suimon @floodgate_fan
しかし、ponanzaと他の上位ソフトと指し手の傾向がかなり似てくるようになったな…。
この傾向は平岡さんが評価関数の雑巾絞りジェネレーターを公開しはじめたときからあったが、最近はより近づいてきている感がある。
すでにponanzaに似たソフトが無料で手に入る時代といえよう。
午後9:47 · 2017年7月16日
Shota Chida @mizumon_
うーん、これについては分からないところがあるんだよなあ。
強くなったら同じ箇所が増えてくるのではという観点を除いても、見る側がponaに似てるところだけを探してそう感じているとか、棋力が低くてそう見えているだけだとか。(人間目線では細かく見えるところは大きい差であるとか)
午後11:16 · 2017年7月16日 混ぜ方では強くなる配合はたくさんある
試さないといけないから時間がかかる スマホのCPUは最先端だが?
NPSでしか判断ができないのかな?
suimon @floodgate_fan
意外にスマホのCPUの性能向上は進んでいない模様。
最新のもので平均1200kN/sほどだと思います。
午前7:42 · 2017年7月17日 floodgateは事業仕分けにより廃止で良くないか。東大が金を出す意味がない。 混ぜるので強くするのは限界あるんじゃないかな
探索部分や評価関数強いの作る方がいい
作って混ぜて作って混ぜる 検証の仕方がバラバラすぎて意味がないという展開だからなぁ。
ダビスタで言うと自分の得意距離で強さ自慢しているようなものだから。 >>867
そうなのです
このソフトには対戦して強くなった、でもこのソフトには弱い
などそういう関係が出来るのでたくさん作っても同じようなレートになりますしね まふのやっていること
1 何かを思いつく問題提起
2 検証
3 結果 強い評価関数が出来ました
4 後日 弱かったので削除します
この繰り返しで評価関数だけ増えてゆく
これぞまふ定跡 所詮プログラミングができない素人がイキがってるだけだからな まふさん、また新しいの作ったら今度はR4500かも!とか言いそうだな(笑) >>872
まふさんの功績は認めてますので、レートのウソを書くのだけはやめて下さいね 「mafuta3」60%+「rezero8」40%
自前の KKP_synthesized.bin は、以下のハッシュ値なんだが、合ってるかな?
CRC32: 39B1DF5A
MD5: 406146B52B3C1615DBECB5C6AA071D1B
SHA-1: 1D7135A9FB34F57A60F51D4A2F8C31432D146966 雑魚ンザが最近だんまりなのは、やはりキメラエルモに追い抜かれてて焦ってるからか(笑) >>809
これでもmafuとmafu10のレート差は29か。 >>857-858
律儀に全部測る必要なんてないやん。
強いと評判のものは噂になるんだから、気になったやつを気の向いたときに測ればいい >>854
せっかくのDLをメタな方法に使う事自体がDLである必要性を薄れさせている気がするのだが
当然学習時にも大量のコストをかけて、本番にも大量のサーバーで計算せざるを得なかったPonanzaがWCSC27で負けたんだから、電王戦で勝てるとは思えないけどなぁ(個人の感想)。隠し玉持ってそうな屋根裏優勝を予想する
なんにせよ電王戦の勝者が、この黒魔術じみた状況から脱するヒントを示してくれることを楽しみにしている まふさんも楽しいおもちゃを与えられてよかったね
評価関数作りで時間過ごせる
そしてその研究結果がやねうら王に吸い取られる
やねうら王優勝だーー まふさん、remutama40.7zもらった
検証は参加出来ないけど
これと他の既存の評価関数配合してみるよ >>809
elmoに勝率7割りで頭打ちか。
これ以上はdepth深くして学習を行わないと棋力延びなそうだけど、将棋ダビスタでどこまで行けるかな。 実験対戦
4スレ1秒定跡なし100回対戦
remutama40 yasetamafu70 49-51
同じ感じですかね… >>887
それ差し替え前の間違ったバージョンじゃないの?
remutama48も同封されてるのが新しいのです >>880
何をどう考えても無理すぎるだろ
んじゃ自分でやってみ?
メチャハードルは下げて、今強そうな関数をお前の好みで9ほど選択してそれに生elmoを加えて10関数でリーグ戦、1手1000万ノード、リーグ戦は各関数毎に300対局、合計1500対局くらいでいいわ
で1位〜10位までのRを発表してくれ
対局数が少なすぎんだろ!とか
んなノード数で何が分かるんだよ?とか
選択基準がメチャクチャ・・・だとか
不満もガンガン出ると思うけど、それくらいやれば感心してくれたり提案してくれる者も山ほど出てくるわ
で、その後は「この関数が強いぜー」って教えてくれる人が続々出るから、その中から自分で相応に見える物があれば、その度に10関数とそれぞれ30対局合計300対局やって生エルモ以外の最下位を削って常にTOP10を残す作業をする
これでもメチャクチャハードル下げてるから、本来はこんなもんじゃ全然足りてないからな
そんな薄っぺらい検証・計測ですら、お前、自分でそれが出来ると思う? まぁ、似たような評価関数作ったって、どうせみんなponanzaより雑魚なんだから 最強の評価関数は何か!?
多種ある評価関数がルール無しで戦った時…
スポーツではなく早指し長時間ありの『将棋』で戦った時
最強の評価関数は何か!?
今現在 最強の評価関数は決まっていない 「最強」の定義を決めておかないからバカみたいな結果報告が増えるんだよな。
自己満最強評価関数はツイッターで報告すりゃいい。 mafuとmafuta2にR差35もあるわけがない
http://i.imgur.com/DBZSKHp.jpg
実際には2000局指しても
mafuta2 1015-16-969 mafu.7z で有意差は出ない
(当然evalshareは切ってる)
定跡オフ nodestime100 3スレ1秒 Contempt30 投了値2000 >>897
そんなゴミスペックでドヤ顔されてもな。
Xeon二枚買って出直してこい。 >>897
直接対決ではほぼ五分だけど
mafuta2 mafu 50-49-1 てか>>847をみて言ってるのかもしれんが、>>847は計算も順位も変だぞ
>>809がほんとの勝率順だし
実際に計算するとあの検証のmafu.7zからmafu10までR30弱しか差がない上にR±25の信頼区間
つまり全く順位は分かっていないってことだ 実験対決2
4スレ1秒定跡なし100回対戦
remutama48 yasetamafu70 39-61
長時間じゃないと、評価関数の持ち味が発揮されないのもしれないので、作成してくれた方にも失礼ですし投稿はこれで最後にします Program Elo + - Games Score Av.Op. Draws
1 mafu : 130 26 26 700 53.7 % 104 1.1 %
2 mafuta2 : 128 26 26 700 53.3 % 105 0.6 %
3 mafuta3 : 124 26 26 700 52.8 % 105 0.4 %
4 mafuta1 : 124 26 26 700 52.7 % 105 0.3 %
5 yasema10 : 123 26 26 700 52.5 % 105 0.4 %
6 yasetamafu70 : 122 26 26 700 52.4 % 105 1.0 %
7 mafu10 : 105 26 26 700 49.6 % 108 0.4 %
8 elmo : 0 27 28 700 33.0 % 123 0.3 %
>>901
君が BayesElo
elostat計測 途中で書き込まれちゃった
>>901
君がBayesEloを分かってないだけ
elostatなら>>903の結果になる たくさん似たような強さの関数作って混乱させたいの? githubに載っているDeveloper用のcode勝手に拾っておいて「混乱させたいの?」はないだろwww
おろしろすぎる冗談だな。激指使ったら? 激指定跡道場4強いな。
remutama48に勝ち越し 全く知らんかったからBayesian Eloについて勉強してきた。
が、やっぱり>>847では正確ではないと俺は思う。
なにより初期値決めてから少しずつ動かしていく方式だから計算の順番で有利不利がある。
>>847は>>824の対戦成績の順番に打ち込んだと思われるが
とびぬけて弱いelmoとの試合の後に試合をたくさんこなすとRが下がる傾向になってしまう。
>>824の書き込みの順番が
yasetamafu70→mafu10→mafuta2→yasema10→mafuta3→mafuta1→mafu
>>847の順位を下から並べると
mafu10→yasetamafu70→mafuta2→yasema10→mafuta3→mafuta1→mafu
elmo以外が団子だからほとんど入力順が計算順位と等しくなっている
まぁとにかくmafuとmafu10の間に70の差があるのはおかしい。 Googleみたいなすごいのがどかっと来てくれないかなあ
「定跡とか配合とか無駄な努力ご苦労さんw」
みたいなやつ期待 >>909
じゃあ、elmo抜いてまふ系統の評価関数だけで総当たりやりましょうか
それと、申し訳無さすぎるんですが設定上のミスをまた一つ発見してしまいました
evalshare程の大ミスではないので、二つ目のデータはそこまで悪くはないと思うのですが、やはり自分でも正確ではないと感じます
もう一回だけチャンスを頂けませんか?
終わるのはいつになるのかわかりませんが いろいろブレンドしては対戦させてきたけど、素材(elmo、rezero8、mafu10、mafuta3、野生の読み太2)を全部ブレンドすると、ほとんど有意差なしで強い評価関数になる
突然変異的に強いのはできないはず
突然変異を狙うには、絞りに絞ってアウトブリードを作るしかない 検証した人がおるんか
わたしは>>847が直感と反するな〜と思っただけで>>824の結果自体はさほど違和感ないし、
elmoを抜いて計算するとか、計算の順番を変えるとかはデータを扱う側の問題だと思う。
むしろ団子だって分かったからそれで十分じゃないのかねぇ
最強という単語に惹かれるものなのか >>911
いや、やっぱりやめておこう
時間がかかり過ぎてしまうし、自分より正確に測定できる人がやった方がいいし
これで本当に最後の投稿にします >>914
おつかれ
evalshareとかのフィードバックもあったしよかった
なにをミスったかはもやもやするけど 配合じゃなく新しい評価関数作ったとか教育学習して評価関数強くしたとかの時には協力します relmoが奇跡的に伸びただけで
まふ評価関数以降は配合してもそう大きな伸びは期待出来なさそうだな
電王Tまではこの辺りで頭打ちになりそう ダビスタの距離別大会のように条件をしっかり決めないとこのもやもや感は消えないだろうね。
ぶっちゃけ、ウォーズやクエストでソフト指しする層に好まれる10分切れまけや5分切れまけ最強の評価関数が最強と呼ばれるだろうな。
プロ棋士以外には長時間向けは歓迎されないだろう… >>911
EvalShareオフの他に、NetworkDelay,NetworkDelay2を0にしていないだとか・・
いい加減、公式にあるドキュメントぐらい読めよ >>911
技巧2もいれていただけるとありがたいです 短距離血統は手が広いほうが有利だな。相手の読み筋にないから。
学習を補完しあうような形の多種ブレンドが有利。 10切れに合わせると一手10秒程度だから自分の棋譜解析にもちょうどいいし、いいと思うけどね。
悪用されるのは避ける方法が思い浮かばない。 >>918
とはいいつつelmoに勝率7割、relmoに100戦行いギリ有意差出るくらいに強いのは凄いと思う。 >>911
もう意味ないだろ
総当りなんて
五十歩百歩で大差ないで結論出てるよ みなさんの対局設定をみてたら、どれも一手1秒や2秒の短時間が多いけど、最低でも5秒
で対局しないと本当の強さは出ない。だから、uuunuuunさんの基準は5秒にしている。
だから一手1秒や2秒の対局結果を見せられても、あてにならないので全く参考にして
いない。 本当の強さってなんだよこのメルアドキチガイ
5秒なら信用できるって意味不明だわ >>891
それでハードル下げてるとか言うなよw
もっともっと低いハードルを想定してるんだが。
というか、そんなこと言い始めたらそもそもレートの計測自体が成立しないわな。 秒数ではなくノード数だよな
例えば同程度のCPUで1スレッド5秒と128スレッド1秒なら後者が遥かに上でしょ
あとCPU自体のIPCと動作周波数もそれぞれ違うわけだし ノード数はずっと提案してるけど聞く耳持たれないよ。
なぜなら時間がかかるから我先にと対戦成績を報告したい人には都合が悪いからさ。 >>927
君は5秒だと、どのスペックのPCでもみんな同じノード数になると思ってるお子ちゃまかな? まふという人間の評価関数
パソコン安いのしかないようだし
失業中の孤独な人で
アパート一人暮らし、もしくは親と同居
虚言癖レート4300とか言い出す
精神に欠落があり社会に出れない人
まふ定跡を作るあたりの細々とした長期作業をする執念深さで評価関数作る 以上よっちゃんとかいう盗作評価関数の作者さんの有難いポエムでした。 ★将棋の棋士はメガネ障害者ばかり ・普段コンタクトを使用してる棋士
佐々木勇気は普段はコンタクトかカラーコンタクトをしています。
カラコンをすると目玉が黒くなり大きく見えます。
目つきが鋭い人、目がモデルや芸能人のような人はカラコンをしてる可能性が高いです。
記憶力が異常にある直観像記憶(映像記憶)ができる人はメガネ障害者の人が多いです。
東大生や記憶力のチャンピオンはメガネ障害者ばかりです。
東大医学部はアスペばかりです。
佐々木勇気 五段
http://i.imgur.com/K★iBZMLR.jpg
http://i.imgur.com/S★fDFbYJ.jpg
http://i.imgur.com/Y★6F7uy4.jpg
三浦弘行 九段 A型
http://i.imgur.com/L★tTioZz.jpg
佐藤紳哉 七段
http://i.imgur.com/W★UGvq4p.jpg
先崎学 九段
http://i.imgur.com/c★F2xnnF.jpg
メガネなし
http://i.imgur.com/3★PJ57Lc.jpg
行方尚史 八段
http://i.imgur.com/n★jCcI44.jpg
メガネなし
http://i.imgur.com/9★srW23h.jpg
橋本崇載 八段
http://i.imgur.com/6★9d12cl.jpg
メガネなし
http://i.imgur.com/u★dmCfFJ.jpg
久保利明 九段
http://i.imgur.com/y★qTE4YU.jpg
メガネなし
http://i.imgur.com/a★T9yGcQ.jpg
★メガネはメガネ障害者です
将棋の棋士はメガネ障害者ばかりなので、将棋はパラリンピックです
障害者のパラリンピック将棋が好きな人はセンスがない凡人たちです くだらないことばかり書いてないで序盤に穴のないソフト作ってよ 今度のSDTは、探索部はやねうら王が8割とかなるのかね?w コンビニで雑誌立ち読みしてたら、女流棋士のヘアヌードが見れたぜ ponanzaは入玉に弱いから、対策しなきゃ負けまくるだろうなぁ テンプレに追加で入れるべきものがあったら整理し始めてほしい 大会はやねうら王ライブラリ使用のやねうら王仕様が標準でelmo派生でほとんどになるんでしょう >>762も入れておきなよ
誤差レベルの勝敗差で
○○の方が強いと言い切ってしまう報告が後を絶たないし ちょっと配合変えただけの評価関数検討とかうざいから別スレに分けようぜ 評価関数と検索部とやねうらデバックスレでわけようぜ 自分の計算資源を使って自分で満足してる人のほうが
他人の計算資源を当てにして勝手に不満になってる人より
将棋ソフトもスレも有効活用してると思うけど
他人の計算資源を使いたいなら浮かむ瀬やクジラちゃんぐらいパッケージングしないとだめなんじゃない?
あとよくもわるくも本人の魅力も >>762って有意水準10%で両側検定した場合を想定したのか5%で片側検定なのかわからんね
実験してから棄却域を設定するのはおかしいから前者を前提してるのかね? NHK BSスペシャルの話題はスルーなんか?
やね先生も登場していたのに 配合繰り返すだけでレートが10ずつでも上がり続ければ楽なんですけどね >>955
有意検定を知ってて書いた感じではなさそうだしuuunuuunさんとその仲間たちがレート表をより充実させてくれるんじゃない? 河童さんのREMUのおかげで、どうブレンドするとどれがスポイルされるのかとかがわかるようになって、すごく助かってます
河童さん、ありがとう!
いろいろ混ぜると、完全に殺されちゃう血統が出るというのは驚きでした
あと、短距離血統のブレンドを始めましたが、まふ評価関数は短距離からクラシックディスタンス(笑)まで満遍なく強いです
短距離ならelmoや野生の読み太のほうがイケるかなと踏んでいたのですが、敵いませんでした
浅い読みでも細かな穴をバシバシ突いて逆転するので、棋譜を見ていても楽しいです
対局条件は4スレ1秒、Ponder、定跡、ネットワークディレイ関係、eval share全てOFFです
勝敗はあえて載せませんw 絞り方教えてくれー。そして探索部ってなんなんだよおー。絞ったら若干弱くなってる気がするょおー。バッチサイズ、バラバラで教師局面作ったからラーンするときエラー出まくりなんじゃー >>960
ソフト数が2や3ならともかく10ぐらいになってきたので
99.9%は欲しい
なので片方が強いと言えるにはこのぐらいの対局数で希望したい
片側0.1%
12240-11760(51%)
3146-2904(52%)
1425-1292(53%)
853-727(54%)
539-441(55%)
381-299(56%)
293-221(57%)
226-164(58%)
180-125(59%)
150-100(60%)
128-82(61%)
108-66(62%)
97-57(63%)
84-47(64%)
76-41(65%)
66-34(66%)
59-29(67%)
56-26(68%)
49-22(69%)
43-18(70%) >>931-932
ノード数固定も完璧じゃないんだよ
基本的には並列度があがるにつれ無駄読みが増える(同じノード数でも読みが浅くなる)訳で
例えば8スレッド1000万ノードと128スレッド1000万ノードなら基本的には前者の方が強いはず
やるとしたらノード数+スレッド数固定なんだけど、どのあたりを落としどころにするかだよね
時間とスレッド数とbenchコマンドの結果を併記してもらってあとは受け手がどう扱うかに任せるくらいが現実的では >>963
だれもやる奴いなくなる気がしないでもないな
あと実験して結果を見てから恣意的に棄却域を設定するのはどうかね? 90%と95%でそれぞれ早見表作るのが良さそう
基本は95%、長時間なら90%で妥協してと良いとかで使い分けられる
それ以上の精度で計測するのは現実的に難しいでしょう 今話題の無料の観る将棋アプリ将棋DB2?
@backflip1801
foodgateの運用開始しました。
http://floodgate.shogidb2.com で4081番ポートで接続できます。とりあえず、floodgate-900-0とfloodgate-3600-0の2種類のゲームで運用しています。参加お待ちしております。 とりあえず現行のテンプレだとリーグ戦とかのまとまった結果を書き込んでくれる人には使い勝手が悪そうだけど、新しいテンプレ案誰も作らなさそうだから荒削りだけど作ったの張っとく
【対局条件】
持ち時間:
スレッド数:
おおよそのNPS:
開始局面:
[benchコマンドの結果(任意):]
[ハッシュサイズ(任意):]
[その他(任意):]
【対局結果(全体)】
ソフト名,勝数,敗数,引分数[,勝率(任意)]
【対局結果(詳細)】
ソフト名1,ソフト名2,ソフト1勝数,ソフト2勝数,引分数[,勝率(任意)]
記入例:
【対局条件】
持ち時間:1手5秒
スレッド数:8
開始局面:平手
おおよそのNPS:やねうら王4.55 3000000-4000000,技巧2 2500000-3000000
その他:KPPT型のエンジンはすべてやねうら王4.55を使用/定跡について記載のない場合には標準の定跡を使用
【対局結果(全体)】
ソフト名,勝数,敗数,引分数
elmo-qhapaq(河童全力定跡),55,40,5
技巧2,40,55,5
【対局結果(詳細)】
ソフト名1,ソフト名2,ソフト1勝数,ソフト2勝数,引分数
elmo-qhapaq(河童全力定跡),技巧2,55,40,5 【エンジン】技巧2、やねうら王4.64(yasema10評価関数)
【勝敗】4-6
【持ち時間】1手10秒
【CPU】Intel(R) Core(TM) i7-6700K CPU @ 4.00GHz
【OS】Windows10 64bit
【メモリー】16GB
【思考条件】Threads=8、NarrowBook=OFF、USI_Hash=8192,USI_Ponder=OFF
【特記事項】10回しかやってないけどあんまり差つかなかった テンプレなんて別に>>1-5の便利リンクの紹介だけでも良いんじゃないの?
スレ立てした時に面倒が増えるだけだし
テンプレ守れみたいな書き込みでスレが荒れる原因にもなってる いやなんだかんだ調査報告テンプレは欲しい
>>968
リーグ戦の報告の人のためにエンジン名と勝敗を下に持っていきたいのかもしれないが
記入例見ても何のソフトが戦ったのかすぐにはわからんぞ。
エンジン名と勝敗が最初に来るからこれまでのテンプレのほうがわかりやすいように感じる
OSの情報は要るのか疑問だが OSもCPUもメモリも要らねぇだろ正直
対局ソフト、対局結果、スレッド数、持ち時間、(設定)の4〜5項目あれば良い
やねうら王ブログの検証がこの4項目だけど
文句言われてるの見たことないぞ まふさんの悪口を書く人いるけど、まふさん気にしないで下さい。実際にまふさん
が公開した評価関数は、一番強いremutama40で、4スレで軽く4100以上のレーティング
を確認しています。何も悪口言われる筋合いはありません。 まふさんは4100前後の評価関数を7個くらい作ったんか? CPUかNPSは総ノード数出すのに要ると思う。
あとメモリの記載があると例えば>>969を見て、
Hashが8192では、2ソフト分で8192×2+評価関数等があるので
メモリ16GBに対して高すぎませんか?とか突っ込みができる ●自己対局の設定
Threads(スレッド数):両方同じ数にする。使用PCの論理コア数に合わせる
Hash(置換表サイズ):両方同じ数にする。使用PCのRAMの1/4にする
USI_Hash:↑と同じ
USI_Ponder:必ず両方Falseにする。ここを間違える人が圧倒的に多い
Byoyomi_Margin:0にする
NetworkDelay(通信の平均遅延時間):0にする
Network Delay2(通信の最大遅延時間):0にする
MultiPV:1にする
Minimum_Thinking_Time:両方同じ数にする
EvalShare:Falseにする
OwnBook(定跡):出来るだけ同じ定跡を使う。定跡OFFは同じ展開ばかりになるのでオススメしない(並列探索すればマシにはなるが)。様々な互角局面から、1局面につき先後入れ替えで対局させるとさらに良い
●有意に強いといえる勝数
50局中 34勝以上(99%)
100局中 62勝以上(99%)
500局中 279勝以上(99%)
1000局中 541勝以上(99%) 531勝以上(95%)
2000局中 1057勝以上(99%) 1044勝以上(95%)
3000局中 1570勝以上(99%) 1554勝以上(95%)
・信頼区間にかかわらず最低500局ぐらいは対局したほうがいいと思う
・有意差ではなく勝率推定したい場合は最低3000局以上くらいないと測定誤差大きいと思う
・定跡が微妙な場合はp<0.01でも信頼性低いと思う
・総当り戦は素直にBayeselo使うのがいいと思う。LOSも簡単に出してくれるし もう、ここまで厳密だと逆に誰も自己対戦報告しなくなるだけじゃね? 厳密になるぶんには誰も困らんとは思う。ただこんな個人が勝手勝手にやる匿名掲示板で、例え手法に問題がなくてもまともな検証なんかできると思えん。ディスるわけじゃなくてね。微々たる?差を必要としている人は自前でやるだろうし >>972
やねは所有マシンのスペックを事前に公開してるだろ
匿名掲示板とは条件が全く違う 99%だとか言ってる奴は荒らしだろ
計測ブームなんて既に下火になりかけてるんだから
テンプレは従来のままでいい
変に改変しても荒れるだけだしな 将棋DB2のfloodgateは野良なのか?
接続しても大丈夫? >>976
BayesEloとやらのほうが素直なのか?
>>847と>>903が同じ人が出したBayesEloとElostatなわけだよね
>>909みてるとElostatの結果の方が素直にみえるが ルール厨の書き込みなんて放っておけって
こういう意見が衝突してる時には
テンプレは現状維持が定跡
どの意見を採用しても
採用されなかった意見の発案者が荒らしに変貌するからね どちらにせよ勝率6割程度では例え1000対局しても価値はない
せいぜいやや強いぐらいのことがわかるだけなので
この乱立環境ではせめて100対局で勝率7割ぐらいの
圧倒的に強いといえるものがほしい
それ以外は計測の練習にしかならんよ そもそもブリードブームの前は、人が多くなる選手権後のソフト大量公開時期ですら今の対局結果テンプレ守ってる人が多かった訳で、「テンプレが冗長」とか理解力がない奴の言い訳でしょ
追加でリーグ戦用のテンプレ作るとかはありかもしれないけど、現行の対局結果テンプレを変える必要はない テンプレ改変の議論なんか950超えてからするもんじゃない
現行のまま立てて次スレでのんびり議論すればいい話
勝手に改変する前振りに利用する雰囲気も出ているから
立てられる人は荒れる前に早めに現行テンプレで立てて欲しいね どんな精度で満足するのかはやる人の勝手だろうよ
99%の精度が必要なら自分でやりゃいいわな テンプレのどこかに、まふさんのGITHUBも含めよう 今検証募集してるremutama40と混ぜたりした検証も 現在の配合組み合わせじゃelmoに勝率70%が限度のようだ このスレッドは1000を超えました。
もう書けないので、新しいスレッドを立ててくださいです。。。
life time: 34日 23時間 10分 15秒 2ちゃんねるの運営はプレミアム会員の皆さまに支えられています。
運営にご協力お願いいたします。
───────────────────
《プレミアム会員の主な特典》
★ 2ちゃんねる専用ブラウザからの広告除去
★ 2ちゃんねるの過去ログを取得
★ 書き込み規制の緩和
───────────────────
会員登録には個人情報は一切必要ありません。
月300円から匿名でご購入いただけます。
▼ プレミアム会員登録はこちら ▼
https://premium.2ch.net/
▼ 浪人ログインはこちら ▼
https://login.2ch.net/login.php レス数が1000を超えています。これ以上書き込みはできません。