▲コンピュータ将棋スレッド136
■ このスレッドは過去ログ倉庫に格納されています
>>547 ご返事ありがとうございます。 双方、ponderはオフになっています。 >>541 あんまり比較にならない けどなんか強そう、ってくらいの存在がAlphazero アルファゼロって900差がついたら勝ちって設定にしてあったみたいだから終盤ダメダメなんでしょう 評価値900超えたら自動でqzilla9に切り替わるようにしたら最強かな crazyshogiがそこまで終盤変だったとは思えないけどなあ 900っていうのはコンピュータチェスの話ではなかったのか チェスはエンドゲームが全然違う感覚らしいし そもそも駒損は優劣に決定的だろうし 実際問題、研究用途で大事なのは序盤の正確性だから 序盤最強の評価関数があったならそれ一択になるよ 100や200ならともかく900まで押し切れるなら不満はないし 最初から序中盤で評価値上の作戦勝ちすることに特化したソフト作ったらどうなるんだろ? 今よりうまくなるの? TCECだと650センチポーン差が続いた時点で判定勝ちになるからな その感覚だと900センチポーン差は「挽回不可能な大差」と誤認しても仕方ないところはある AlphaZeroの対局条件については、elmo+やねうら王の置換表がスレッド数に対して小さすぎる問題もあるからなあ 澤田さんがqzilla9を絞った評価関数の計測してるんだろうけどさすがに勝率6割は無理そう Googleが第3世代のTPUを発表 1年前のと比べて性能が8倍以上か 流石Googleだわ Google@Google Today we're announcing our third generation of TPUs. Our latest liquid-cooled TPU Pod is more than 8X more powerful than last year's, delivering more than 100 petaflops of ML hardware acceleration. #io18 午前2:22 · 2018年5月9日 クジラは互いに入玉可能な局面での評価がやや弱いように思えます。 サンプルは後手が勝った投了図です。後手大駒3枚で投了やむなし クジラqzilla9の評価は後手持ちの-300以下の互角。 なおApery系では-600以上の後手有利で投了も妥当。 駒点数は先手:22点後手:32点 2018-05-09_王座戦谷川浩司_九段_vs_渡辺 明_棋王 後手の持駒:桂 香 歩三 9 8 7 6 5 4 3 2 1 +---------------------------+ | 龍v金 ・ ・ ・ ・v金 ・v香|一 | ・ ・v角 ・ ・ ・v金 ・v玉|二 | と 銀 ・ ・ ・ ・ ・v歩v桂|三 | 玉 ・ 歩v歩v桂v銀v歩 ・ 桂|四 | ・v歩 銀 ・ ・ ・ 香 ・ ・|五 | ・ ・ ・ ・ ・ ・v龍 ・ ・|六 | ・ 歩 ・ 歩 歩 ・ ・ ・ ・|七 | ・ ・vとv馬 ・ ・ ・ ・ ・|八 | 香 ・ ・ ・ ・ ・ ・ ・ ・|九 +---------------------------+ 先手の持駒:金 銀 歩五 先手:谷川浩司 後手:渡辺 明 手数=112 △8一金 まで ただし低スペックPCのエンジンYO82で短時間計測なので 図面を張り付けて いろいろな環境とソフト試行すれば結果が異なるかも クジラがまたaperypaqに対して誤差圏内を脱したか しかし入玉周りの弱さは、評価関数と言うより探索の方の問題なのかねこれは 序盤特化の流れだったから 超適当に枝刈りの処理を大幅に省いたGodwhaleを作ってみた 処理が減った分だけNPSが上昇してる https://www.axfc.net/u/3909839.zip 雑な調整だし劇弱かと思ったら 投了値1000くらいでは配布されているGodwhaleよりも少し強かったので投下 棋風も変わっているから別ソフトという感じ >>561 早速将棋なりチェスなりに採用してなにか発表されるんだろうか。 なんかグラフ見てるとこれ以上強くなるんだろうかって感じがあるし、ボードゲームで強くなってもそろそろ世間から飽きられそうだし もともと強いゲームAI開発することが目的だったわけでもないし >>557 チェスだと300差でほぼ終わりって感じ >>566 早速使わせてもらいましたが序中盤は確かに強そうな印象です。終盤は深く読めば素鯨と同じ手を読めるので、総合的に強いと思います。 くじらは評価関数が優秀なのもあるけどGodwhale結構優秀な気がする 常にやね4.82よりNPSが5%は多い印象 芝先生が改造した技巧2の評価関数って元のより強いの? >>566 面白そうなもの作ったな 時間あるときに素のGWと何百局か直接対局させてみるわ https://i.imgur.com/XIqdqaD.jpg 8ソフトによるリーグ戦 各ソフトと100局ずつやらせた結果 クジラはやはり抜けて強い 2番手はwakame,Apery,Aperypaqが争っててwakameが少し上かもという印象 >>566 さん 時間があれば検証してみたいと思います >>571 魔改造の方が惨敗だった、あまり勝てないので技巧1を改造したのかと思った、24局位して魔改造の勝率2割程度だった uuunuuun @uuunuuun1 技巧はレートが低い相手には勝率が想定より良く、高い相手には想定より悪い。 レーティングを引き延ばす役割をしたけど、T.N.K.は逆でレーティングを縮める役割を果たしている。 T.N.K.はすべての相手のレートをひきつけるブラックホールのようなもの、 技巧はいうなればホワイトホールみたいなものか。 >>566 godwhale_child EAで登録した そんなにつえーなら こないだのあの惨状は何なんだとw >>576 Aprey_wcsc28の弱い探索部を使用しないで221の平岡さん提供の変換ソフトを利用して elmoやaperypaqみたいにやねうら王を探索に使用して再チェックしてもらえますか >>579 やっぱりNNUEは異質度が高いということだな。 大きく伸びる可能性あり Aperyの評価関数って結構絶対値大きい局面多くない? >>583 それがえびクオリティ 真面目な話すれば、千日手を読んだのが全部無駄 (相手も千日手が最善と思ってくれないと結局費やした時間×クラスタの台数分 戦闘力を空費する) プラス入玉周り これだけで拾えた星が2つは増えたはず 出村さんの性格からは想像もつかないスネ夫体質に育ったな技巧w マシンパワーが潤沢にあるんだったら、それこそαβカット以外の全ての枝狩りをなくしてもよかったのかもね。 どう考えても何の役にも立たずに先手で優位すら保てなかったgm定跡だろ 「やねうら王」の定跡を無効化する方法 定跡でいきなり序盤「角換わり」で「角不成り」したらどうなると思う? しかし「やねうら定跡」は連続して定跡が外れると、 以降合流しても定跡選択しなくなくなりますよね。 なので、こちらのプログラムの除外を書き換え、 「角換わり」で「角不成り」を指す。 相手にその応手が定跡で登録されていない場合は定跡が切れます。 そして次に普通は「銀」を動かす所を「金」等を動かして、 連続して定跡を外せば以降相手は定跡選択しません。 「第28回世界コンピュータ将棋選手権」のクジラチームの後手で 「角換わり」を仕掛けて次に△3二金としてたのは、 この不具合動作の実験の名残りです。 大会中、変な定跡だな?って思った人もいたかと思いますが、 こんな理由がありました。 1年に1回のコンピュータ将棋の大会で こんなことして勝ったとして「なんだこいつ?」ってなるでしょ。 だからやろうと思わなかったけど、 もし「電王トーナメント」のような賞金のかかった一発勝負だったらどうでしょうね? 一度このプログラムのままが良いのか考えてはどうでしょうか? 上位ソフトを一手100億ノードで指すみたいな条件で 対戦させたら何が強いんだ? 実際のプロ棋戦の検討するときに 一番いいソフトがわかると思うんだけど Twitterから ――――― ドラえもんを観て、心から思うこと。 これだけ強烈な人生経験をしているのび太がなんの反省もない点、 やはりすごい人物なんだと思う。たとえば、のび太と恐竜の最後で、 ピー助との別れ際に「ぼくもがんばるからね!」って涙ながらに 叫びけども学びと成長がないな。 ――――― これ見てえびちゃんのことを思い出した メタゲーだけして将棋そのものやプログラムを開発するでもない大会に勝つだけの勘違い馬鹿のおかげで興ざめ 芝とまふの罪は大きい >>594 同一局面からの定跡検索は面倒なうえリソース食う 自分がやらないなら相手がやってきたときに大駒と歩の不成と成を区別しないオプションが あってもいい気が やねうら王の定跡検索ってsfen文字列でやってるから、 同一局面に合流した時点で定跡にヒットするのでは? まふさんの書いてること、本当に正しいの? やねうら王の定跡は手数が入っているから局面が同じでも手数が違うと定跡ヒットしないんだけど、 定跡にある局面、手数が同じなら一度定跡はずれても合流すれば定跡ヒットするよね 私もその理解。そうなってないなら、issueに投稿してくるといいよ。 方法論を新しくなにかを作ってってのを目指すわけじゃないし 実装レベルで最適化して今でも将棋を強くしてますってのが実に日本的と言うか 本格派居飛車党たぬきの重厚な指しまわし 序盤は定跡重視? 角換わり、雁木の中盤 すごい参考・勉強になるう たぬきちゃん、かわいいよ、たぬきちゃん パンピーはゴッドホエールとか言うの入れとけばええんか? 一般人は技巧1択。それ以外は常人には参考にならない。 >>609-610 さんくす。くじらちゃん入れるわ >>597 白ビール?強いよね 評価関数、マルチponder、定跡、隙がないと思うよ PALの作者がチクチクとポナ山いじってるのは好意が嫌悪かどっちだろ m5.24xlarge YaneuraOu 2018 Otafuku KPPT 4.82 64AVX2 TOURNAMENT qzilla9 bench 4096 96 19 # ハッシュ4096なのは96threadsだとハッシュがすぐに埋まるため =========================== Total time (ms) : 23154 Nodes searched : 1248471943 Nodes/second : 53920356 Nodes searched(main thread) : 13546466 Nodes/second (main thread) : 585059 1threads =========================== Total time (ms) : 12485 Nodes searched : 11984975 Nodes/second : 959949 100スレッドクラスだとuuunベンチ設定の128MBだと10%ぐらい遅くなる >>597 仮にも「学会」とついてる所で出すものかは疑問符がつくな 商品開発とかエンターテイメントとしては正しいと思うんだ (要はパッケージングだけするSIみたいなもんでしょあれ) だから電王トーナメントとかなら俺も賛同してたと思うわ >>517 ,619 あれやらないと、コンピュータの穴だらけの序盤がプロにも伝播しちゃう恐れがあっただろ だから選手権だろうが電王トナメだろうが、あれでいいんだよ いや伝播したらそらマズいやろ やっぱりしちゃうのかw 不屈の棋士で西尾だったか千田だったかが 「ソフトの示した序盤の穴を検証せずに採用してハマる人もいる」 みたいな話ししてなかった? スペック低いPCでサクサク検討してたりしたら序盤なんかたくさんまずい変化ありそうな気はするな >>626 プロの使ってるPCスペックも手法もソフト開発者のそれに全然及ばないのでは? >>626 その統計データの根拠ってどこにあるの?プロ棋士の価値を高るための宣伝にしか思えないが クジラ9などからR1400程度も弱いプロ棋士の序盤は明らかに弱い R1400差ってトッププロと奨励会6級よりも大きな差だからな >>627 の根拠もないからソフト開発者の価値を高めるための宣伝に思えてしまう ここまで実力差があると序盤とか終盤とか関係なく圧倒的にソフトが上だろ 勝てないのにプロの序盤研究云々とかまったくワロえんよ 去年の天彦の無様さ加減にはほとほと呆れ返ったわ そんな中西尾はさすが 西尾明 @nishio1979 以前は定跡はどちらかといえば棋士中心のコンソーシアム型ブロックチェーンでしたが、 現在はコンピュータ将棋の台頭もあり、 バリデーターが不特定多数のパブリック型に変化しつつある気がします。 >>624 追加した定跡でタヌキにやられちゃったのか。。 - 二次予選で Hefeweizen 相手に 80 手近くまで一方的に定跡で指されて非常に苦しかったので、 決勝では、一次、二次予選で elmo, the end of genesis T.N.K.evolution turbo type D, Hefeweizen が勝った時の手を全て登録するという安直な定跡を追加し、2戦目から使用しました。 (初戦の名人コブラ戦には定跡作成が間に合いませんでした。) https://www.apply.computer-shogi.org/wcsc28/appeal/Apery/appeal_wcsc28.txt ドクター・ゲロのTweetが面白かった ----------------------------- 深いdepthで生成した教師局面でelmo絞りすると、短時間対局だと その力を発揮しないのはずっと言われて来た。elmo絞りは先の方まで 考えて指した手の勝敗を手前のほうの手にまで反映させていくから、 本来なら短時間しか読まなくても深い手を指せるので強いはず。 でも、以前のそんなに深くない教師で学習させて作られた評価関数にコロッと負ける。なんでか? 深い教師のほう(Aとしよう)は、近くでは一旦悪くなっても、 その先で良くなる手があるとプラスの評価になるため、短時間でもその手を指す。 で、浅い教師のほう(Bとしよう)は、その手は悪い手と認識して、これ幸いとその筋に飛び込む。 Bの指し手がAのPonderの第一候補ならその先まで読めているので無事にその筋に誘導できるのだが、 Bの手が次善手だったりすると、またそこから考えはじめ、狙った筋とは違う筋に入ってしまうことがある。 違う筋だと逆転する筋が見つからなくて、そこで大反省してしまうことが往々にしてあるのだ。 Hefeweizenの評価関数はこのことを逆用し、学習時に最善だと習った手を次善手に格下げして、 そんなに評価値の変わらない次善手を最善として指させるようにした。 こちらはMulti Ponderで、どんな手が飛んできても先までお見通しの状態で待ち受けているので、 大抵の変化にも問題なく対応できるため、相手のPonderを外しながらどんどん悪い筋に誘導していくことができるのだ。 depth12で学習させた評価関数が異常に弱くなったので、その原因を分析している時にこの手法を思いつき、 18号の新コマンドでチョチョイといじったら、狙い通りの手を指してくれるようになった。 HefeweizenはMulti Ponderと最善手外しの複合技で戦っていたというお話でした。 勝てそうな筋に入ったはずなのに途中で道を間違えてるって感じなのかな PonderはもうMulti Ponder 2くらいをデフォルトにしてもいいのではって思うけどやねうら王ではやらないのかな 評価はあってるけど有利なほうが間違えた場合と 実は評価が間違っていて不利と思われていたほうが好手(新手)を出してる場合 の区別をつけないとまずい。 クジラちゃんとかあれだけの計算資源集めてるんだからMV=5とかで 実戦やってもいいんじゃねーのと思う >>636 AlphaZeroみたいに探索後のルートの全ての手を学習できれば、そんな無駄なことしなくて済むんだけどな 最善手しか学習させないから効率が悪い Alpha Zeroの中身知らんけど、Alpha碁と変わらんのなら、彼らの持っている評価値は 勝率に準じたもので、歩1個100点とかの評価値とは根本的に違う事柄を表現している と思うんだけどね。 つか、探索後のルート全ての手を学習するって、もっともらしい書き方しているみたい だけど、具体的に何をどうするのか、まったく想像できない件。 まあ序盤だけ上手くても負けたら意味ないわな てんてーのことかーーーー!! >>636 小狡いなあ。 最善でなくて勝てばいいのか? まあそうか。 >>636 次善手を使って悪い筋に誘うっていう部分は眉唾物だなあ。 基本的にはMulti PonderとPonder外しによる時間責めっていうのが白ビールの戦略だと思う >>602 sfen文字列って局面だけじゃなくて 初手からの指し手が入ってなかったっけ? 定跡合流を許すように やね定跡に局面ハッシュ入れるように提案したが rejectされた覚えが。 ゲロの改善プロセス面白い いつかは超強い人造棋士パーフェクトセルを作ってくることを期待する ■ このスレッドは過去ログ倉庫に格納されています
read.cgi ver 07.5.1 2024/04/28 Walang Kapalit ★ | Donguri System Team 5ちゃんねる