▲コンピュータ将棋スレッド145
■ このスレッドは過去ログ倉庫に格納されています
↑スレ立て時は1行目と2行目に「!extend:checked:vvvvv:1000:512」をコピペして立てて下さい 荒らし対策のために強制コテハン(ワッチョイ)を表示するコマンドです 第28回世界コンピュータ将棋選手権 参加チーム https://www.apply.computer-shogi.org/wcsc28/team.html 詰将棋メモ コンピュータ将棋2018 http://toybox.tea-nifty.com/memo/2018/01/post-0205.html 世界コンピュータ将棋選手権参加ソフトリンク集 http://www.ne.jp/asahi/tetsu/toybox/soft/softlink.htm floodgate 最新2週間レーティング http://wdoor.c.u-tokyo.ac.jp/shogi/LATEST/players-floodgate14.html コンピュータ将棋協会 http://www.computer-shogi.org/ コンピュータ将棋 http://ja.wikipedia.org/wiki/ コンピュータ将棋 コンピュータ将棋 まとめサイト(コンピュータ将棋レーティング) https://www.qhapaq.org/shogi/ ※前スレ ▲コンピュータ将棋スレッド143 https://mevius.5ch.net/test/read.cgi/bgame/1540817996/_EXTDAT: checked:vvvvv:1000:512:----: EXT was configured VIPQ2_EXTDAT: checked:vvvvv:1000:512:----: EXT was configured どうせなら、矢倉や振り飛車もあったほうが盛り上がっただろうな ちょっとopeningを調整したらいいだけだし >>55 > elmoは1手120億局面で対局しているから > AlphaZeroの手を評価するには > 最低でもNNUEkai7で1手120億局面は欲しいね > それでも互角くらいだろうから倍の240億局面が理想だけど現実的ではない はっきり言って深さ35以降進むことは現実的に困難だと思う。 1階層深くなるのにとんでもない局面数を探索しなければならないからだ。 候補3 時間 356:17.1 深さ 37/51 ノード数 26868955647 評価値 74 読み筋 ▲7九角(88) △2四歩(23) 候補2 時間 356:17.1 深さ 37/56 ノード数 26868955647 評価値 177 読み筋 ▲7六歩(77) △同 飛(74 候補1 時間 356:17.1 深さ 38/56 ノード数 26868955647 評価値 204 読み筋 ▲5七銀(68) △5一銀(42 候補3 時間 236:39.6 深さ 37/51 ノード数 17782208909 評価値 74 読み筋 ▲7九角(88) △2四歩(23) 候補2 時間 236:39.6 深さ 37/51 ノード数 17782208909 評価値 155 読み筋 ▲5七銀(68) △5一銀(42 候補1 時間 236:39.6 深さ 37/54 ノード数 17782208909 評価値 177 読み筋 ▲7六歩(77) △同 飛(74 候補3 時間 210:01.0 深さ 36/36 ノード数 15736865173 評価値 98 読み筋 ▲6七玉(58) △3四飛(74) 候補2 時間 210:01.0 深さ 37/51 ノード数 15736865173 評価値 155 読み筋 ▲5七銀(68) △5一銀(42 候補1 時間 210:01.0 深さ 37/54 ノード数 15736865173 評価値 177 読み筋 ▲7六歩(77) △同 飛(74 候補3 時間 165:10.3 深さ 36/52 ノード数 12338603650 評価値 81 読み筋 ▲7六歩(77) △同 飛(74) 候補2 時間 165:10.3 深さ 36/50 ノード数 12338603650 評価値 98 読み筋 ▲6七玉(58) △3四飛(74) 候補1 時間 165:10.3 深さ 37/51 ノード数 12338603650 評価値 155 読み筋 ▲5七銀(68) △5一銀(42 >>226 まじか いつ発言されたのかは知らないが、本当だとしたらかなり鋭い分析だね。 Alphazeroのaperyqhapaqとの勝率とも合致する 囲碁界の人は謙虚に棋譜から学ぼうとしてたのに 将棋界は文句しか言わねえなあw 前回の論文の問題点をほぼほぼ解消したのにまだ叩かれるAlphaZeroかわいそう そもそもpreprintって正式な論文の前段階だからな そうですね。まぁ査読を出す前の論文ですし。 いろんな指摘があるのはいいこと そもそも論として 数十億ノードの世界でorqhaやNNUEkai7がelmoよりも強いという保障もない 検討用途を考えたら億単位のノードでの強さが最重要だから それを証明してみせたAlphaZeroが現状では頂点でしょう >>228 120億ノードは自分の計算ミスで 実際にはelmo側は1手30億ノードくらいっぽい depth32ですら中盤だと50億ノードくらい読むことあるからな depth40で1億教師作れればalphazeroを軽く超えられるんだろうが現実的じゃない コンピューター将棋ってコンテンツが低レベルなガラパゴスコンテンツ過ぎてオワコンだなー googleが汎用プログラムで12時間学習させるだけでガラパゴス王者をフルボッコw 井戸の中の蛙なことを知らずにお釈迦様の手のひらの上でイキってる孫悟空だな >>209 これ見るとAlphpaZeroは44コアのマシン1台と第1世代TPUx4 elmoは44コアのマシン1台 だよね? そうだけど Stockfish is designed to exploit CPU hardware and cannot make use of GPU/TPU, whereas AlphaZero is designed to exploit GPU/TPU hardware rather than CPU. 最近ついにstockfishのVer10がリリースされた 某将棋エンジンと違い確実にレートが上がって いるようだ このチームに将棋エンジンも作って ほしいな 今はもうstockfishの最新を反映させても対して強くならないよ 将棋とチェスでは中盤に入ってからの展開がかなり違うからな stockfishと同じように枝を刈ってもそうそう劇的に強くならないだろう ロタ @Rota_JP 【orqha1018は横歩取りの後手番を持たない】 次のWCSCでは横歩取りは消滅する予感 青野流は先手勝率7、8割の世界だからな 最低限対策(△7四飛)を調べてからじゃないと後手は大損するだけ 「消滅する予感」の部分は本人言ってないぞ 風評被害はやめよう とは言っても去年の選手権のときに横歩取りの青野流は二局あって実は先手が負けているんだよな。 ハードが強力になれば事前のデータ通りにいかない可能性もある 常にdepth34くらいまで読める状況なら後手にもまだいい手があるかもしれないしな トロシュナの新馬戦の大外一気がすごいとワイの中で話題に 2018年10月21日 新潟5R 2歳新馬牝 トロシュナ https://youtu.be/mh_Vf8DEAj0 @YouTubeより 実際問題、白ビールやPALのようなアンチコンピューティングに長けたソフトが 十分な設備・定跡ONでぶつかればAlphaZeroもそこまで圧倒的大差をつけることは出来ないと思うけどな AlphaZeroの指し方はいかにも未完成でスキがある 近いレーティングのソフト相手にあのような舐めプが通じるだろうか? AlphaZeroの学習がサチってるなら1年以内には追い越すだろう AlphaZeroは80ブロックのネットワークを使えばもっと強くなるのかな? もちろん学習に必要な計算量が多すぎるけど AlphaZeroは、全くの自力の学習で強くなるよと示す論文であって、縛りプレイしてるから、 もっと効率的に学習することそのものは可能。 たとえば、最初はElmoの出す教師局面の評価値から学習して、その後自己対戦で学習、 とするだけで基本的な戦略の獲得のところはすっ飛ばせて、 最終レート到達までの時間やステップ数は早められる。 ただ、学術的にはそんな将棋ソフト用の特殊な学習の仕方をしても意味が無くて、むしろ、汎用的に学習できるよと示すために あえて多少非効率でも自己対戦のみという縛りプレイでやってるんだよ。 強くすることそのものが目的の各種将棋ソフトとはその点で成り立ちが違う。 せっかく羽生竜王に協力してもらうなら、 桂馬が横にも飛べるルールで自己対戦学習したAlphaZeroと羽生竜王との対局とかして欲しかったな。 勝勢になってからなめぷなのはランダムに全部の手を学習させて勝率だけしか評価されてないから。 華麗な最短の寄せだろうが形勢が悪くならない悪手だろうが等価になる。 >>253 だよね 汎用的な学習という戦略の評価なのにアウトプットの優劣つけて騒いでるの馬鹿みたい 羽生とはNHKの取材通じて接触があったしこういうときに一番業界で有名な人を釣りだすのが いつものDM/Googleのやり方なんでいってもしょうがないのだが 相掛かりスキーということで羽生でなく郷田に棋譜選定してもらいたかったな、てのだけが憾み 新しいハードの開発は個人じゃ限界があるし、google先生に遅れをとるのはしゃーない。 これからはTPUで開発する時代になるんだろうか。知らんけど あえてCPUにこだわる利点は? >>252 たぶん微差だと思うよ。 強くするために必要なパラメータ数はたぶん指数関数的に増えていくから、2倍にしてもたいして変わらんと思う。 >>236 >googleが汎用プログラムで12時間学習させるだけでガラパゴス王者をフルボッコw Googleが専門家を集めて組織的に数年前に渡り開発したソフトが、個人が趣味で数ヶ月間?で開発したソフトに勝率9割くらいだった ディープラーニングの実験だったとは言え開発効率ではelmoが優っていた elmoに勝率が99.99%くらいでないと互角ではないと思う やたらelmoばかりが比較対象になるけど そろそろaperypaqに9割のほうがよくないかね >>242 定跡使って横歩除いたら勝率の悪い後手横歩を回避しないNNUEkai7のほうが強い可能性あるよね 今のレーティングの数字って横歩にかなり左右されてるからな実際 相掛かり系でもちょっと変わった手順前後で横歩取りに誘導できるときもあるから 後手の横歩を完全に避けるのはけっこうめんどいよ >>253 AlphaZeroが青野流や雁木を自分で見つけたのはいいんだが, 振り飛車は自己学習で対戦した上で,勝率悪くて不利だとして指してないのかね? AlphaZeroに対して先手中飛車やノーマル振り飛車が通用しないのかは,ちと気になる。 第29回世界コンピュータ将棋選手権の余興で、AlphaZero vs 優勝ソフトの三番勝負はどうだろうか 優勝ソフトの圧勝で決着すると思うが、実現したら面白そうだ 読みが勝ってれば勝てるゲームで勝率が100%に近くならない時点で強さ論ずる意味があるのかは疑問だが 99.999%位いって当たり前じゃね? >>266 本当に自信があったら正式に参加するだろうし その逆だったら余興にも参加しないだろう >>258 TPU使ってるのは画像分析/深層学習を前提としたシステムだからで そうでない従来型のソフトがTPU使っても意味ないんじゃね このスレをコピペて荒らしてるの誰なんだろな 無関係なスレを張ったりしてるところを見ると囲碁板をあらしてる奴と同一人物ぽいが 消費電力でも負けるとなるとCPUの長所が分からなくなってくる。動作が軽い? アルファ碁のときも言われていたけど実際には何十手先も先の局面を読んでるわけじゃないのに 直観力が優れているからあたかも読んでいるかごとくの指し手を選ぶことがあるってことなんだよね? 実際に読んでいる局面の量はかなり少ないわけなんだから マシンパワーに押されてほとんどふさがれてるけど例外に弱いという弱点もある、 とも言われてたと思う。 12番の▲7六歩ってついたの普通のソフトだとずっと先手不利な状態が続くね。。 千田解説にあった▲8三角とか▲4一角の超絶攻防手を知ってないと絶対に指せない手だからな。。 後手の持駒:歩二 9 8 7 6 5 4 3 2 1 +---------------------------+ |v香v桂 ・v金v玉 ・v銀v桂v香|一 | ・ ・v銀 ・ ・ ・v金v角 ・|二 | ・ ・v歩v歩v歩v歩 ・ ・v歩|三 |v歩 ・ ・ ・ ・ ・v歩 飛 ・|四 | ・v飛 ・ ・ ・ ・ ・ ・ ・|五 | 歩 ・ ・ ・ ・ ・ 歩 ・ ・|六 | ・ ・ 歩 歩 歩 歩 ・ ・ 歩|七 | ・ 角 金 玉 ・ ・ 銀 ・ ・|八 | 香 桂 銀 ・ ・ 金 ・ 桂 香|九 +---------------------------+ 先手の持駒:歩二 AlphaZeroの消費電力は TPU x4 だけじゃなくて それにプラス44コアCPUの消費電力も加算だから elmoよりTPU分消費電力は多いよ この6万npsっては読みの深さはどれくらいなんだろ?かなり枝狩りするのか他のソフトと同じ程度の枝狩りなのか知りたい >AlphaZeroはMCTSを使うことで、例えばチェスではチャンピオンのStockfishが1秒当たり >約6000万のポジションを検索するのに対し、わずか6万しか検索せずに済むという。 http://www.itmedia.co.jp/news/articles/1812/09/news018.html なんで電力あたりの強さなんて評価で見てるんだ。 AlphaZeroのアーキテクチャだと、TPUの方ばっかり回って CPUはスカスカの稼働率かも知れないから、実際のところの使用電力なんか分からんよ。 TPUは流石に100%使い切るだろうけど、両方を100%使い切ることはなかなか難しい。 消費電力はともかく、TPU 1基が180T FLOPSで、4基だと720T FLOPS かたや48コアPCでも3T FLOPSぐらいしかないので 単純計算だと240倍ぐらい演算能力が違うように思うけど… (実際はそこまでの差ではない?) 重いけど正確な評価関数で少なく局面を読むAlphaZeroと、 軽いけど精度が粗い評価関数で大量に読むこれまでのソフト、という構図。 現状の既存の将棋ソフトの構造では局面の評価値の精度はAlphaZeroに圧倒的に及ばない。 どっちの方向に将来的を感じるかと言ったら、より高精度な評価関数を持ちうるAlphaZeroの方。 AlphaZeroの方は精度をあまり落とさず更に軽量化して方向もある(ニューラルネットの軽量化は既にある手法)だろうし。 NNUEはどちら側なんだか。KPPTは見かけなくなったな 「AlphaZero」がチェス、将棋、囲碁の各世界最強AIを打ち負かす AlphaZeroはこの方法で、チェスを9時間学習した後チェスの世界チャンピオンAI「Stockfish」を、将棋を12時間学習した後世界コンピュータ将棋選手権の2017年の勝者「elmo」に、囲碁を13日間学習した後AlphaGo Zeroに勝利した。 http://www.itmedia.co.jp/news/articles/1812/09/news018.html 枝刈り評価値上位3つぐらいで探索したとして50手先の最強の手を予想する 場合は以下の局面数を評価しないといけないことになる。 3^50 = 717,897,987,691,853,000,000,000.0000 = 717,897,987,691,853 x 1兆局面だぞ! これはどんな最強マシンでも不可能に思える。 だから単純な評価値のminmax法だけではすぐに完全な読みには限界がくる。 具体的には20手ぐらいの評価値探索で打ち切る方法でどれぐらい節約できか にかかっているかと思う。 そこまでの数学力がないので調べることがないが現時点での 探索みると深さ37開始時に18,339,449,975(約183億) 探索みると深さ38開始時に27,868,971,435(約270億) 掛かってる。 (候補手1の場合で候補手3の場合はこの3倍かかる) 枝刈りによる局面数増加を抑える仕組みがあるとしてこのまま100億ノードで 深さが1づつ増えるのなら希望も持てるが果たしてどうなのだろうか? >>278 *kifu for windows に張り付け 後手の持駒:歩二 9 8 7 6 5 4 3 2 1 +---------------------------+ |v香v桂 ・v金v玉 ・v銀v桂v香|一 | ・ ・v銀 ・ ・ ・v金v角 ・|二 | ・ ・v歩v歩v歩v歩 ・ ・v歩|三 |v歩 ・ ・ ・ ・ ・v歩 飛 ・|四 | ・v飛 ・ ・ ・ ・ ・ ・ ・|五 | 歩 ・ ・ ・ ・ ・ 歩 ・ ・|六 | ・ ・ 歩 歩 歩 歩 ・ ・ 歩|七 | ・ 角 金 玉 ・ ・ 銀 ・ ・|八 | 香 桂 銀 ・ ・ 金 ・ 桂 香|九 +---------------------------+ 先手の持駒:歩二 *▲8七歩だと塚田スペシャル風手順で後手有利 ▲8七歩 △9五歩 ▲同 歩 △9六歩 ▲同 香 △8六歩 ▲同 歩 △同 飛 ▲8七歩 △9六飛 *なので▲7六歩は必然だが▲8三角とか▲4一角の超絶攻防手があって後手ペースか *でも▲8三角とか▲4一角はムズイな 287の図で考えることは… ・▲7六歩△8八角成る▲同銀△3三角▲8六歩△同飛▲8七歩 こう進んだ時の持ち角の価値と歩の数の差 (と評価値) ・▲8七歩△9五歩▲同歩△9六桂のとこからの変化 ▲3七桂△9五飛▲3四飛とか ▲7六歩△9五飛▲3四飛とか 飛回りが消えてるから人間同士なら前者選びそう 後者は乱戦というか盤面全体の戦いと言うかに持ち込んで 端をぼかしてしまおうという高等戦術だね この辺を突き詰めて調べると評価値どうなるかだなあ 俺も >>286 と同じで数学の証明問題が苦手で教えて欲しいんだが >>11 の駒落ち必勝手順の証明で 「裸王では、下手が偶数手目に78飛76歩75歩74歩73歩成72と73飛成33角成と指せば、17手目に上手玉がどこにあっても残り3手で詰みである。」 これは「20手以下で必勝」という必勝手順の証明だが、最善手の証明ではない 最善手と証明するには、18手以下の必勝手順は無いと証明しないといけないって事でOK? >>289 最善手の定義とは何? 詰将棋においては手数は大事だけど 指し将棋においては手数はスコアに影響しない ロタって1500万ノード厨の典型的ガイシで AlphaZeroの棋譜を妄信するw お前の1500万とAlphaZeroや現実の対戦するノードと剥離があるのすら理解できてない 今まで1GBで計測してて疑問視されてたのに急に変える能無し レーティングサイトはuuunが苦肉で決めた基準なのに個人の主観入ってる時点でクソ 河童もパクられるのムカツク発言してたのに野良パクって平岡に苦言される始末 AlphaZeroの棋譜でてイキッてるマウントガイジしかいない AlphaZeroをageるにしてもsageるにしてもなんかこう毎回極端というか それはそうと河童絞りDepth16が地味に気になる あれだけ計算資源投入した棋譜なんてそうそう作れないから、それだけでかなり価値があると思うんだがな ここのところ毎回評価関数ではトップのもの作ってるし河童絞りは優秀だよな >>246 それは単に青野流先手の定跡の作り込みが甘かっただけでしょ? PALや白ビールは後手で持っても相手がそこにハマれば勝てる定跡を持ってた >>266 デイビッド・シルバーを読んで論文の報告会を開いてもらうのが一番ためになりそう そこでWCSCの様子を見て面白いと思えばなにが進むかもね ニューラルネットワークとMCTSの終盤については今やってるTCEC見てると、 176スレッドのストックフィッシュが早々に評価値ゼロのドローを示してる時に LeelaChess0は自分に+6.0とかの圧勝の数値を出してたりするんだよなあ elmoに76歩を強要してるせいでalphazeroの後手番での真の力がイマイチわからない感あるのが残念 普通にやらせるとわりと負けるんだったらalphazeroはかなり後手番苦手ってことになるがどうなんだろう 自分は絶対76歩突かないくせに相手には必ず突かせるってちょっとひどすぎるよな elmoが対戦相手としては弱すぎて何にも分からんというのが実際のところ せめてAperypaqの棋譜が公開されていれば… それでも弱すぎるが… >>295 記憶違いしてたみたい。強い相手だと調べたらこんな感じだった。たぬき戦は決勝で定跡ではめたけど終盤力で負けたってのがあった 第五回電王トーナメント決勝 たぬき戦に負け Yorkieに256手で勝ち(例の騒動になったの) 第28回世界コンピュータ将棋選手権 Apery戦に256手で引き分け >>291 1500万前後のノードならhash1GBでも十分じゃないの 囲碁みたいに自己対戦の棋譜出してくれればいいんだけどな 双方入玉が多そうやがw 256手で引き分けになるっていうルールも学習してくれたら 終盤や入玉の指し口も変わったんじゃないかな 選手権に向けては320手ルールでの学習が必要なのか 選手権もまた手数制限無しの切れ負けルールになるかもしれないし 囲碁だけど絶芸の80ブロックってAlphaZeroの倍だったのか・・・ 次元が違い過ぎてどっちがどれだけ強いのかまったくわからん floodgateも選手権のテストに使用されるなら320手ルールを導入した方がいい気がする floodgateの棋譜が定跡作成や学習に使用されることがあるかもしれないし 盤面の評価値には手数の概念はない。 256手や320手で引き分けになるというのは、千日手と同様に 探索部で判断すべきこと。 >>309 シボレーでresign varueを下げて学習させた評価関数は入玉が下手になっていた。 直接的な評価で手数は関係なくても、学習などで影響が出る可能性がある。 >>299 というか、一本調子なのが。 AlphaZeroに勝てないな〜と思ったら、 戦法変えて奇襲したりいろいろやってほしい。 まあ敗局自動学習しないと無理… 大昔のやねうらおもてなし定跡って どうしたんだっけ。 最善手という言葉だから1手しかないように感じるかもしれないけど、必勝の手は全て最善手。 将棋のルールで短手数で勝ったほうがいいとかいうものはないから、引き分け手数以内に必勝になる手があるならそれはどれも最善手。 >>309 ルール上引き分け手数が設定されている場合は、盤面の評価値に手数は関係あるよ。 たとえば320手で引き分けルールで、323手目に詰みがある局面の評価値は引き分けの0であるべき。 そういう理由かどうかはわからないけど、AlphaZeroの入力には手数も入ってる。 竹俣ベニー ベニー、細川投げる。1イニングに3死球 https://youtu.be/TJJNaP7ZscM @YouTubeより >以前にAMDが「世界コンピューター将棋選手権」をスポンサーしていたことを思い出した。2003〜2006年ころの話である。 https://news.mynavi.jp/article/semicon-56/ >>317 終盤のGCP使ってるって話(事実はAWSのほうが多い)から 深層学習使ってるって話に飛躍して更にAlphaZeroへ飛ぶってすごい展開だな >>128 AMDワンメイク大会とかできないかなあ AMD大会になると、DL勢がつらい。 ほぼ100%Cuda使ってるのをOpenCL使わないといけなくなるからなぁ。 AlphaZero宣言勝ちができないかどうかは知らんが、そうだとすると 初手76歩を避けたりするのに影響が出ている可能性が 素人意見だが、アルファゼロは2つのネットワークを持ってるから、 NNUEも2つ持ったら、もっと深く読めるようになって、強くなるってことはないのか。 tanukiチームあたりは来年さらに洗練されたNNUEの評価関数を出してきそう。 >>322 短いので引用 DeepMindは、AlphaZeroの目的はチェスや将棋、囲碁に勝つことの先にあり、 様々な実世界の問題を解決するシステムを構築することにあると語った。 AlphaZeroは、単一のアルゴリズムが一連の設定で新しい知識を発見する方法を 学べることを示しており、まだ初期段階ではあるが「複雑な問題に対する斬新な 解決策を見いだす汎用的な学習システムを構築するというわれわれのミッション に自信を与えてくれた」という。 DM「とりあえず囲碁将棋チェスボコっとくか 将棋ファン「うおおおAlphaZeroすげえええええええ」 DM「さ、次いこう次」 将棋ファン「AlphaZero!!AlphaZero!!」 いいのかそれで ■ このスレッドは過去ログ倉庫に格納されています
read.cgi ver 07.5.1 2024/04/28 Walang Kapalit ★ | Donguri System Team 5ちゃんねる