▲コンピュータ将棋スレッド125
■ このスレッドは過去ログ倉庫に格納されています
>>214
AlphaGo Zeroの場合は
完全な自己対戦スタートにした事で
人間の棋譜スタートの旧Alpha Goよりも最終的に強くなった事に意義がある訳で・・・
rezeroは強さに対する利点を見出してないから、その点でも全く違う。 >>211
駒割ゼロならゼロっていう情報を意図的に与えてるとも取れるでしょ モンテひよこから棋譜作って学習させてみたいけど
そのモンテひよこが公開されてない >>216
ほー、旧Alpha Goみたいに人間の棋譜スタートにするとZeroと同等の学習量をこなしても同じ強さにならんのか >>219
そういうことらしいってのを質疑応答でハサビスさんが言ってたらしいよ。
AlphaGoにとっては人間の棋譜って足かせだったんじゃないかっていう説。
正しい学習を阻害していた可能性があるんだと。 羽生が角落ちなら将棋の神に勝てるとか言っていた当時は、角落ちだと戦力不足でどんなに強くても名人には勝てないと力説している人がいた 駒割については他の評価関数の項目で吸収されるので実質的な
意味はない…という話は既にどっかで解説されていたのに
駒割にこだわる人は読んでないようだ。 配布中のtamoreなんとなく終盤はyaselmoより強いように見える。検討にはいいかも >>215
恥知らずな奴だなあ
「ハンデ貰えばミスさえしなければ必ず勝つ」とかのたまってたじゃないか
これどう読んでも「勝率100%」以外の意味には取れないだろ
議論に負けそうになったからって嘘つくのはよくないよ
これで「数学的」とか言いながらマウント取ろうとするって………
203 名無し名人 (ワッチョイ c11e-0mKs) sage 2017/10/22(日) 20:41:01.90 ID:/R+3J9+c0
負けるっていうのは強い方がいい手を指して勝つわけじゃなくて
勝ち局面を持ってるにもかかわらず正解手を選べずにミスした瞬間に負けになるわけだから
ミスさえしなければハンデを貰ってるほうが必ず勝つしミスするなら強い相手には絶対負ける >>220
ほー、学習局面の膨大さ的に最終的に誤差になるかと思ってたわ >>225
これ、かなり気になってた部分だから俺もソース欲しいわな。
学習方法や時間を変えた結果ではないのかなと思ってたけど 人間の棋譜から学習するという段階の時代ではなく、
経験に基づいて選択肢を絞り込んでから ありそうなところを深く考える、という 人間の手法 を
機械的な手順に置き換えて さらに絞り込みの精度を上げていくという方法を コンピューターが使ってるので、
棋譜を並べて勉強するのではなく ゲーム盤で駒を動かしているだけで 勉強になってるんじゃないか。 // ○ KKPP型
平岡氏のヒントで○にしたのか
それとも実際にテストしたのか >>222
擬似的に駒割を修正するようにKPPTパラメータが決定されてるのはそうだけど、
言われてるのは学習の開始時にゼロベースになってないことだよ
人力パラメータや棋譜を使おうが使わまいが最終的には自己対局て学習するし、どちらが強いってこともないと思うけどね
AlphaGoの使わない方が強いってのは、たまたまor学習の進行が上回った瞬間がキャプチャされただけと考えてる つか初期値依存で最終的な学習結果がガラッと変わるようでは学習方法に問題有りとしか言えぬ
結果が不出来なら叩かれるべきは初期値として与える駒割ではなくて学習方法、、、 正規化項として歩の価値ぐらいは固定値で持たせて結果にバイアスが生じたならやっぱそれは
固定値で持たせたという学習方法の問題やし… 訂正
×:固定値で持たせた
○:不適切な量を固定値で持たせた >>230
駒割の自動学習はやねうら以前に先行研究があり駒割が手動で入力されていても
本質的な問題ではない 駒割のみからスタートのrezeroよりも
既存評価関数スタートのまふ評価関数の方が
計算資源に乏しいにも関わらず強くなってるんだから
将棋に関してはゼロベースは何の利点も見出してないね今のところ >>194
AlphaGo Zeroが100勝するバージョンはレート上トップ棋士よりやや強いか互角くらい
将棋でいうとGPSクラスタ相当だと思うけど、それくらいが相手なら最新のソフトに十分なマシンパワーを与えれば全勝でもおかしくないのでは Alpha GOはポリシーネットで相手の指し手を予想してたが、人間の指し手を読まなくなったとすると
対人戦で読み筋ズレまくって弱くなったり…しないか?
過学習の袋小路、ぐるぐるジャンケンにはまり込んで無いのかね? >>120
ベストなタイミングでコンピュータと戦って歴史に名を残したオセロ。将棋は…?
●負けたことで残せる「歴史」
――中でも印象に残った言葉はありますか?
将棋ファンの同僚からの一言です。彼は慰めてはくれたのですが、他の場面で「まあ、将棋は味とか含みがあるからね」とも言われました。
つまり「味や含みといった微妙な駆け引きのある将棋はオセロより複雑で、だからコンピュータに負けることはないだろう」という意味を言外に感じました。
もちろんオセロにも味や含みはあるし、将棋に劣らない複雑なゲームなのですが、その場で反論はしませんでした。
囲碁将棋ファンが持つオセロへ対する誤解は根強く、1つも2つも下に思われていたので。それをその場で正すのは難しい。「いずれ時が来れば分かりますよ」と、
心の中でつぶやきました。20年を経て、それは全く予想通りになっていると思います。
また、「チェスと同じ年にオセロが負ける」ことで、歴史に名が残ると思いました。「負けた」という歴史を刻むことは、
複雑な知的ゲームとしてのオセロの立場を守ることにつながると。
例えば、これがチェスが負けた5年後であれば、オセロにおける人間とコンピュータの力の差がさらに広がり、誰の目にも明らかになって、チャンピオンとソフトの対戦は
そもそも企画されなかったでしょう。そういう意味ではギリギリで滑り込んだと思っています。
あの年(1997年)しかなかった。現にいま、盤上ゲームにおけるAIとの歴史を語る際には、囲碁、将棋、チェスとセットで扱ってくれることも多いのです。あのつらい敗戦は、
4大頭脳ゲームの1つとしてオセロが認知されることに明らかに貢献していますね(笑)。 >>231
elmo式は問題有りか
リゼロ評価関数のほう、ようやくepoch11にしてelmo(WCSC27)と並んだのだが、
穴熊に全然囲わない。穴熊超嫌い。どうやっても穴熊に囲わない。
もちろん、穴熊は優秀なので相手に一方的に穴熊を許すと作戦負けになる。
一方、まふ定跡のまふさんが定跡として四間飛車の定跡を教師局面の生成のときに用いて評価関数を
学習させると(その定跡の半分は穴熊に進行するので)、
居飛車穴熊を自然と指すようになったとこのブログのコメント欄で書かれている。
http://yaneuraou.yaneu.com/2017/06/26/ >>237
アルファ碁zeroってトップ棋士と互角なの?
将棋はすでにその辺のソフトにトップ棋士がぜんぜん敵わないのに
碁のほうが簡単だと言われてたのに >>242
イ・セドル(少し衰えたがそれでも鬼強い)を4−1で降した初代Alpha碁。
世界の名だたるトップ棋士たちに60戦無敗のマスター。
そのマスターに勝率9割なのがAlpha碁ゼロ。
将棋で言えば、名人がゼロで、天彦が奨励会6級、清水上・稲葉兄・早咲のアマ強豪で道場初段くらい。 uuunuuun?さんが作ってるソフトの棋力レートでtamoreが今1位なんだけど
これって9/20に公開されたkkp_kkpt版の方を指してるんじゃなくて
昨日リリースされた従来の手番付き(kkp_KPPっていうんだっけ?)の方の事をさしてるんかな? 裏でやり取りしてる最新のkkp_kkpt版じゃねぇの >>238
サンプルとして与えられたデータに対応し過ぎると 未経験のデータが来た時に大きく外れた対応をしてしまうというのが 過学習の理屈なんだが、
対戦相手からあまり影響を受け過ぎないようにしつつ その機会損失を上回って余りある回数をぶんまわすことで 少しずつ修正することで 過学習を避けてると思うんだぜ。
アルファ碁ゼロは レーティングが上がったということより、
教師付き学習を止めて 自己対戦の強化学習をしたら 前のより強くなった、というところでペーパーを書いた、という感じに見えるぜ。 >>247
おいクソみたいな顔文字はどうしたんだよ >>245
これどこにある?
よければURLはってください tamoreの最新版、yaselmoに勝ちまくるんだけど俺んところだけ? 数百局やらないと分からない。
終盤はyaselmoより強いように見えるけど >>250
tamoreってどこで配布されてるんですか? >>242
文がわかりにくくてすまんな
互角なのはAlphaGo ZeroじゃなくてAlphaGo Zeroのベンチマークに使われて全敗した旧AlphaGoのほうだ >>253
このtamoreって
20170920と20171019のどっちがyaselmoより強いの? 碁はニコニコのインチキルールだったら棋士にも勝機があるかもしれん
PC制限&アプデ禁止ならそぞり囲碁に持ち込める可能性がある 個人的には、tamoreより横歩取り評価関数の方が気になるので、検証中 >>245
uuunuuunさんのレート表だとyaselmoがトップなんだけどどこのランキング? >>262
uuunuuunさんのツイ画像の中にあった
日付見ると結構前に出来てるんだな この前の王座戦第四局の52手目の56飛の局面なんだけど
yaselmoでもなかなか後手有利の評価を出せないんだよな
65億局面読ませてやっと後手有利-430ぐらい
5億くらいだと互角評価になっちゃう
こういう局面を正確に読めるソフトってまだ出来ないのかな? >>242
こういう関係性
3008 樊麾(2016年1月1日付け)
3144 対樊麾戦バージョン(GPU176)
3520 イ・セドル(2016年3月16日、ランキング4位)
3670 柯潔(2017年10月23日、ランキング1位)
3739 対イ・セドル戦バージョン(TPU48)
4858 対柯潔戦バージョン(TPU4)
5185 アルファ碁ゼロ 伸びやばない?
将棋は1年で200伸ばしてたところを、最近オープンソース流行で半年200伸びててスゲーって感じだろ?
なにさらっと1000とか上げてんの? 碁はそれだけ人間が理解するには難しすぎたってことだよね ハードだけで数十億かけてるってのもある。金の力で進歩速度は変わる >>270
yaselmoって早い段階で発表されたのに未だに最強だね
検討使っててもyaselmoが一番正確だよ >>243
マジかよ奨励会初段といい勝負の俺って天彦以上の神じゃん >>264
中村でもよくて数千手くらいしか読んでないだろう
ノード数制限ならまだ人間がかなり上だな honeywaffleは今回は定跡だけじゃなくて振り飛車専用に学習させるみたいだけど
相居飛車の勝率を犠牲にすれば対抗形の勝率だけは普通にやるよりよくなるってことは可能なの?
もし可能なら大会での勝率を最大化するには特定戦型を指すように学習させたほうがいいってことになるよね。
一般公開して検討用に使うには不向きだけど >>253
Error (429)
This link is temporarily disabled. The person who shared it hit their daily limit of traffic or downloads. Learn about traffic limits. >>275
18号がその方向性
https://twitter.com/mm_Tamachan_mm/status/910851267471187968
検討用にはその方がいいと思います。
が、勝負となると話は別で、如何に自分が特に学習しているヤマに相手を引っ張り込むかがカギになります。 dropboxは帯域クソだからしゃあない。
tamore長時間だと凄い強いな。 長時間で自己対戦やるハードは持ってないけど >>275
今回は入賞した際の対人戦が無いから対ソフト対策ソフトとしてはそういうのはアリだと思える グーグルの新プロセッサで計算させたらワンチャンあるのか googleに借りれば
5年分の計算が1日で終わるから
WCSC30くらいで到達する強さを先取り出来るね honeywaffleの振り飛車専用ってのは相手も振り飛車やってきたときに相振り飛車にするのか
大山のように居飛車側をもって対抗形にするのかどっちがいいのかな。人間だと振り飛車党同士だと
けん制しあって相居飛車になったりすることもあるがw >>282
そりゃ対抗系だろ。
対抗系特化という意味。 Curryつえーな
xeon40コアtamoreに貫禄勝ち 大会に参加するでもなく、公開するでもなく、floodgateに流すでもなく、方法を書くでもなく、
ただ強い評価関数ができました >>264
52手目で後手有利ってのは確定なのか?
そのレベルにくると検証困難では?
65億ノードでやっと出てくる結論の正確性信頼性は、1兆ノードくらい読んで結論が変わらないことを確認しないとわからんのでは? >>272
アフィカスひまわりは自分のスレへ帰ってどうぞ >>289
羽生と中村の感想戦ではあそこではもうだいぶ後手有利みたいな結論だったと思う あの後、yaselmoの最善を続けるとあっという間に後手必勝の局面になる
互角評価のところからでも最善を続けて後手にばかり評価が傾いていくということは
その時点で実際は優劣がついてるということではないのでしょうか? >>293
私の環境は低スぺなので、参考までだけど、
58手目の棋譜解説の中で、控室の検討の中の順を見てたら、先手が優勢になるのがあった。
棋譜解説の文は、「・・・また▲8四角△7三歩▲3六銀△7一金という順は優劣不明のようだ。」
優勢になっていった順は、
▲8四角 △7三歩 ▲3六銀 △7一金
▲2二桂成 △同 金 ▲2三歩成 △6五桂 ▲6六銀 △1五角
▲5八玉 △3八銀 ▲2四飛 △同 角 ▲同 と △8三歩
▲7五角 △4九飛 ▲6五銀 △8九飛成 ▲7九飛 △同 龍
▲同 金 △2八飛 ▲4八桂 △3二金 ▲3四と △5七桂
▲6六歩 △2九飛成 ▲6八玉 △4七銀引成 ▲4四歩 △同 歩
▲同 と △6九桂成 ▲6七玉 △7九成桂 ▲5三と △6二金打
▲5二と △同 金 ▲5三金 △同 金 ▲同角成 △6二金打
▲5二金 △同 金 ▲7一馬 △4一玉 ▲7六玉 >>294
その順もyaselmoで検討したけど
36銀、57銀、同角、37角、58玉、57銀成、同玉、48角
という順であっという間に先手敗勢になる
実際に進めてみるとよくわかる 要はtamore Xeon 40cっていつぞやのrereでいいんだよね?
もしそうならダブル燃橋どんだけ強いんだ >>293
いやいや、そのソフト最善というのがどこまで信用できるのかという話。
3コマの評価関数は大間違いが無いだけで、局面評価に細かい誤差が無いことは証明されてない。
だから深く読んで先々で大差が生じないかを見ているが、全幅探索できずに各局面2〜3手しか深く読んでない。そこで切り捨てられた手が最善でないとどうして言えるのか。
そういうちょっとした疑いが30手も40手も積み重なればもう結論の信用性なんて危うい。
>>292
もちろん人間はもっと信用できん。
まあ彼らの能力での暫定的な結論ではある。
とか言ってみる。 やっぱり三駒関係から脱却目指した評価関数の登場が待ち望まれるな 4駒関係って実用レベルのCPUやらメモリやらの資源3駒と比べると何倍くらい必要なもんなの? 計算量12倍差あるのか
自己PR文で4駒匂わせてるとこはよほど工夫して速くしてるか精度が高いんだな ukamuse_sdt4に負けてるやん。中身はホントかわからんが https://twitter.com/mktakizawa/status/922797087527378944
現elmo
vs tamore 勝率45% 99戦(1手20秒)
vs yaselmo 勝率60% 94戦(1手20秒) >>304
elmo強くしてやっとこのくらいなのか? >>305
やっぱリソースがキツいんだろうか?
まぁ、家庭用PCで動かんソフトは興味ないが。 >>306
これが本当ならR100以上上がってるから着実な進歩じゃないか?
何か秘策もあるみたいだし AlphaGo Zeroの自己対戦って
合計で2900万局しかないから
局面数にすると重複込みでも合計で100億局面行かないんだよね
将棋は合計1兆局面絞りとかしてるから
まだまだ学習方法で改善の余地が残ってそう AlphaGo Zeroは普通に探索能力が高いだけかもよ。
実戦時は1台といってもTPU4枚=GPU60枚分のパワーがあるから
相当ごり押しの探索ができるから。 囲碁の探索ってどんなクラスタでも10手読むくらいが限度って聞いたことあるけど そもそもalphago zero ってモンテカルロ探索使ってなかったような・・・ ■ このスレッドは過去ログ倉庫に格納されています