現elmo vs tamore 勝率45% 99戦(1手20秒) vs yaselmo 勝率60% 94戦(1手20秒) 0305名無し名人 (ワッチョイ fa61-bcII)2017/10/24(火) 21:33:05.67ID:8awUke6s0 瀧澤さん、SDTでの4駒開発断念か 0306名無し名人 (ワッチョイ 511b-WSSd)2017/10/24(火) 21:41:24.40ID:E2roAkpp0>>304 elmo強くしてやっとこのくらいなのか? 0307名無し名人 (ワッチョイ e5b3-gh9y)2017/10/24(火) 21:46:07.05ID:uoHMCdrr0>>305 やっぱリソースがキツいんだろうか? まぁ、家庭用PCで動かんソフトは興味ないが。 0308名無し名人 (アウアウウー Sa89-P04j)2017/10/24(火) 21:58:58.68ID:gnj9F9cqa 将棋ソフトは頭打ちかね 0309名無し名人 (ワッチョイ fa61-bcII)2017/10/24(火) 22:12:57.81ID:8awUke6s0>>306 3駒はほとんど開発してなかったみたい 0310名無し名人 (ワッチョイ c5eb-HJ4h)2017/10/24(火) 22:16:44.62ID:OqxGOYWu0 やはり大本命はaperyか。 0311名無し名人 (ワッチョイ fa7c-U5aN)2017/10/24(火) 22:39:47.43ID:W6qVYiwk0>>306 これが本当ならR100以上上がってるから着実な進歩じゃないか? 何か秘策もあるみたいだし 0312名無し名人 (ブーイモ MM71-cI4C)2017/10/24(火) 22:52:37.49ID:Vh9VtH5LM AlphaGo Zeroの自己対戦って 合計で2900万局しかないから 局面数にすると重複込みでも合計で100億局面行かないんだよね 将棋は合計1兆局面絞りとかしてるから まだまだ学習方法で改善の余地が残ってそう 0313名無し名人 (ワッチョイ 8edc-aYWJ)2017/10/24(火) 23:12:34.45ID:235HPKdz0 AlphaGo Zeroは普通に探索能力が高いだけかもよ。 実戦時は1台といってもTPU4枚=GPU60枚分のパワーがあるから 相当ごり押しの探索ができるから。 0314名無し名人 (ワッチョイ fa7c-U5aN)2017/10/24(火) 23:15:46.54ID:W6qVYiwk0 囲碁の探索ってどんなクラスタでも10手読むくらいが限度って聞いたことあるけど 0315名無し名人 (ワッチョイ fa7c-U5aN)2017/10/24(火) 23:18:13.38ID:W6qVYiwk0 そもそもalphago zero ってモンテカルロ探索使ってなかったような・・・ 0316名無し名人 (ワッチョイ 8edc-aYWJ)2017/10/24(火) 23:26:32.88ID:235HPKdz0 使ってないのはモンテカルロ木探索内でのroll outで、モンテカルロ木探索自体は使ってると読み取れたけどなぁ。 まぁ、英語そんなに得意じゃないので正しいことは他の人に任せたw 0317名無し名人 (アウアウウー Sa89-P04j)2017/10/24(火) 23:29:31.84ID:R6XgJcgta いつまで囲碁の話ししてんだ 0318名無し名人 (ワッチョイ 71c3-REa2)2017/10/25(水) 00:09:25.81ID:pjGYMbMg0 AIの議論してるのにアルファ碁の検討しないでどうするんだ 0319名無し名人 (ワッチョイ c5eb-gcVe)2017/10/25(水) 00:18:15.65ID:97IGuaEd0 tamoreとyaselmoで対戦してたら評価値は千日手じゃないのに、shogiguiが千日手判定した。なんだこれ おかしいのはshogiGUI?やねうら王?それとも仕様? https://ux.getuploader.com/ishogisalon/download/36 👀 Rock54: Caution(BBR-MD5:669e095291445c5e5f700f06dfd84fd2) 0320名無し名人 (ワッチョイ a17e-wYkv)2017/10/25(水) 00:30:32.74ID:K1RQWXmx0>>312 Mini-batches of data (s, π, z) were sampled at random from the KGS data-set, setting πa = 1 for the human expert move a. 人間の棋譜からの学習は、次の手を100%として学習してるのに対し
maximise the similarity of the neural network move probabilities p to the search probabilities π. Zeroの強化学習では盤面全体の着手確率を学習 これで最善手だけでなく探索も改善してる、読み抜けが減りそう