0767名無し名人 (ワッチョイ 1302-clLQ)
2019/04/16(火) 15:53:21.54ID:rNkH3Xzo0単に強化学習の効率を上げるための一つの手段だよ
素の強化学習アルゴリズムでは地球が超新星爆発するまでに将棋が解けるかどうかっていうレベルから、微々たる効率アップでもたくさん積めばちょっとはましになるんじゃないか、という発想だな
それの現在の最も成功している例がDeepMindが発表したRainbowっていうDQNの発展形
そのRainbowアルゴリズムの中に、確率分布を使うってのも含まれてる