期待勝率じゃなくて期待勝率分布を使うってのはオナニーとかどうとかではなくて
単に強化学習の効率を上げるための一つの手段だよ
素の強化学習アルゴリズムでは地球が超新星爆発するまでに将棋が解けるかどうかっていうレベルから、微々たる効率アップでもたくさん積めばちょっとはましになるんじゃないか、という発想だな
それの現在の最も成功している例がDeepMindが発表したRainbowっていうDQNの発展形
そのRainbowアルゴリズムの中に、確率分布を使うってのも含まれてる