全然話変わるんだが、AdaGradで学習するときのetaってどんな感じで変化させるのがベストだと思う?
例えばミニバッチサイズ100000で100億局面学習だったらどんなもんかな?