倍精度で計算するのが流行ってるのでちょっと試してみたんですが
ブロックで分けて処理するよりも、1サンプル単位で逐次処理した方がパフォーマンス出ますね
サンプルのサイズが大きいとSMIDで並列処理しにくいとかキャッシュに乗りにくいとかあるのかな