正確には
      CUDAで計算
          ↓
計算用と描画用として二つのデータをメモリにコピー
     ↓        ↓
グラフィック描画  CUDAで計算  ←ここを並列化したい
               ↓
計算用と描画用として二つのデータをメモリにコピー
     ↓        ↓
グラフィック描画  CUDAで計算
               ↓

といった処理の流れです
描画と計算の処理の合計が少しでも速くなれば最終的には速くなる見込みなんですが、描画とCUDAは同時にはできないのでしょうか?