俺はCUDA使ったこと無いんだけど

>__global__でnew/deleteを使ってGPUだけで完結処理

これって思い込みじゃねえかなあ