途中で送信してしもた

__device__
void
SubThread(){
...
}

__gloval__
void
Thread(){
SubThread<<<1,1024>>>();
}

int
main(){
Thread<<<1,1>>>Thread();
}

みたいな。
これができないとCPUマルチコアプログラムからGPUプログラムに簡単に移行できんわ。
CPUもC#やインテルコンパイラから入ったんで、大体様子がわかって、
ompでは用意されてなかったPartitionerを先ず作ってめちゃ楽にコーディングできるようになった。
GPUはまだ手探り状態