InfiniBandはCUDAを使ったGPU演算でよく使われてるが、
InfiniBand経由で別のマシンのGPUをアクセスするには
DMAを使う必要があり、プログラムが異常に難しくなるんだよね。
DMAとか意識しないでもっと透過的にパラレル演算できるといいだけど