cudaコアの数以上にスレッドを生成する利点は
メモリアクセスの遅延の隠蔽にある