後続の処理が走ってもデータが保持されるかどうか?
これについては実装依存としかいいようがない
なにせGPUはCPUと比べてもキャッシュの容量は小さいので
いつまでも今処理してないデータを保持し続ける理由も乏しい。

処理順序の並べ替えが可能なら、データアクセスの局所性に合わせて並べ替えることをお勧めする。