AVX-512の最適化で構造構想の為になること聞いたのでお裾分け
AVX-512は結果のフローコントロールができる
これによりSIMDでありながら疑似MIMD的な使い方ができるのだけど
レジスタからキャッシュに書き出す際にこれを用いることでタイミングのコントロールが可能
これによりレジスタ-キャッシュ間の帯域をバランシングさせられる
ただ当然レジスタの本数は有限なので使い切ってしまう恐れが出てくる
マルチオペラント命令を使うことでレジスタを破棄せず使いまわせるので極力利用する
また結果の書き出しとアドレスへの載り方は512bit単位で連続となるので
MIMD的書き出しの際に行列になるように(行と列はひっくり返ってもいい)してやると負担がさらに減る

ここら辺を考えて最適化してあげるとハードウェアにやさしい