AVX-512がなぜ予想よりも速くないのかのハードウェア側から見た話
十分に最適化されているのが前提ではあるが本来はAVX2を圧倒する性能を発揮しないとおかしい
単純な話でクロックが低い為
SIMDを使う場合SSE>AVX2>AVX-512とどんどん動作クロックが下がる
SSEは128bit・AVX2は256bit・AVX-512は512bitのSIMDとなっている
つまりAVX-512では512bitの巨大なzmmレジスタを持つ
zmmレジスタは32本(64bitのマスクが出来るkレジスタの説明などは省略)

実際の実行パイプでもパック数が多いためにそれ相応の消費電力を食うが
それより問題なのがこのzmmレジスタにキャッシュより供給する能力となる
多オペランドによるレジスタの積極的使いまわしもあるが基本的にはキャッシュより常に512bit(64bit*8)切り出される
設計する人間にとっては地獄のような要求である
追加された非常に有用な命令gatherやscatter(メモリ上要素を64bit*8まとめてロード/ストア出来る)がこれを加速する

特化された富士通A64FXですらも512bit幅SIMDになっている理由がここにもある
勿論コアに近いキャッシュ(モダンCPUではL2まで)への供給が間に合わないというのも大きい
どうすれば解決できるかに関しては正攻法のプロセス性能を上げるしかない
1024や2048bitのSIMDも当然研究されているのだろうが3nm以降で何とかかなと予想する
直近の話だとIntel 10nm(他社7nm相当)でプロセス性能が上がりAVX-512が本領を発揮してくれる可能性があり期待してる