暇なんでIntelのAVX-512や富士通のA64FX SIMD(SVE)がなぜ512bit*2だか考えてみた
1024bitや2048bit SIMDはあり得るのかどうかも
合計1024bitという事はL1DからコアへのDフェッチは128Byte/cycle必要となり実装もこの値となる(ストアは非対称で64B/c)
横にそれるが富士通が特徴的なのはL1Dからアラインされてない128Bでも連続アクセス出来る事と
同ラインに入っている場合はコンバインドすることで2倍のスループットと出来る点である
それに対しL1IからのIフェッチはおそらくIntel富士通共に32B/cとなる
A64FXはSPARC64ベースとなっているし拡張する意味も無いので間違いないと思われる

ハーバードアーキテクチャーなので関係ないと言えば関係ないのだが
トランジスタや消費電力バランスを考えるとI32:D128はギリギリの線で少し攻めてる感がある
1024bit*2となるとDフェッチが256B/cと正気ではない数値になるので3nm(Intel 5nm)あたりまで無いのではないだろうか
また3nmで256B/cが可能になるとしても512bit*4の方がバランスしている
スケジューラーや帯域などの拡張をしてまで*4にするべきかどうかは微妙なところで
それぐらいならコア数を増やしたほうがまだ良いという考えに向かうかもしれない

AMDは互換プロセッサ屋なので余計なものにトランジスタを使いたがらない
そして昔からここらのバランスを非常にとりたがる(Barcelonaで大火傷した)
1024bit*2や512bit*4に自分から踏み込むことは多分無いだろう