>>1
乙です。


Intel 64 and IA-32 Architectures Optimization Reference Manual
https://cdrdv2.intel.com/v1/dl/getContent/671488

IntelのGracemontとGolden Coveアーキテクチャについて新たに分かったことあるので適当に。

まずはGracemont。
デコーダ(3-wide*2)へのL1Iフェッチが32B*2というのが判明。
3-wideに対し32Bは過剰性能なようにも思うが、長大コードでロードバランシングを各クラスタ間で行う関係か。
予想通り256bitのAVX2命令は128bitに分解されて実行、この為に依存性で分解出来ないケースで性能低下する。
TremontでALUしか行えなかったユニットはMULとDIVも行えるようになり、増設されたALUはSHIFTも可能。
JMP・AGU・STDといったところもTremontから倍に強化。

Golden Coveは目新しいの無いので細々としたの。
リタイヤは4から8μops/cへと大幅増。
TLBが4K時に128から256Entryに2M/4M時に16から32Entryと倍になった。
IDQはスレットごとに72μops、SMT時合計144μopsを保持。

Gracemont、Atom系の決まったこと以外やらせるとともかく遅いを払拭する努力してるの分かる。
FP/SIMDはプアだが256bit化するとトランジスタ数跳ね上がるので仕方ない。
回してみるとSkylakeには及ばないが従来比だとかなり扱いやすい。
でもAlder LakeはGolden Coveが速いので割り当てられるとストレスというなかなかの難儀さ。
さあ最適化しろ。(座った眼