第4世代Xeon SP、新命令AMXを活用するとDL推論性能が4.5~6倍に
https://pc.watch.impress.co.jp/docs/news/1408763.html

ほうSapphire Rapids。既に3月に一部OEM先に出荷済みか。
>現行の第3世代Xeon SPと比較すると、AMXの新命令を使った第4世代XeonはResNet34の推論処理で、INT8を利用した演算で4.5倍、BF16(Bflot16)を利用した演算で6倍の性能を発揮するという。
>MLPerfDeepCAM学習プログラムを利用した学習時の性能では、AMD EPYC7763(FP32/AVX2)を1とすると、AMX/FP32、FP16の第4世代Xeon SPは2.8倍の性能を発揮し、NVIDIA A100(80GB)をも上回ると説明した。
んー、新命令要する割には思ったより伸びてないか。
AMX命令もレジスタが二次元(タイル)という事で従来のとは結構違い面食らうんだよね。
10倍速くなりましたーぐらいやって欲しかったかも。