Centaurのx86サーバプロセッサ、かなり勘違いしていたようなので。
あとAMD Zen1(Zeppelin)と比較してみると面白いのでそれも兼ねてです。

Centaur x86 Server
Core:8 Thread:8 Clock:2.5GHz L1:(I32KB+D32KB)*8 L2:256KB*8 L3:16MB Memory:DDR4*4ch PCIe:3.0*44lane TDP:? +AI
Decord:4-5way INT:4(ADD*4 MUL*2+BMU*2) FP/SIMD:256bit*3(ADD/MUL*2+DIV/Crypto*1) AGU:3(Load/Store*2+Store*1) Retire:4
TSMC 16nm(90*64) 195mm^2

AMD Zen1(Zeppelin)
Core:8 Thread:16 Clock:3.6GHz L1:(I64KB+D32KB)*8 L2:256KB*8 L3:16MB Memory:DDR4*2ch PCIe:3.0*32lane TDP:95W OPcache:2K
Decord:4way INT:4(ADD*4 MUL*1+DIV*1+Branch*2) FP/SIMD:128bit*4(ADD*2+MUL*2) AGU:2(Load/Store*2) Retire:8
GLOBALFOUNDRIES 14nm(84*64) 212.97mm^2

CentaurはINTの制限が厳しいのではと考えていたのですが、後述のダイ面積からしてケチる必要は無いのでただの勘違いですね。
Centaurがそんなリッチなはずはないという先入観からの大間違いしてました。
Decord:4-5wayはx86命令フュージョンをプリデコード段階で行い、これにより最大5命令のデコードを可能とします。
FP/SIMDは相当に強力でIntelやAMDの最新世代には及びませんが、(レイテンシがまともだとしたら)従来のCentaurとは一線を画します。
SSEではなくAVX-2以上を使ってやった方が良いです。

ダイレイアウト写真から判断すると、相当CPUコアが大きくアンコアをコンパクトにまとめています。
CentaurのL3込みの面積を適当に計算すると62mm^2ほどもあります。
Zen1(Zeppelin)のL3込み(CCX*2)は53mm^2ほどなので、7%ほど違うTSMC 16nmとGF 14nmを計算に入れても、Centaurの方がかなり大きい事になります。
AMDは高速化用特殊セルなのに対し、Centaurはクロックが低くTSMCスタンダードセルの可能性が高く、トランジスタ数はかなりの差があるのではと思います。
DDR4*4chとPCIe3.0*44lane、AIアクセラレータを統合してこのトータルダイ面積は驚異的に小さいです。