シリアルな命令のパラレル化は依存関係の解決の為にOoO投機実行に頼るので、
ALUなどを*4からそれ以上に増加するとトランジスタ数がどうしても格段に増えます。
ただこれも今はバランスしないというだけの話で、更に進んだプロセスで使えるトランジスタ数が増えれば現実味が出てきます。
広い命令フェッチやデコード幅と命令キューやリネーム用レジスタの増加、それに更に高い分岐予測精度が必要となるでしょう。
分岐予測の精度を上げてもミスはどうしても増えパイプラインステージフラッシュによる性能劣化が避けられません。
このペナルティーを隠蔽するためにSMTなどに頼ることになります。

*4でもまだやれることがあると留まるのか次に行くのかは難しいところで、これはアーキテクトの考え方ひとつとなります。
なにせ影響範囲が大きくここで設計をミスするとアーキテクチャー自体が死にかねません。