24分59秒の曲をAthlonXP 1700+でエンコードした場合

GCC SSE最適化なし 2分53秒09 8.6657倍
GCC SSE最適化あり 2分31秒97 9.8700倍
ICL SSE最適化あり 2分29秒00 10.0667倍
GCC 手動最適化 1分28秒99 16.8555倍
ICL 手動最適化 1分18秒27 19.0533倍

GCCとICLの自動SSE最適化であまり差が無いのはAthlonでの傾向だと思う。
ICLの手動最適化ではプロファイラを使用した2パスコンパイルを実施している。

ICLは基本性能に加えて

小数点演算のSSE/SSE2によるレジスタオペレーション(GCCでもできる)
 ベクタライズ化

が優れているんだけどコンパイラによる自動ベクタライズ化では単純な処理しか
できなくてシャッフルを使ったデータの組み換えや条件分岐の置換などは無理。

VC7に関してはあまり使ってないのでよくわからないけど以前見た感じでは
SSEビルトイン命令の最適化が今ひとつだった。