HWを使わない最適化(高速化)なんてあり得ないからね

SIMD、スレッド、キャッシュ、(GPU、FPGA、...)
これらを有効に使うのが最適化