今、行列演算ライブラリ作ってるんだけど、1000×1000の行列のdot演算が0.15秒程かかる。OSはlinuxのUbuntuディストリビューション、CPUはIntel Core i7でクロック数は2.80GHz。手元でnumpyに同様の計算をさせる平均0.04秒だった。まだsimd最適化とかはしてないけどsimdはどれくらい効果があんの?