>>446
(1000x1000ではなく) 1024x1024や2048x2048みたいな行列サイズの場合が
キャッシュの急所を突いてくるので、前後サイズ比で遅くなっていないか確認して見て下さい
(検索して出て来たのが不自然に960で計測していて、1024にしたら2~3割落ちになるケースがあったので)

実装方法、行列のメモリレイアウトやCPU次第で1024じゃないかもしれないのでそれも要注意です