たしかにlibgompは優秀
SIMD化されてないように思えるのだが

kをOMPによる並列化対象から外して-QxSSE4.2とかってのはどう?
たしかSIMD化とスレッド化は両立できなかったような