単精度シングルスレッドは
numpyで140GFLOPS位、mojoは40GFLOPS位だったかな
(どっちも1000x1000 float32)

もともと遅いしマルチスレッドの伸びも良くない印象だった

>>315のシングルスレッドは単精度に引き直すと
結構頑張っていると思う