YaneuraOuのmisc.h のprefetch()
__builtin_prefetch()はarmでも使えるので試してみたらちょっとだけ速くなったわ