流れを無視して質問

連続している整数8bitのVGAグレースケール画像データから特定のパターンを探すとする
探すパターンは画素列(例えば16画素)で誤差を含み±nの形でマッチした箇所の座標を知りたい
この処理は一次探索でマッチ結果をもとに二次探索を実行しマッチすればそこで終了
マッチする箇所は前回マッチした箇所の近くである可能性が高くある程度予測できる
アーキテクチャはAMD64(PC)とAArch64+NEON(ARM SBC)を想定

画像処理ならSSE2とかのSIMD命令を使うと速いのかなとググってみたけど
・SSE2にx〜yまでの値を探すみたいな命令はなさそう。比較を2回実行する必要がある
・中断不可。途中でマッチしようが最後まで処理される
・比較結果はマスクとして得られる。マスクから座標を得る方法はよく判っていない。SCASでも使うのか?
・整数を浮動小数点に変換する必要がある
手間がかかる割にあまり速くならなさそうに思うけどそうでもないのかな?
SSE2だと単精度浮動小数点×4だし前処理・後処理等を含めると良くても1画素1サイクルくらいしか出ないような
AMD64なら64bitだから8画素単位で処理できるし