私は超雑魚なんでよくわかりませんが、
1ピクセルずつ転送してるとこでの掛け算割り算が一番重くなりましたよ。
条件分岐やら代入やらを減らしても変わるけど、
掛け算割り算をシフトに変えたときが一番速くなった。
Pen166とかだとどうかは知りませんが。

あとなぜかchar型よかint型の方が速くなったり・・