書き出しってJPEGの書き出しのことと思うけど、JPEGが規格的にマルチスレッド・マルチプロセスで簡単に速度向上する余地ってあんまり無さそうに見えるんだが。
DCT変換は並列処理できそうだけど、8pixel平方ごとだからオーバーヘッドも大きそう。
多分、一番時間がかかるのがハフマン符号化による圧縮の部分で、これはシリアルに処理していかないと行けなくね?
https://www.marguerite.jp/Nihongo/Labo/Image/JPEG.html