Apple M2 24GBだけどsd-scriptsでSDXL LoRA学習が動いてた(最近動かしてないけど)
こっちもちらほら分岐処理が入ってるぽいね
https://github.com/search?q=repo%3Akohya-ss%2Fsd-scripts%20mps&type=code
ただCUDAと同じ最適化オプションが使えなくてだいぶ遅い&メモリ喰いだった気がする