diffuserのモデルに入ってるunetとかtextencoderとかvaeとかってなんなん?
unetが本体で他はサブ?