text to 3Dはまだそこまで精度出ないみたいだけど
text to poseとかできないのかしら
生成したポーズとアングルに簡単な3Dモデルを被せてimg2imgとか……
これならキャラの一貫性崩さずにアングル調整とか差分作りができるよなーという妄想