自分で言うのもあれだけど、結構いい出来に仕上がってきた
何が大事かって抑揚とか喋り方とかが一番
ボイチェンで変換した時にうまく変換できるような声、ボイチェンをどう頑張っていじってもダメなものがあるから

補足だけど、実験的にピッチとフォルマントを固定するのではなくて、自動的に適切な値にする的なものを作ってる