もうゴニョゴニョ弄り回したり、倫理がめんどいんでローカルLLMデビューしたいんだけど、2025年4月の今でもやっぱりまだ敷居が高いかな?チャット程度だったらVRAM80GBとか不要らしいんだけど
今のAIが100倍賢くなったとしても倫理がずっとつきまとってくるし、結局みんなローカルで動かす未来が見える
特に自分の好きな声優の声で喋らせるんなら尚更ローカル一択だよね
ボイスの部分も結局WebAPI経由でガチガチに著作権/倫理ガード食らうし

ただ、2025年4月の今でも日本語TTSのアクセント、イントネーションにまだまだ違和感があるからボイスデビューはあと2年ぐらいの進化を待つことになりそう
英語TTSはすでに完成度が高くて、AIと通話してて感情、アクセント、イントネーションがあまり違和感が無いんだよな・・・
日本語の場合、言語の研究がまだまだ英語に追いついていなく、文脈から感情、アクセント、イントネーションを解析するの難しいって感じっぽい
あと日本語は英語より音節が多いらしく、そこも違和感がある原因の一つだとか

これらの問題が後数年で解決してくれるといいんだけど