3秒の音声があれば本人そっくりの声で日本語・英語・中国語合成できる「VALL-E X」はやはり脅威。
MSが非公開にした技術のOSS版を試して実感した(CloseBox)
ttps://www.techno-edge.net/article/2023/08/28/1812.html

近い将来には声優さんなんて職業はなくなりそうだ…