音声合成プログラムを作りる
■ このスレッドは過去ログ倉庫に格納されています
ネトラジとかで声優のしゃべた音声がたくさん出回ってきたから、 それを使って音声合成するプログラムを作りたいと思うんだけど、 そんなスレ ネトラジリソース多いのんって誰かな BGMとかあんまなくって、高音質なの 音声合成は難しいぜ しかもそんだけの素材じゃかなり苦労する と元国立理系大学院音声関係研究者の俺が言っておく。 音声を発するシミュレーションを まじめにやったらどうなるんだろう。 骨格、肉、声帯、云々。 シミュレーションやるより、模型?を作った方が楽なんだなー いや、俺の元専門は音声認識だから・・・ そんな俺でも「声優の声」を目指す>>1 は厳しい、ということくらいはわかる。 ニュースとかで見聞きする合成音声ってみな糞でしょ? 何年も進化していないのよ。 音素切り貼り(新聞の切り抜き文字で文章作る感じ)、なら多少はいける・・・かもしれないけどね。 | \ __ / _ (m) _ピコーン |ミ| / `´ \ ('A`) そうだ! 自分で喋ればいいんだ! ノヽノヽ くく >>1 が作るって言うんだから、余計な口出しはせず、 まずはお手並みを拝見する所だろう。 まずは音声データベース作んないと なんで、ネトラジ落としてWAVにして文章ごとに分割してみた こんどは、音素ごとに区切る作業はじめる 専用のツールつくんないとだめかな ツールならHTKにいいのがあるんじゃね? 音声認識機に通して音素ごとに切り分ける、ってのが大量データ作成には楽かな? しかし懐かしすぎ・・・ 1さんに期待 しかし, カクカクとした音声が限界じゃないかね 声優のような音にするにはパラ情報なんかの 感情を表現する部分をどの程度対応できるかに よると思われ とか, ネットワーク屋さんのもれが曰ってみる HTK登録したのにパスワード送てこねー 説明書くらい登録なしで読ませてもいいのにさ 待てる間に音声db作成支援ツールでも作りる ところで音声認識の分割精度てどれくらい出んの? 0から書き起こしさせるのは全然使えねーレベルなんは分かるけど、 書き起こしテキストあれば音素位置そろえるくらいは精度いいんかな 86時間て正味?ネトラジから集めよう思たら数年分必要だなー ところでこれNHKの森田アナだよね ところどころイントネーション変な繋がりあるから 数文節単位くらいで切り貼りしてるん? >>23 さんくすです SoftalkはAeuqst社のAquesTalkを音声合成エンジンとして使っている、 web2speechは大学が作ったGalateaTalkをエンジンとして使っている、 EasySpeechはSAPI使ってエンジンを読んでるだけみたいでしね 自分で音声合成エンジン作ってる人はまだないのかな ttp://www.sp.nitech.ac.jp/~demo/gtalk/demo.php >>30 別にセリフ読んでもらいたいわけじゃないし 合成音声で2ちゃんログとかメールとか 読んでもらったら面白くなくね? 音(声)の切り張りと云うと、コナミがときメモ3でやってなかったっけ? 未プレイ(体験版触っただけ)だから、詳しくは解らんけど。 イントネーションを網羅した辞書みたいなファイルを作って 文章をAquesTalk用の音声記号列に自動変換するようにすれば、 どんな文章もきれいに読み上げることができそう。 >>32 ときめも2と3でプレーヤの名前を呼んでくれる EVSという音声合成システムがのてたみたい やったことないからクオリティーは分からないよ ttp://ja.wikipedia.org/wiki/%E3%81%A8%E3%81%8D%E3%82%81%E3%81%8D%E3%83%A1%E3%83%A2%E3%83%AA%E3%82%A2%E3%83%AB2 ttp://www.konami.jp/gs/game/toki3/point/game/evs2.html "音声合成 ゲーム"で検索すると PS2 モジブリボンにNTT PS2 ダビつく3に東芝 DS お料理ナビは? DS 日本史・世界史に日立 なんてのが見つかったよ どうなん? >>33 イントネーションって網羅できるもんなの? AquesTalkってあんまりきれいな声とは思えない 以前でてた音声コーパスっていうのがそういうものじゃないのか? 同じ単語でもどう使われるかでイントネーションって変わるからな。 箸 端 橋 嘴 波子 梯 頑張って聞き分けてください。 >>41 それは「同じ単語」でイントネーションが「変わる」例になってないだろ。 どうして>>1 は舌っ足らずなんだろう。 ていうか>>6 のせいで、 このスレの全てのレスが桃井声で脳内再生されるんだがw 「あ」の波形と「い」の波形を足して2で割ったら、「あ」と「い」の中間の声ができるってわけか! ようするに、声帯をプログラムでシミュレートすればいいんだろ 簡単ジャン 声帯って振動するだけ?声によって(高さじゃなく「あ」とか「い」)振動の仕方が異なることはないよね? 音が高くなると振動数が増えるだけだよね? 声帯が発した振動を口の形と舌でコントロールすると「あ」とか「い」になるという解釈でいいの? 舌のシミュレーションが大変そう(><;) 音声学の勉強からやらなきゃダメだね。 昔勉強したけど、もう忘れたからお役に立てないよ、ごめん。 必要な音素が全て含まれた文章を作って読んで、それから音素を抽出するようにすれば、そのうち望んだような声質の人が音を提供してくれることもあるんじゃないかと思るれ >>54 誰の声でもいいんだったら、それでもいんだけど、 やっぱ声優の誰々の声でってのが大事だから、 今はネトラジの音声からちまちま集めてるよ >>56 話者変換って何に使うん? 自分のしゃべった声を誰かの声に似せるとかな? >>57 SNは分かんねが、音は良さげ(64kbpsの44kHz) 一人しゃべりでBGMなしなんじょ BGMなしか。それはいいな。 とりあえずHTKでその声優の音響モデルつくるところからだべ。 俺は女性のツテなしで自分ひとりでもマルチヒロイン声つき同人エロゲーを作れる環境が欲しい エロゲの音声使えば? 抜き出し出来れば、台詞も大量にあるし、テキストもあるので分割解析もしやすいしょ ときめも2以降で採用された音声のプログラムってどんなアルゴリズムなのか分かる人教えて >>67 ありがと。調べてみる。 ついでに初学者の入門書みたいなのがあったら教えてくれると嬉しい 2007/12/19(Wed.) ◆ Julius-4.0 リリース 初音ミクが話題にならないあたり、ここはプログラム板じゃないのかと思ってしまう。 そんな、俺に、お勧めはこれ。 「エロ版初音ミク」の衝撃 - 「阿久女イク」を使ってみた - 偏読日記@はてな http://d.hatena.ne.jp/a-park/20071227/p1 この板の住人じゃないんだけどAquesTalkでwav保存できるソフト あるのかな? DTM板住人なんだけど、需要ありそうだったから。 俺自身もあったら使いたい。 オーディオアウトとインをつなげばできるけど、 そんなの嫌だしw 全二十が全二重と気づくまでに数時間を要してしまった・・・orz 要するにサウンドキャプチャソフト使えば?ということかな? まぁ実際に配線するより数倍マシだから、それで納得するしかないか。 >>78 スマンスマンw 二十って書いたの俺かもw >>76 API見たら、普通にAquesTalk_Synthe()を呼べば保存できそうだけど、 そういうことじゃないのか? ほとんどの人がライセンスがないから試せないと思われ。 >>76 俺はここ数か月DTM板に出入りするようになった者だけど オーディオインとアウトをつなぐって言っても ハード的に結線するんじゃなくて DAWのRECボタン押下→AquesTalk再生みたいな感じで とりあえず録音はうまくいくけど 音質まではわからない 「あ」の波形と「う」の波形を足して2で割ったら「い」の波形ができるのを発見して特許取った どのくらい 「い」 と区別が付かないんだ? 不自然感0? じゃあ俺は「い」の波形を倍にして「あ」の波形を引いたら 「う」の波形が出来るという特許を取ろうかしらん juliusで音素列を指定して、 強制アライメント取れますか? >>94 つ 単語・音素セグメンテーションキット&Julian >>95 ありがと juliusでディクテーションさせて、julianで強制アライメントできるようになりました。 ところで、ピッチを求めるいいアルゴリズムはありませんか? C++MIDIプログラミングっていう廃刊を店に売ろうか悩んでるんだけどいくらになるんだろう とりあえず、声優のラジオ番組の音声分割して、接続合成できるプログラム作ってみました juliusの認識精度ではダメですね、手修正必須ですが そうか 音声素材なんてわざわざ録音しないでも ネットラジオにいくらでも転がってるんだな 面白い発想するな これは意外な盲点。 個人(?)で使う分には十分だね。 >>102 音ってどこにアップできます? それと何話させましょ? 声優はSMです >>104 アップローダは↓でお願いします。 ttp://www.axfc.net/uploader/ セリフは↓のサンプル音声の「シナリオ」あたりでどうでしょう。 ttp://voice.pentax.jp/blog/64.html ttp://www.aoni.co.jp/actress/ma/voice/minaguchi-yuko.mp3 これで >>105 ,106 ttp://www11.axfc.net/uploader/20/so/He_103620.lzh kwdは94です >>107 サンプル拝聴しました。 音素や単音単位ではなく、単語単位の連結なんですね。 語のつながりがぶつ切りで、聞き取るにはちょっと辛いかなと思います。 音素単位なら、聞き取りやすくなるかもしれませんが、 抑揚やアクセントを指定できるようにしないといけないので、難しいですが。 >>108 アドバイスありがとうございます。 使えるだけ使うので、単語より長い部分も1音素だけの部分もあります。 今はピッチ情報がないので抑揚をそろえられないです。だから最長一致。 これからはピッチをそろえられるようにしてみます。 >>109 94さん >>110 の追加なんですがオープンソース化のメリットは・・・ 開発が止まっても後を継げる。 ・例えば作者が飽きたとか、あるいは交通事故にあったとかで開発が止まったとする。 そんな場合、誰かが開発を引き継いでくれる可能性がある。 誰かが他のOSに移植してくれる。 ・誰かがMacOS版を作りたいと思ったときに、ソースコードを見ずに移植した場合、どうして も互換性に問題が出る。 しかし、ソースが公開されていれば、少ない手間でほぼ完全な移植ができる。 環境に依存した部分は書き直したり、移植が難しい部分については機能を削ったりする 必要があるけど、それでも一から書くよりはずっと楽。 ちなみに、現在Windows以外の環境でサポート外の動いている場合、 それは誰かが更新履歴の仕様を見て、オリジナルのコードを使わずに クラックして移植したものだ。ありがたいことだけど、 もしソースが公開されていたらこの作業は不要だったはずで、その人はもっと別の作業ができた。 バグを修正できる ・誰かがバグを見つけ、それを報告したとする。 それをみた第三者かが、ソースコードの中から原因を見つけて、 作者に「ここを直せばいいぞ」と教えてくれる可能性がある。 ひょっとしたら修正したソースコードをupしてくれるかもしれない。 >>111 続き 自分で改良して、それを作者に提案できる。 ・第三者ソフトウェアを見て「ここを改良したらもっと良くなるんじゃないのか?」 もしくは「こんな機能を追加したらもっとよくなるんじゃないの?と誰かが思ったとする。 その場合、公開されているコードを改良・追加し、作者に改良案や機能追加案を提案する ことができる。 作者がその人の方がより開発に向いていると判断した人は、作者の許可を得て改良版を 公開することができる。 第三者が改良案や機能追加案を提案して作者がそれを見て、影響を受けて、第三者の 改良版を使用しながら作者は更なる改良を加えることができる。 ソースが公開されていなかったら、作者に具体的に改良案や機能追加案を 提案することが難しい。 HDDが飛んでも即死しない ・「作者のHDDが飛んだので開発中止」っていうソフトたまにあるよね……あれはむなしい。 ソースがサーバ上にアップしていれば、作者のHDDが飛んでも、開発を続行することが できる。 とこんな感じなメリットがあります。 長文になってすいません。 ぜひご検討のほうよろしくお願いします。 >>110 >>111 >>112 それはいいアイディアですね。 ぜひやってもらいたいです。 反論するのも馬鹿馬鹿しいが。 >・「作者のHDDが飛んだので開発中止」っていうソフトたまにあるよね……あれはむなしい。 これを字義通りに受け取る(或いはそのように敢えて振舞う)人がいることに驚いた。 俺が学生時代にちまちま作ってたしょぼいソフトは まさしくその運命をたどったよ そういや昔のプログラムはフロッピーに入れてたのでもう見れなくなったなw 実はハードごとまだ生きてる 子供の頃しこしこ打ち込んでた雑誌掲載のBASICゲームは起動メニューを作っておいたので ファイル名すら覚えてなくても今でも遊べる 子供時代の自分の聡明さにしばし感動 今はもう駄目かもわからんね >>109 おーい。94氏 オープンソース化しないのかい? 返事をくれ。 自分の要求のために他者に負担をかけることを当然のように考えてるからオプソ「厨」って付くんだな。 某コナンの蝶ネクタイ型変声機みたいな物は作れないかなぁ 他人の声からパラメータだけ抽出して、云々 久々に見に来たらレス増えてた。。。 オープンソースにするのはいいんですけど、プログラムだけだと何もできませんよ? 素材の音声データが無いと。それもかなりの量で。。 プログラムの権利より音声データの権利のほうが問題になりがち >>122 1.マイクの声から声帯の影響を取り除く 2.フォルマントを他人の位置に移動する でできるかも >>126 >オープンソースにするのはいいんですけど、プログラムだけだと何もできませんよ? それでもいいと思う。 自分の声のデータを入れて合成することもできるし。 オープンソースなら合成エンジンをもっと高性能化することもできるし。 使う側が改造できるだけでなく、作った側にも自分の技術を高める、新しい着想を得る といった双方にメリットがあるかもしれませんし。 >>129 オープンソースって勝手に改変してくれる分にはいいけどパッチとか 送ってこられるとうざくない? 正直ソースが穢れるけど、拒否するとアンチ化しそうだし。 そりゃ、コミュニケーション力がないだけだな。 適当にあしらえばいいし、ソースは参考になるなら自分で書き直して入れましたでいい。 オープンソースと、みんなで開発はまた別だよ。 >>109 >>94 氏 このプログラムは「Alice Project」と同じようなことができるのかい? 又某コナンの蝶ネクタイ型変声機みたいな機能を追加する予定とかはあるのかい? >>131 参考になるものは送ってこないから。 これだけは断言できる。 勘弁してーってお願いしたくなるようなうんこ送りつけて奇妙な主張を しつこくしてくるのが関の山。 いやほんとしつこくされるよ。 住所なんか当たり前のように調べてくるしね。 それなりの覚悟がないとオープンソースは無理だよ。 どうでもいいがペンタックスの合成ライブラリはかなり巧い >>134 そんなわけねえだろうよw 確かに参考になるものは送られてこないのは確かだけど、しつこくは されないだろう。 しかもメールアドレスを公開しないでオープンソース化すればいいだけの話。 オープンソース化ってもごく一部のソフト以外はパッチが送られてくるどころか読まれることすらほとんどなさそーな悪寒。 てか、ソース見せ合うだけなら どっかに無料のうpロダ用意してそこに勝手にソースをうpしたり、落としたりすれば良いんでは? 反オプソ厨は、言い訳が稚拙なのがなw 普通に、手柄を独り占めしたい、ソースを見せたくない、でいいんだよw >>136 じゃぁそうしてみろよ。 どっかのロダに匿名で上げて見れ。 おれの創作物を勝手にオープンソースにしやがったってやつが3人は 出てくるから。 そうすればオープンソース厨の怖さが少しは理解できるだろ。 奴らは(無料も含めた)金のためなら何でもするからな。 >>139 バカなオプソ厨を装った釣りとかネタか? 作った人間が手柄を独り占めできるのは当然の権利で言い訳とかいらんだろ? むしろオプソ厨のほうが「あなたの手柄をタダ取りしたいんでソース見せてください」ってのを いかにオブラートにくるんでうまく言えるか工夫しなきゃいけない立場なのに。 >>141 だったら言い訳しなくていいよw 言い訳するってのは、何らかの心の働きだから。 いちいち、オプソ厨がウザイとか、ソースが汚いから見せるのが嫌だとか、しょうもない言い訳はいらんから。 まぁ、他の人のソースパクってて本当に見せられない奴も中にはいるだろうけどw >>142 え?マジなの?本当はオプソ厨のふりしたネガキャンだよな? >>140 だったらGPLもしくはGNU等のライセンスで公開すれば? ちなみに、俺もオープンソースで公開したんたが、そんなことはなかったと思うな。 誰か再うpしてくれないか 間違えて削除してしまった >>144 匿名でGPL等でうぷした場合の話だろ。 おまえは都合の悪い話は一切読めないのか? クレクレ言ってる時点でオプソ厨のニオイがプンプンしてるんだよ。 匿名じゃない場合は過去ログ参照。 こういう流れを作ってグダグダにするのがオプソ厨の狙いなんだから相手するなよw 嫌なら嫌だって言えば良いだけだしな。 つーか、厨はクローズドの方がよってくると思うがw あれしてくれ、これしてくれってw オープンソース・フリーソフトなら、自分でやれ!で終わるw もし公開するならある程度完成度をあげてからの方がいいよ。オリジナルは俺だと主張できるくらいにね。 中途半端なソースを公開する必要なんて無い。 実際の声からサンプリングするんじゃなくて、人間の声帯を物理モデリングして作れよ。 >>146 >勘弁してーってお願いしたくなるようなうんこ送りつけて奇妙な主張を >しつこくしてくるのが関の山。 >いやほんとしつこくされるよ。 >住所なんか当たり前のように調べてくるしね。 匿名なのにどうやって送りつけるんだい? 話が矛盾してるぞ。 Shut the fuck up and write some code. >>153 ほんとに頭の悪い子だな。 頭の悪さは公表しなくていいからそっと隠しておけよ。 100回読みなおせばお前でも理解できるかも知れんから読みなおせ。 自分の声から音声を合成し、入力したテキストを読み上げられるソフトを、OKIが発売した。病気などで声を失った人に、自分の声の代わりに使ってもらいたいという。 http://www.itmedia.co.jp/news/articles/0807/25/news011.html 声を失った人が、自分の声から音声を合成することは出来ないと思うのだが >>160 だからお前がやればいいだろ。 オプソ厨の最大の欠点は、人が作ったものはクレクレ言って、オプソにしなければ ならないと一生懸命言うけど、自分では何も作らないことだな。 社会正義のためとか言うけど、そんなものに興味があるなら自分でやれ。 おれは全然興味ない。 ところでバーローの蝶ネクタイ型変声機みたいな物はできるのかね? しかし、オープンソースにするとパッチとかがウザイとか言うけど、 どう考えてもクローズドの方が、オープンにしろって要望も含めて、あれやってくれこれやってくれって五月蝿いと思うがw まぁ、かまってちゃんならそっちの方がいいんだろうけどw 某コナンの蝶ネクタイ型変声機みたいな物はどうやって作るんだい? そのアルゴリズム等を提案してみてください。 変声機はどっちかというと、元の音声をいかに消すかが肝だと思うw ところで音声合成ってどうやって作るんだい? アルゴリズムを提案してくれ。 基本は、サンプリングのツギハギ。 声帯を物理シミュレーションしてるのは、あるのかな? >>170 ttp://recognition.web.fc2.com/synthe/ >>171 党・本多 マイナー分野である音声合成技術が、オレオレ詐欺に使われることで一躍世間の注目を浴びる、と。 こんなんみつけた ttp://d.hatena.ne.jp/shoozhoo/20080712 やっぱ英語用の音声合成は日本語じゃ役立たずなのか? ところで誰か音声合成プログラムを作っている人いるかね? >>171 面白い特許を見つけました。シンセサイザーの方では表現力が高いとして 90年代に研究され尽くされた物理モデリングアルゴリズムDWGを 音声シンセサイザーに応用するものです。 http://www.patentgenius.com/patent/5528726.html http://prius.hitachi.co.jp/prius/pc/2005may/yomiwaza/index.html >※本ソフトウェアが出力する読み上げ音声の著作権は株式会社 日立製作所が保有します。 これってどうなの? ここまで著作権を主張できるもんなの? >>94 氏へ この掲示板みてたら、なんでもいいから報告をしてくれ。 >>182 しかし読み上げた結果の音声を自由に使えなきゃ意味ないよな。 そういえば、ちょっと前にアニメのキャラクターで音声合成するのがあったけど、あのベースになっているアルゴリズムはなんなんだろ。 藤崎モデルだっけ、あれとはちょっと違うでしょ? でも、通常の波形接続リソースとは変えないとキャラっぽいしゃべりは無理だろ? キャラ声でキャラせりふを録音しておくんだからOKだろ? それじゃうまくいかないんじゃないか? とはいえ、音声リソースに手作業で情報追加すれば何とかなるのかや。 量を確保できればなんとかなる。それが波形接続のメリット。 韻律モデルが重要になるが、機械学習のアルゴリズムも確立してきてるし、 そこそこのクオリティはすぐ出せるはず。 >>196 統計だから最適なデータを用意すればそこそこできるのはわかるけど、 ウェブサービスだったのは意外とすぐに出てきた感じがしたんだ。 大量に用意したら、波形を分割するて作業とか増えるじゃん。 韻律モデルは声優の真似ができるほどのものはまだないと思ってたけど。 >>191 のアルゴリズムがoverlap additionだと言いたいんだろうな 簡単な波形接続プログラム作ってみた Ne_46114 makaron ttp://www1.axfc.net/uploader/Ne/so/46114 みんながみんなお前や俺のようなワレザーじゃないんだからURLを併記するべき それはそうと入力した語句がwavに反映されない。 buliding database done input text こんにちわ。 1 sp /*/ 614 400 242 申し訳ない。上でそこ使ってたから、デフォかと思ったよ。 で、音が出ないってのだけど、dataフォルダの中にポッドキャストの wavファイルは作ってあるんだよね?んー、なんでだろう。 もちろん 全てREADMEの通りに行った 原因が思いつかないなら結構場所食うし消すわ >>202 すいません。それをもう一度うpしてくれませんか? 後このソフトはオープンソースですか? >>201 >>202 のURLからダウンロードできないんだが・・・ もう一度うpしてくれるか? そういえば、声を好きな人の声に変換するものがあったけど、あのアルゴリズムはどうなっているんだろう? >>210 それって声質変換のことじゃないの? 声質変換って声の周波数で他人の声に変えることかな? ふぉるまんと0の成分を上げ下げすればいいんじゃね? >>215 それで本当に他人の声に変えることができるの? だれか詳しい人教えて >>216 おとこ、おんな、こども、 っぽく変換はできる。 でも、20年前の技術だぞ? 声質変換技術で他人の声の変換するにはどのようにすればいいのかな? 声優いわく、BIGLOBEのコエラボは5日間の収録だそうだぞ ttp://pinpon.okilab.jp/potential.html ワロタww なぜ、VOICE TEXTがでてこない・・・ 市販の音声合成ではあれの出来がかなりよい Harukaってコメント程度ならいいけど、 聞き続けるとムカつきそうw >>226 確かにw 最初は可愛いと思うがだんだんゆとりの女子高生に思えてきたw Q. 自動保守#K9K?_D[L とは一体何なのか? A. 外部サイトへの突撃大好きな真性厨房 韓国突撃でお馴染みの自動保守 最近は自動焼人 ★として2ちゃんねるのボランティアにも精を出す日々 だがそんな彼にも、人間らしい部分はあったのだ… 名言集 『アパッチ砲はワシが作った』 『お前が規制系キャップ取れるか審査してやるよ』 『いつもサボってばかりのキャップがウゼえ』 『俺、100人規模の集団サイバーテロの主犯だったこともあるんだぜ』 『俺の経歴カックイイだろ?』 最近のニュース 8月15日の韓国突撃の際に歴史的大敗を喫する。ラジオでの敗戦宣言のときに声が震えていた 本人は体調不良と言っているが… ---------------------------------------------- この自動焼人 ★メールマガジンの配信停止をご希望される方は http://qb5.2ch.net/test/read.cgi/sec2chd/1250169591/ にて自動焼人 ★までご連絡ください VOCALOID2 シーケンス (VSQ) ファイルのフォーマット (推定) ttp://www5d.biglobe.ne.jp/~noocyte/Programming/FileFormat/VSQ.html 肖像画から頭蓋骨のCGを作成して声を再現する奴があったと思うんだがあれはどうやるんだろう? 誰か教えて 肖像画から頭蓋骨のCGを作成して声を再現する奴があったと思うんだがあれはどうやるんだろう? 誰か教えて >>244 日本音響研究所に肖像画から頭蓋骨のCGを作成して声を再現するものがあったと思うがあれはどうやるの? 肖像画からCGを作成するのは六角大王の手法でできるんじゃね 涼宮ハルヒのエンドレス夏休みを見ている気分ですねわかります マジレスすると、頭蓋のサイズから声道長を推定して、 フォルマント位置を決めるって感じか。 ま、肖像画とかから復元した声ってほとんど当てにならないけどな。 >>249 肖像画からどうやって頭蓋のサイズを出してるの? 俺の写真から声を復元したとして、 俺の声にどこまで近くなるんだろうか? >>251 そもそも顔写真から頭蓋のサイズを割り出すにはどうやって割り出せばいいの? その写真に写りこんでいる、寸法の判っているものを基準にすればいいんじゃね ネッシーの捏造写真だってサイズ割り出されてたもんな 波紋の伝播周期からサイズが決定できるってことかな。 >>253 でも肖像画に寸法の判っているものがなかったらどうするの? >>258 そんときは、目玉の大きさとか目の感覚とか、統計的手法に頼ればいいんじゃね >>259 暇なんじゃね? >>258 声のキャラクタってのは体格以外の要素も絡むわけで、 例えば故人の歌声を再現、とかやりたい場合は大抵残念な結果になるよ。 そもそもここで聞くより元の論文探して見当つけたほうが早くね? >>260 こういうのも頭部画像だけで測れちゃったり? ttp://m.onet.pl/_m/94cfc8bff0ea6227e4a8547781d30f45,35,1.jpg ttp://image.blog.livedoor.jp/laba_q/imgs/1/9/19f92fc1.jpg サイズはパラメータにしておいて、 平均値を使った場合と その前後の値を使った場合と全部試してみて この中のどれかですって言えばいいんじゃない 一卵性双生児の場合、声(歌声も)は全く同じではないだろ だから頭部の数値だけでは不十分な気がする >>265 でも↓を見ると http://www.onkyo-lab.com/mv.html >そこで肖像画、写真、銅像等があれば、性別、身長、年齢、顔形を特定してその人の発声器官をコンピュータ上で電子回路に置き換え、 >シミュレーションして声を合成することが出来るのです。 って書かれているんだが・・・・ てかそもそも肖像画からどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出しているんだろう? 声を合成できる事と その声が実際の声と一致している事とは別だよ >>267 うん。だけど肖像画からどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出しているの? >>271 直接聞いても企業秘密で答えてくれない おまえらの力で考えるしかない >>266 肖像画が残るような人物なら性別は記録からすぐ分かるだろ 低脳 顔の各部分の寸法に関しては、 肖像画とその人物の民族平均を比較するんだよ。 低脳 【歴史】169センチ、62キロだった龍馬 大男伝説に一石 山梨 http://tsushima.2ch.net/test/read.cgi/newsplus/1272325001/ 甲州の研究家襟幅から算出 甲州市塩山上井尻の郷土史研究家、矢崎勝巳さんが写真から体格を測定する方法を 考案し、幕末の志士・坂本龍馬(1835〜67年)の身長を169センチ、体重を62・1キロと 算出した。平均身長が150センチ台だった幕末当時、龍馬の身長は5尺7寸(173センチ) とも6尺(182センチ)とも伝えられ、長い間大男だったとされてきたが、一石を投じそうだ。 矢崎さんは、当時の着物の襟幅が6センチか6・5センチの2種類しかないことに着目した。 6センチとすると背が低くなりすぎるため、6・5センチとして龍馬の立位の肖像写真で算出した。 2007年10月の日本人類学会で、龍馬の身長は170センチに満たなかったとの試算を 紹介したのに続き、昨年10月の同学会では体格指数BMIで体重を試算する方法も発表した。 このほど、龍馬のBMI指数を標準体形の「18・5以上25未満」と仮定し、標準値の (以下省略) ソース:読売新聞 http://www.yomiuri.co.jp/e-japan/yamanashi/news/20100426-OYT8T01349.htm 画像:坂本龍馬の肖像写真 http://www.yomiuri.co.jp/photo/20100426-932069-1-L.jpg ところで証明写真などの顔写真からどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出しているんだろう? おーい証明写真などの顔写真からどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出しているんだろう? ねえねえ証明写真などの顔写真からどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出しているの? ところで証明写真などの顔写真からどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出しているんだろう? 男の声をピッチ上げるだけだと、女っぽくならないのは何故だろう ボカロで言うGENとかUTAUでいうgフラグを調整する必要がある ところで証明写真などの顔写真からどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出しているんだろう? ねえねえ証明写真などの顔写真からどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出しているんだろう? おーい証明写真などの顔写真からどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出しているんだろう? 発声時における声帯から口までの空気の流れを粒子法でモデル化して 音声合成を作ってみたいと急に思い立ったんだが、右も左も分からない。 とりあえず、これは圧縮性流れと見なしてシミュレートすればいいのか ところで証明写真などの顔写真からどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出すの? >>287 どうやってやるの? 具体的に教えてくれる? てかそもそも証明写真などの顔写真からどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出すの? 証明写真などの顔写真から統計を使ってどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出すの? ところで証明写真などの顔写真から統計を使ってどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出すの? >>291 とりあえず証明写真見て性別を5割以上の確率で当てられないバカはお前くらいじゃねーの ところで証明写真などの顔写真から統計を使ってどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出すの? うん。だけど証明写真などの顔写真から統計を使ってどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出すの? >>1 を見て 鏡の国のレジェンドでのりぴーの声を1音ずつ喋らすことができるんだけど それを録音してX68にADPCMで取り込んでおいて順次再生して「おまんこ」とか 「ちんちんいれて」とか喋らせて大喜びしてたのを思い出した 音について質問です 例で Windows Wave 無圧縮 PCM 16 bit 44kHz サンプリング ステレオ wav format http://www.kk.iij4u.or.jp/ ~kondo/wave/#wav http://hooktail.org/computer/index.php?Wave%A5%D5%A5%A1%A5%A4%A5%EB%A4%F2%C6%FE%BD%D0%CE%CF%A4%B7%A4%C6%A4%DF%A4%EB 波形データはステレオの場合LRLR・・ と並ぶなどの説明までは沢山の日本語サイトであるんですけど その多くがWAV ファイルヘッダ情報ばかり詳しく述べて肝心のデータ部分の説明がおざなりで解りません。 波形データ符号付き整数 (-32768 - 32767) 16ビットの場合 FFFF8000 〜 0 〜 7FFF リトルエンディアン にすると 00 80 FF FF 〜 00 00 00 00 〜 FF 7F 00 00 ですよね。 data (波形データのバイト数) 波形データL 波形データR 波形データL 波形データR ですよね。 解らないのは、リニア PCM の場合 整数16bit / リトルエンディアン L0L1L2L3 / L3 L2 L1 L0 R0R1R2R3 / R3 R2 R1 R0 格納順番は これ?> data (波形データのバイト数) L3 R3 L2 R2 L1 R1 L0 R0 L3 R3 L2 R2 L1 R1 L0 R0 L3 R3 L2 R2 L1 R1 L0 R0 コレ?> data (波形データのバイト数) L3 L2 L1 L0 R3 R2 R1 R0 L3 L2 L1 L0 R3 R2 R1 R0 L3 L2 L1 L0 R3 R2 R1 R0 日本語サイトでここが詳しいとリンクしている英語サイト https://ccrma.stanford.edu/courses/422/projects/WaveFormat/ では矢印のつけ方がどちらとも受け取れるので 音が変 >リトルエンディアン にすると 00 80 FF FF 〜 00 00 00 00 〜 FF 7F 00 00 ですよね。 それ32bitじゃね? >>297 16ビットは2バイトだと気がつけば格納順番も分かると思います。 波形データ符号付き整数 (-32768 - 32767) 16ビットの場合 8000 〜 0 〜 7FFF リトルエンディアン にすると 00 80 〜 00 00 〜 FF 7F data (波形データのバイト数) 波形データL 波形データR 波形データL 波形データR 整数16bit/リトルエンディアン L0L1 / L1 L0 R0R1 / R1 R0 格納順番はこうなります。 data (波形データのバイト数) L1 L0 R1 R0 L1 L0 R1 R0 L1 L0 R1 R0 ありがと やっと謎がとけたよ 音声組替えで音の基本配置がわかんなかったから音声合成のこのスレにきたんですが スレ違いごめんなさい 変調なんかもドコのスレだろ? グーグル検索 ↓ 念のためうぷ(´・ω・`)まわいが重要 グーグル検索 ↓ やらなくてもやられるし 日本語以外話せないし テレビやネットで説明 >>1 何という手間のかかる事を...。 波型とかエンベロープとか、学ばなきゃいけない事が、 山ほどあるのに。 >>304 話者適応は英語で Speaker Adaptation です。 HMM音声合成ツールキット HTS 2.0以降に その機能があるのでソースを読めばわかると思います。 HMM-based Speech Synthesis System (HTS) - History http://hts.sp.nitech.ac.jp/?History#z5d7dda6 >December 29, 2006 > HTS version 2.0 was finally released :-) > The new features are > * Speaker adaptation, adaptive training, and semi-tied covariance transforms are supported for multi-stream HMMs/MSD-HMMs. > * MLLRMEAN, MLLRCOV, and CMLLR-based adaptation. > * CMLLR-based adaptive training. > * Decision trees for context clustering can be used to define regression classes for adaptation. > * HMGenS can read MLLRMEAN, MLLRCOV, CMLLR, and SEMIT transforms for adaptation. >>305 サンクス。ドキュメント見ながら色々試してみようと思う とりあえずHTSの話者適応デモ動かしてるけど、終わらないし、2〜3日かかるらしい 最終的にはwavファイルとその文章を与えたらその声で音声合成できるようにしたい 統計学と信号処理と音声言語処理と機械学習を 勉強すれば何とかなるかな。 >>308 できてない とりあえず、デモのデータを使って音響モデルを作成するところまでできた 音響モデルができたらテキストからその声で音声の再生もできる 今は、自作のデータからモデル作る途中でエラーが出てるからそれの対処中 Rubyバカにしてる子ってさ 変数に$ついてる言語触ってるって事だよね いちいちSHIFT+4キーおして $ 打ちまくってる感触はどう? でもお前はゴミなのにねw これ ; デリミタっていうんだけどさ、これをつけなきゃエラーになるような そんな言語使ってる奴ってどうみてもゴミだと思うんだけど もしかして「;」これ打ち忘れてコンパイルエラー出すのが楽しいの? そうか、二度と話かけんなよ 死ねよゴミ ゆっくり声のライブラリって規則合成ってのらしいんだけど、これは素片接続法やHMM合成とは全く違う方法なの?素片接続の一種? 規則合成は、規則に基づいて音声合成することなので、合成方式が波形接続かHMM合成かとは別。というか、上の分類。 ゆっくりは、たぶん、LPCとかのパラメータからのボコーダ方式。ボコーダという点ではHMM合成と同じ。 NHK Eテレ Rの法則という番組にて歌声合成が取り上げられるようです. また,その企画に伴い,4/25から番組HPでUTAU音源がDL出来るようになります. 男声と女声の2音源です.その音源作りを担当させていただきました! 日本音響研究所が開発したモンタージュボイスっていうやつどうやればできるの? 詳しく教えてくれ 日本音響研究所が開発したモンタージュボイスっていうやつどうやればできるの? 詳しく教えてくれ >>320 なんかの記事でドコモのiコンシェルと同じを使ってるって言ってたな それが確かならHOYAのVoiceTextってことになる 初音ミクとか目標にしてるんだろうけど意外に奥が深いんだよ。 初音ミクどころか歌唱よりさらに難しいといわれる読み上げに見える 初音ミク、って専属の声優さんがいるんじゃなかったかな? その声優さんを機械のような質感にしているだけだと思うけどな。 >>333 紹介ありがとう。 やっぱり専属の声優さんいたんやな。 声優さんの合成音声をセリフから抽出するより。 お気に入りの声優さんに「あ〜ん」までを発声してもらって。 それをタイピングと連動させるツールを作ればいいんでね? 音域を解析して、ネットラジオ等で音声素材を収集して。 埋められない言葉は、これまで収集したデータから予測するのは・・・。 考えただけでかなりのコスト^^; また、この専用アプリでは、初期状態で「あ」、「い」、「う」、「え」、「お」と割り当てられている5つのボタンに別の文字を割り当てることができたり、この ボタン以外の文字をリアルタイムに選択して、本体のカーボンキーボードで歌わせることも可能とのことです。 発音するノートの直前に文字情報をMIDIシステム・エクスクルーシブで入力する さらに、すべてをシーケンサ、DAWでコントロールして歌わせたという場合には、MIDIシステムエクスクルーシブを利用して歌詞を設定することも可能 です。具体的には、発音させたいノートデータの直前に F0 43 79 09 11 0A 00 ** F7 というエクスクルーシブデータを送るのですが、この**に文字番号を設定します。その文字番号についてはポケット・ミクのマニュアルに記載されてい ますが、「み」なら「65」、「く」なら「07」(いずれも16進数表記)のように1バイトの数字が割り振られています。 子音もいけるじゃん USBでmidiノート投げれば子音も普通にしゃべれるのか 画像の処理はよく話題になるが音声の処理はあまり話題にならないな 臭いはまだデバイスがほとんど一般向けに出てないからだろ。 たまにどこぞの大学や企業が試作品作ってるって話が聞こえるくらいだ。 市販されたとしてもプリンタのインクと同じで何かを放出する系だから 維持費がかかって一般人はなかなか買わないだろうね。 脳に電極を刺してエミュレートする機械の方が先に出るんじゃね 味は、舌に流す電流の波形でどうとか言う話を電通大(本家か大阪か忘れた)の誰かがしてた記憶が 舌の部位によって担当細胞が分かれてるのが本当だとしたら 電極を当てる場所も点じゃだめで面にしないとな このスレタイほんと好きだわ このタイトルだけでここまでもったスレと言えよう MMDAgentの2等身のデータどっかにないですか いつのまにこんな本出てたし 認識じゃなくて合成の方だけど役に立ちそう イラストで学ぶ 音声認識 2015-01-24 http://www.amazon.co.jp/dp/4061538241 C++とJavaScriptでしゃべるプログラム作らないといけない。俺にもできるかな? 音声素材から1周期分の波形切り出す作業を手動でやりたくないんだがみんなどんな方法でやってるんだろうか やっぱりフーリエ変換使わないとダメなのかな? 面倒臭そうだから使いたくないんだけど 「FM音源をあやつって正しく音を出したい」 OpenAL+ALUTと、ciscさんのFM音源エミュレータ 「FM Sound Generator」を使って、正しく音を出したい。 https://github.com/katahiromz/fmgengen2/blob/master/sample.cpp https://github.com/katahiromz/fmgengen2 おかしな音が出ます。たぶんFM音源の使い方が間違っています。 修正方法を教えて下さい。よろしくお願いします。 >>360 私の掲示板に書き込みがあり、この件は解決しました。 OpenALもFM Sound Generatorもよくわからんけど いろいろいじっててやっと解決したと思ったらすでに解決してた… 問題だったのはYM2203クラスのinit()に設定したクロック値が小さすぎたのと 下記みたいにYM2203クラスのcount()の前に音声波形をmix関数で生成しなければ ならないってことかな 1.set_pitch、note_on等のイベント ↓ 2.mixで必要な時間分だけ波形生成 ↓ 3.countで内部タイマーを進める(2で波形生成した時間分) ↓ 4.以下1〜3の繰り返し あと、マルチポストして解決したならそれぞれに 解決内容の詳細リンクを張るなりしたほうがいいんじゃないかな? http://katahiromz.bbs.fc2.com/reply/10466094/34/ >>366 分かりやすい解説有り難うございます。テラテイル以外の投稿全部に 解決リンクを付けました。テラテイルには明日書き込む予定です。 https://teratail.com/questions/21704 【FM音源エミュレータをあやつって正しく音を出したい2】 前回(https://teratail.com/questions/21294 )の続きです。 OpenAL + ALUTと、ciscさんのFM音源「FM Sound Generator」を 使って、正しく音を出したい。 https://github.com/katahiromz/fmgon/blob/master/soundplayer.cpp https://github.com/katahiromz/fmgon フルートの音で、カエルの歌を演奏するプログラムですが、 なぜか音が途切れず、重なってしまい、輪唱みたいになってしまいます。 おそらく、Key-Offが正しく動作していないことが原因と考えられます。 修正方法を教えて下さい。 間違いがあるとすれば、soundplayerかYM2203のどちらかです。 >>369 コンパイラがエラーを出した@VC2012 soundplayer.h(101) : error C2864: 'VskPhrase::m_goal' : static const int データ メンバー以外をクラス内で初期化することはできません soundplayer.h(102) : error C2864: 'VskPhrase::m_buffer' : static const int データ メンバー以外をクラス内で初期化することはできません soundplayer.h(103) : error C2864: 'VskPhrase::m_source' : static const int データ メンバー以外をクラス内で初期化することはできません soundplayer.h(130) : error C2660: 'std::vector<_Ty>::emplace_back' : 関数に 7 個の引数を指定できません。 ていうか、このスレで良いのかな? >>370 IDE古くね? 少なくともC++11コンパイラーぐらいじゃないと >>372 なら先にそう書いとけ オリジナル版が2003年?なのに何ですっ飛んでるんだw >>372 >>360 からYM2203クラスに変更を加えてないならおそらくYM2203は大丈夫 あとは気が向いたら調査する。 プログラムとは関係ないけど音色のパラメーターは大丈夫? 音色のリリースタイムが長い場合、音がなかなか切れずに言ってるような現象になるかも。 それから人に聞くなら情報を的確に。 >>374 フルートの音色が選択されているが、これはCMD VOICE COPYで取得したのと 同一であることを確認した。だから音色のパラメーターは間違っていない。 間違ってるとすれば他のパラメーターかもしれない。 YM2203については、YM2203のnote_on,note_offメソッドをkey_on,key_offに改名した以外は 大きな変更はない。 >>375 簡単な切り分けを main関数 317〜356行目をコメントアウトして Cの音のみ(「phrase->add_note('C');」のみ)を鳴らすようにしたらどうなる? 音が鳴り続ける?鳴っては止まって鳴っては止まってを繰り返す? それからVskPhrase::realize関数内で確保してる配列dataは0で初期化しなくて大丈夫? >>376 有り難う。mixの直前にmemsetを追加すると音が切れるようになった。 報酬が欲しければメールで連絡してくれ。 CLOCKは4000000のようだ。LFOはまだ働いていない。 メールで連絡って偽物だったらどうするの…? 報酬はいらんから少しマナーをわきまえてね 学生の頃 Cの勉強でお世話になったのにちょっと幻滅 FM音源のLFO設定がわからない http://teratail.com/questions/21704 OpenAL + ALUTと、ciscさんのFM音源「FM Sound Generator」を使って、 自作のBASIC環境用の音を実現しようとしています。 http://github.com/katahiromz/fmgon/blob/master/soundplayer.cpp http://github.com/katahiromz/fmgon UFOが遠ざかる音色(@16)で、カエルの歌を演奏するプログラムですが、 LFOが設定されていないので、音にひずむようなエコーがかかっていません。 音源に対してこの音色のLFOを設定する方法を教えて下さい。 FM Sound Generatorの使い方なら最初の質問みたいに作者に聞けば? 実機でもエミュレータでもいいから「正解の音」を録音してどこかに置いておけば より多くの人から返事をもらえる可能性があるかもしれないなあ、と思ったよ。(ひとりごと) >>383 ファイル名:cmd_voice.zip パスワード:passpass http://drive.google.com/uc?export=view& ;id=0B3nA8ShVAS4OOEFTUWZGN3RtU3M サッカーブッシュ日本代表日程ぷあたん(しゅっちょうまいくろ教育長交代)春文執行40代売上差額シュガーチョコ https://www.youtube.com/watch?v=NDq1QoJY0nY 宇ドナルドアナリストパワーストーンコーチングとしまえん サッカーブッシュ日本代表日程古本屋よしたけしゅっちょうちょこしゅがー ディーラー税務署天才開発者死亡詰みヨミドクターマイクロサービス不足 サッカーブッシュ日本代表日程ぷあたんシフト光金さかい強制バイト人権侵害問題 春分資源執行ニューヨーク低原価ぼったステーキソルトレイク福岡横浜新橋奴隷課金パチシフト強制バイト問題新潟米センター生残 コスメ24チャリティー隠れ40代生活保護プレイボーイバイトレードいたりあん接待問題 マスコミKARDローンケーオーサービス不足婚活パーティー寄付金執行原発ビジネス FBIチャイニーズタイホテル売上事務所ガチャ決算ガチャキャンペーン(販売報道陣過激派組織向携帯最新情報提供終了 校長発言細心注意ノートン産廃エラー(著作権クレーム中国反応融資高額教育費)(中国捕鯨団体40代社員サッカーコメント 高額入学金ヤフウ新橋大学ヤフウ新橋理事長FX経費 おじや50代資産ガリバズフィード40代エリート 概出だったらすまそ https://dev.smt.docomo.ne.jp/?p=docs.api.page& ;api_name=text_to_speech&p_name=api_usage_scenario ■ このスレッドは過去ログ倉庫に格納されています
read.cgi ver 07.5.1 2024/04/28 Walang Kapalit ★ | Donguri System Team 5ちゃんねる