音声合成プログラムを作りる

**デフォルトの名無しさん** · 2007/06/14(木) 09:48:48

ネトラジとかで声優のしゃべた音声がたくさん出回ってきたから、
それを使って音声合成するプログラムを作りたいと思うんだけど、
そんなスレ

**デフォルトの名無しさん** · 2009/03/11(水) 12:44:47

もうなくなっているようだな。

**デフォルトの名無しさん** · 2009/03/11(水) 15:14:17

だれでもいいからうｐしてくれ

**デフォルトの名無しさん** · 2009/03/26(木) 11:58:27

そういえば、声を好きな人の声に変換するものがあったけど、あのアルゴリズムはどうなっているんだろう？

**デフォルトの名無しさん** · 2009/03/31(火) 09:09:02

好きな人の声ってなんだよ？

**デフォルトの名無しさん** · 2009/03/31(火) 11:13:33

俺で言えば佐伯香織ちゃんの声だよ

**デフォルトの名無しさん** · 2009/03/31(火) 17:26:09

音声認識して音声再生してるだけじゃないの？

**デフォルトの名無しさん** · 2009/04/03(金) 15:48:54

>>210
それって声質変換のことじゃないの？
声質変換って声の周波数で他人の声に変えることかな？

**デフォルトの名無しさん** · 2009/04/04(土) 00:09:17

ふぉるまんと0の成分を上げ下げすればいいんじゃね？

**デフォルトの名無しさん** · 2009/04/04(土) 20:24:59

>>215
それで本当に他人の声に変えることができるの？
だれか詳しい人教えて

**デフォルトの名無しさん** · 2009/04/05(日) 02:42:50

>>216
おとこ、おんな、こども、
っぽく変換はできる。

でも、20年前の技術だぞ？

**デフォルトの名無しさん** · 2009/04/11(土) 16:55:30

声質変換技術で他人の声の変換するにはどのようにすればいいのかな？

**デフォルトの名無しさん** · 2009/04/11(土) 20:22:18

んなの英語の論文調べなよ。

**デフォルトの名無しさん** · 2009/05/25(月) 22:41:33

声優いわく、BIGLOBEのコエラボは５日間の収録だそうだぞ

**デフォルトの名無しさん** · 2009/05/26(火) 22:16:46

ttp://pinpon.okilab.jp/potential.html
ワロタｗｗ

**デフォルトの名無しさん** · 2009/05/27(水) 00:07:24

>>221
ちょーやばくねー。

**デフォルトの名無しさん** · 2009/05/31(日) 03:43:40

>>221
なんかムカつく。でもそれがいい

**デフォルトの名無しさん** · 2009/06/30(火) 15:03:16

age

**デフォルトの名無しさん** · 2009/07/02(木) 08:08:16

なぜ、VOICE TEXTがでてこない・・・
市販の音声合成ではあれの出来がかなりよい

**デフォルトの名無しさん** · 2009/07/02(木) 21:18:35

Harukaってコメント程度ならいいけど、
聞き続けるとムカつきそうｗ

**デフォルトの名無しさん** · 2009/07/03(金) 08:01:09

>>226
確かにw
最初は可愛いと思うがだんだんゆとりの女子高生に思えてきたw

**デフォルトの名無しさん** · 2009/08/13(木) 20:00:14

声質を変換できる方法ってあるのかな？

**デフォルトの名無しさん** · 2009/08/13(木) 20:17:19

うん

222.248.109.70 · 2009/08/17(月) 17:45:20

Q. 自動保守#K9K?_D[L　とは一体何なのか？
A. 外部サイトへの突撃大好きな真性厨房

韓国突撃でお馴染みの自動保守
最近は自動焼人 ★として２ちゃんねるのボランティアにも精を出す日々
だがそんな彼にも、人間らしい部分はあったのだ…

名言集
『アパッチ砲はワシが作った』
『お前が規制系キャップ取れるか審査してやるよ』
『いつもサボってばかりのキャップがウゼえ』
『俺、100人規模の集団サイバーテロの主犯だったこともあるんだぜ』
『俺の経歴カックイイだろ？』

最近のニュース
　8月15日の韓国突撃の際に歴史的大敗を喫する。ラジオでの敗戦宣言のときに声が震えていた
　本人は体調不良と言っているが…

----------------------------------------------
この自動焼人 ★メールマガジンの配信停止をご希望される方は
http://qb5.2ch.net/test/read.cgi/sec2chd/1250169591/
にて自動焼人 ★までご連絡ください

**デフォルトの名無しさん** · 2009/08/31(月) 22:39:57

声質を変換できる方法ってあるの？

**デフォルトの名無しさん** · 2009/08/31(月) 22:42:46

うん

**デフォルトの名無しさん** · 2009/10/03(土) 16:56:55

ほしゅ

**デフォルトの名無しさん** · 2009/10/04(日) 11:19:20

VOCALOID2 シーケンス (VSQ) ファイルのフォーマット (推定)
ttp://www5d.biglobe.ne.jp/~noocyte/Programming/FileFormat/VSQ.html

**デフォルトの名無しさん** · 2010/02/11(木) 11:05:27

つOpenJtalk

**デフォルトの名無しさん** · 2010/02/14(日) 19:22:47

肖像画から頭蓋骨のCGを作成して声を再現する奴があったと思うんだがあれはどうやるんだろう？
誰か教えて

**デフォルトの名無しさん** · 2010/02/15(月) 07:51:28

あったね

**デフォルトの名無しさん** · 2010/02/16(火) 14:06:08

>>237
どうやるの？

**デフォルトの名無しさん** · 2010/02/16(火) 21:04:17

やっぱり音響モデルじゃないのかな

**デフォルトの名無しさん** · 2010/02/16(火) 23:34:34

>>239
音響モデル？
詳しく教えて

**デフォルトの名無しさん** · 2010/02/27(土) 20:30:27

肖像画から頭蓋骨のCGを作成して声を再現する奴があったと思うんだがあれはどうやるんだろう？
誰か教えて

**デフォルトの名無しさん** · 2010/02/27(土) 23:15:36

あったね

**デフォルトの名無しさん** · 2010/02/27(土) 23:24:51

>>242
どうやるの？

**デフォルトの名無しさん** · 2010/02/28(日) 13:02:52

やっぱり音響モデルじゃないのかな

**デフォルトの名無しさん** · 2010/02/28(日) 16:19:26

>>244
日本音響研究所に肖像画から頭蓋骨のCGを作成して声を再現するものがあったと思うがあれはどうやるの？

**デフォルトの名無しさん** · 2010/02/28(日) 17:41:40

肖像画からCGを作成するのは六角大王の手法でできるんじゃね

**デフォルトの名無しさん** · 2010/02/28(日) 18:38:51

涼宮ハルヒのエンドレス夏休みを見ている気分ですねわかります

**デフォルトの名無しさん** · 2010/03/02(火) 23:08:24

>>246
どうやってやる？

**デフォルトの名無しさん** · 2010/03/21(日) 23:17:01

マジレスすると、頭蓋のサイズから声道長を推定して、
フォルマント位置を決めるって感じか。
ま、肖像画とかから復元した声ってほとんど当てにならないけどな。

**デフォルトの名無しさん** · 2010/04/12(月) 00:29:58

>>249
肖像画からどうやって頭蓋のサイズを出してるの？

**デフォルトの名無しさん** · 2010/04/12(月) 19:11:06

俺の写真から声を復元したとして、
俺の声にどこまで近くなるんだろうか？

**デフォルトの名無しさん** · 2010/04/12(月) 23:10:15

>>251
そもそも顔写真から頭蓋のサイズを割り出すにはどうやって割り出せばいいの？

**デフォルトの名無しさん** · 2010/04/15(木) 12:59:30

その写真に写りこんでいる、寸法の判っているものを基準にすればいいんじゃね

**デフォルトの名無しさん** · 2010/04/15(木) 17:26:26

ネッシーの捏造写真だってサイズ割り出されてたもんな

**デフォルトの名無しさん** · 2010/04/15(木) 17:34:19

波紋の伝播周期からサイズが決定できるってことかな。

**デフォルトの名無しさん** · 2010/04/15(木) 19:19:57

**デフォルトの名無しさん** · 2010/04/15(木) 22:31:48

**デフォルトの名無しさん** · 2010/04/17(土) 18:26:20

>>253
でも肖像画に寸法の判っているものがなかったらどうするの？

**デフォルトの名無しさん** · 2010/04/17(土) 20:29:56

何でお前らそんなに世話焼きなの？

**デフォルトの名無しさん** · 2010/04/19(月) 11:43:36

>>258
そんときは、目玉の大きさとか目の感覚とか、統計的手法に頼ればいいんじゃね

>>259
暇なんじゃね?

**デフォルトの名無しさん** · 2010/04/19(月) 13:10:40

>>258
声のキャラクタってのは体格以外の要素も絡むわけで、
例えば故人の歌声を再現、とかやりたい場合は大抵残念な結果になるよ。
そもそもここで聞くより元の論文探して見当つけたほうが早くね？

>>260
こういうのも頭部画像だけで測れちゃったり？
ttp://m.onet.pl/_m/94cfc8bff0ea6227e4a8547781d30f45,35,1.jpg
ttp://image.blog.livedoor.jp/laba_q/imgs/1/9/19f92fc1.jpg

**デフォルトの名無しさん** · 2010/04/19(月) 19:22:54

サイズはパラメータにしておいて、
平均値を使った場合と
その前後の値を使った場合と全部試してみて
この中のどれかですって言えばいいんじゃない

**デフォルトの名無しさん** · 2010/04/20(火) 17:55:12

>>261
ググッても見つからないんだが・・・

**デフォルトの名無しさん** · 2010/04/21(水) 19:02:15

>>261
探しても見つからないよ

**デフォルトの名無しさん** · 2010/04/22(木) 22:39:13

一卵性双生児の場合、声（歌声も）は全く同じではないだろ
だから頭部の数値だけでは不十分な気がする

**デフォルトの名無しさん** · 2010/04/22(木) 22:56:07

>>265
でも↓を見ると
http://www.onkyo-lab.com/mv.html

>そこで肖像画、写真、銅像等があれば、性別、身長、年齢、顔形を特定してその人の発声器官をコンピュータ上で電子回路に置き換え、
>シミュレーションして声を合成することが出来るのです。

って書かれているんだが・・・・

てかそもそも肖像画からどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出しているんだろう？

**デフォルトの名無しさん** · 2010/04/22(木) 22:58:41

声を合成できる事と
その声が実際の声と一致している事とは別だよ

**デフォルトの名無しさん** · 2010/04/23(金) 13:27:11

>>267
うん。だけど肖像画からどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出しているの？

**デフォルトの名無しさん** · 2010/04/23(金) 23:17:59

日本音響研究所に不可能はない

**デフォルトの名無しさん** · 2010/04/24(土) 00:03:36

>>269
だからどうやってやったの？

**デフォルトの名無しさん** · 2010/04/24(土) 00:15:07

日本音響研究所のおっさんに直接聞けよ

**デフォルトの名無しさん** · 2010/04/24(土) 23:13:48

>>271
直接聞いても企業秘密で答えてくれない
おまえらの力で考えるしかない

**デフォルトの名無しさん** · 2010/04/25(日) 09:48:56

>>266
肖像画が残るような人物なら性別は記録からすぐ分かるだろ
低脳

顔の各部分の寸法に関しては、
肖像画とその人物の民族平均を比較するんだよ。
低脳

**デフォルトの名無しさん** · 2010/04/27(火) 23:30:32

【歴史】169センチ、62キロだった龍馬　大男伝説に一石　山梨
http://tsushima.2ch.net/test/read.cgi/newsplus/1272325001/
甲州の研究家襟幅から算出
甲州市塩山上井尻の郷土史研究家、矢崎勝巳さんが写真から体格を測定する方法を
考案し、幕末の志士・坂本龍馬（１８３５～６７年）の身長を１６９センチ、体重を６２・１キロと
算出した。平均身長が１５０センチ台だった幕末当時、龍馬の身長は５尺７寸（１７３センチ）
とも６尺（１８２センチ）とも伝えられ、長い間大男だったとされてきたが、一石を投じそうだ。

矢崎さんは、当時の着物の襟幅が６センチか６・５センチの２種類しかないことに着目した。
６センチとすると背が低くなりすぎるため、６・５センチとして龍馬の立位の肖像写真で算出した。
２００７年１０月の日本人類学会で、龍馬の身長は１７０センチに満たなかったとの試算を
紹介したのに続き、昨年１０月の同学会では体格指数ＢＭＩで体重を試算する方法も発表した。

このほど、龍馬のＢＭＩ指数を標準体形の「１８・５以上２５未満」と仮定し、標準値の
（以下省略）

ソース：読売新聞
http://www.yomiuri.co.jp/e-japan/yamanashi/news/20100426-OYT8T01349.htm
画像：坂本龍馬の肖像写真
http://www.yomiuri.co.jp/photo/20100426-932069-1-L.jpg

**デフォルトの名無しさん** · 2010/04/27(火) 23:58:20

ところで証明写真などの顔写真からどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出しているんだろう？

**デフォルトの名無しさん** · 2010/04/28(水) 18:02:44

おーい証明写真などの顔写真からどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出しているんだろう？

**デフォルトの名無しさん** · 2010/04/28(水) 18:36:50

ねえねえ証明写真などの顔写真からどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出しているの？

**デフォルトの名無しさん** · 2010/04/28(水) 20:13:21

そして誰もいなくなった

**デフォルトの名無しさん** · 2010/04/29(木) 23:02:27

ところで証明写真などの顔写真からどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出しているんだろう？

**デフォルトの名無しさん** · 2010/04/30(金) 01:37:52

男の声をピッチ上げるだけだと、女っぽくならないのは何故だろう

**デフォルトの名無しさん** · 2010/04/30(金) 01:50:08

ボカロで言うGENとかUTAUでいうgフラグを調整する必要がある

**デフォルトの名無しさん** · 2010/05/01(土) 14:24:27

ところで証明写真などの顔写真からどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出しているんだろう？

**デフォルトの名無しさん** · 2010/05/01(土) 19:24:01

ねえねえ証明写真などの顔写真からどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出しているんだろう？

**デフォルトの名無しさん** · 2010/05/04(火) 18:39:42

おーい証明写真などの顔写真からどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出しているんだろう？

**デフォルトの名無しさん** · 2010/05/04(火) 23:25:22

発声時における声帯から口までの空気の流れを粒子法でモデル化して
音声合成を作ってみたいと急に思い立ったんだが、右も左も分からない。

とりあえず、これは圧縮性流れと見なしてシミュレートすればいいのか

**デフォルトの名無しさん** · 2010/05/06(木) 23:04:54

ところで証明写真などの顔写真からどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出すの？

**デフォルトの名無しさん** · 2010/05/07(金) 00:23:20

>>286
一般的には統計を利用する。

**デフォルトの名無しさん** · 2010/05/07(金) 16:24:45

>>287
どうやってやるの？
具体的に教えてくれる？

**デフォルトの名無しさん** · 2010/05/07(金) 16:57:59

てかそもそも証明写真などの顔写真からどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出すの？

**デフォルトの名無しさん** · 2010/05/20(木) 15:00:33

証明写真などの顔写真から統計を使ってどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出すの？

**デフォルトの名無しさん** · 2010/06/08(火) 23:57:00

ところで証明写真などの顔写真から統計を使ってどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出すの？

**デフォルトの名無しさん** · 2010/06/11(金) 13:49:50

>>291
とりあえず証明写真見て性別を5割以上の確率で当てられないバカはお前くらいじゃねーの

**デフォルトの名無しさん** · 2010/06/12(土) 22:08:09

ところで証明写真などの顔写真から統計を使ってどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出すの？

**デフォルトの名無しさん** · 2010/06/12(土) 23:22:47

きっと後ろの壁に横線が並んでるんだよ。

**デフォルトの名無しさん** · 2010/06/13(日) 15:05:51

うん。だけど証明写真などの顔写真から統計を使ってどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出すの？

**デフォルトの名無しさん** · 2010/07/06(火) 18:15:36

>>1を見て
鏡の国のレジェンドでのりぴーの声を1音ずつ喋らすことができるんだけど
それを録音してX68にADPCMで取り込んでおいて順次再生して「おまんこ」とか
「ちんちんいれて」とか喋らせて大喜びしてたのを思い出した

**デフォルトの名無しさん** · 2010/12/07(火) 04:06:55

音について質問です

例で
Windows Wave 無圧縮 PCM 16 bit 44kHz サンプリング　ステレオ

wav format
http://www.kk.iij4u.or.jp/~kondo/wave/#wav
http://hooktail.org/computer/index.php?Wave%A5%D5%A5%A1%A5%A4%A5%EB%A4%F2%C6%FE%BD%D0%CE%CF%A4%B7%A4%C6%A4%DF%A4%EB

波形データはステレオの場合ＬＲＬＲ・・　と並ぶなどの説明までは沢山の日本語サイトであるんですけど
その多くがWAV ファイルヘッダ情報ばかり詳しく述べて肝心のデータ部分の説明がおざなりで解りません。

波形データ符号付き整数 (-32768 - 32767) 16ビットの場合　FFFF8000 ～ 0 ～ 7FFF

リトルエンディアンにすると　00 80 FF FF ～ 00 00 00 00 ～ FF 7F 00 00　ですよね。

data (波形データのバイト数) 波形データL 波形データR 波形データL 波形データR　ですよね。

解らないのは、リニア PCM の場合
整数16bit　/　リトルエンディアン
L0L1L2L3　　/　L3 L2 L1 L0
R0R1R2R3　　/　R3 R2 R1 R0

格納順番は
これ？＞ data (波形データのバイト数) L3 R3 L2 R2 L1 R1 L0 R0 L3 R3 L2 R2 L1 R1 L0 R0 L3 R3 L2 R2 L1 R1 L0 R0
コレ？＞ data (波形データのバイト数) L3 L2 L1 L0 R3 R2 R1 R0 L3 L2 L1 L0 R3 R2 R1 R0 L3 L2 L1 L0 R3 R2 R1 R0

日本語サイトでここが詳しいとリンクしている英語サイト
https://ccrma.stanford.edu/courses/422/projects/WaveFormat/
では矢印のつけ方がどちらとも受け取れるので
音が変

**デフォルトの名無しさん** · 2010/12/07(火) 07:51:53

>リトルエンディアンにすると　00 80 FF FF ～ 00 00 00 00 ～ FF 7F 00 00　ですよね。

それ32bitじゃね？

**デフォルトの名無しさん** · 2010/12/07(火) 14:18:42

>>297
16ビットは2バイトだと気がつけば格納順番も分かると思います。

波形データ符号付き整数 (-32768 - 32767) 16ビットの場合　8000 ～ 0 ～ 7FFF
リトルエンディアンにすると　00 80 ～ 00 00 ～ FF 7F
data (波形データのバイト数) 波形データL 波形データR 波形データL 波形データR

整数16bit/リトルエンディアン
L0L1　　/　L1 L0
R0R1　　/　R1 R0

格納順番はこうなります。
data (波形データのバイト数) L1 L0 R1 R0 L1 L0 R1 R0 L1 L0 R1 R0

**デフォルトの名無しさん** · 2010/12/07(火) 23:06:21

SAPIの話かと思ったらすれ違いみたい

**297** · 2010/12/08(水) 08:25:46

ありがと　やっと謎がとけたよ
音声組替えで音の基本配置がわかんなかったから音声合成のこのスレにきたんですが　スレ違いごめんなさい
変調なんかもドコのスレだろ？

**デフォルトの名無しさん** · 2010/12/09(木) 02:03:55

グーグル検索
↓
念のためうぷ（´・ω・｀）まわいが重要

グーグル検索
↓
やらなくてもやられるし　日本語以外話せないし

テレビやネットで説明

**デフォルトの名無しさん** · 2011/01/05(水) 18:49:53

>>1
何という手間のかかる事を...。
波型とかエンベロープとか、学ばなきゃいけない事が、
山ほどあるのに。

**デフォルトの名無しさん** · 2011/01/15(土) 16:12:14

これの話者適応とか使えそうなんだけど、具体的なやり方がわからん
http://www.sp.nitech.ac.jp/index.php?%A5%DB%A1%BC%A5%E0%2F%B8%A6%B5%E6%C6%E2%CD%C6%2F%B2%BB%C0%BC%B9%E7%C0%AE

**デフォルトの名無しさん** · 2011/01/15(土) 17:34:46

>>304
話者適応は英語で Speaker Adaptation です。
HMM音声合成ツールキット HTS 2.0以降に
その機能があるのでソースを読めばわかると思います。

HMM-based Speech Synthesis System (HTS) - History
http://hts.sp.nitech.ac.jp/?History#z5d7dda6
>December 29, 2006
>　HTS version 2.0 was finally released :-)
>　The new features are
>　* Speaker adaptation, adaptive training, and semi-tied covariance transforms are supported for multi-stream HMMs/MSD-HMMs.
>　　* MLLRMEAN, MLLRCOV, and CMLLR-based adaptation.
>　　* CMLLR-based adaptive training.
>　　* Decision trees for context clustering can be used to define regression classes for adaptation.
>　　* HMGenS can read MLLRMEAN, MLLRCOV, CMLLR, and SEMIT transforms for adaptation.

**デフォルトの名無しさん** · 2011/01/15(土) 22:00:38

>>305
サンクス。ドキュメント見ながら色々試してみようと思う
とりあえずHTSの話者適応デモ動かしてるけど、終わらないし、2～3日かかるらしい
最終的にはwavファイルとその文章を与えたらその声で音声合成できるようにしたい

**デフォルトの名無しさん** · 2011/01/24(月) 21:38:46

統計学と信号処理と音声言語処理と機械学習を
勉強すれば何とかなるかな。