音声認識ソフト(2)
1 :名無しさん@1周年:2000/10/25(水) 04:41
音声認識ソフトを使っていると、いらいらして、発狂しそうになります。
これを使いこなすには、どうすればいいのですか?
前スレが変な形で終了しましたので、立て直しマスタ。 398ですが、早速の使用レポートをありがとうございます。
●Dragon2005 5年使用。適宜トレーニングと専門単語登録 に対して、
●Dragon11 買ったばかり と考えると。
5年使用のDragon2005に比べて、Dragon11がここまで健闘しているのは凄いと思いました。
『タイトル・エンデは勇ましく小、』 『対ドル・俺で下げ幅縮小』 ここら辺は、11にもう少し威張って欲しかったですが。
【文章を吐き出すまでのラグは若干気になる。 】というのも気に掛かりますが。
確かにPCのスペックが違い過ぎますが、2005に比べて11はスムーズといえばスムーズでしょうか?
それにしても、私が昨年買ったwin7 ノートPCのメモリーが4GBなのに、メモリー16GBというPCがあるのにビックリしました。
今後もレポの続きをよろしくお願いします。 397です。
>>403
認識率99%ではないですが、確かに健闘していると思います。
ラグが気になる点は、私が比較的早口なのも原因だと思います。
2005の時もそうなのですがトレーニング段階から若干飛ばし気味でやっているので、
実際のディクテーションの時もその早さを再現しないと、認識率が落ちてくるのですね。
プロファイルの重さの違いもあると思うのですが、軽さは11の方が優秀だと思います。
不満点
・2005にあった、数字と漢字に関する仕様(一般を「1搬」と表示)などは一部修正ができている模様。
ただ、例えば、八段とか三次元と表示させたい場合は文脈によりアラビアか漢数字かにわかれるみたい。
以下、ドラゴンで打ち込んだ短文
----------------
3次元の世界
これが三次元の世界か
そうだろう。 3次元の場合、
しかし、 3次元の
どうして3次元にこだわるのか
(上記を「三次元」に修正させた後)どうして3次元にこだわるのか(学習に反映されていない)
----------------
漢数字を多く使う場合は、英数字の使用をオフにすればいいんだろうけど、
半角数字多用の自分にとってはかなり不便。結局は手動修正に頼るしか無いのが現状です。
・修正を行うとスペースが消える
ex)1[スペース]そのときのこと→「修正 そのときのこと」→1その時のこと
・半角数字の前に突然半角スペースが勝手に挿入される事がある(記号を全角に設定すれば直る)。
・修正を行うと動作が重くなり落ちるケースが何回か
・2005に比べて吐息などに過剰反応する(自分の場合、文章冒頭に「9」が入る場合が何回か)。
・○番を選択が機能しなくなることがある(文章として入力される)。 良かった点
・抑揚を上手く使うと同音異義語もすんなり入力できる
ex)消化して昇華する
・学習能力はそこそこあると思う。
<例文:前回のリベンジ(前回の文を修正し、その後他の文章もいくつか読んだ。改行は一部意図して省略)>
-----------------------
ユーロは対ドル・円で下げ幅縮小、スペイン政府の発表消化
[ニューヨーク 27日 ロイター] 27日のニューヨーク外国為替市場で、ユーロはドルと円に対して約2週間ぶり安値水準を付けた後、下げ幅を縮小している。スペイン政府の2013年予算案や経済に関する発表市場参加者が消化している。
ユーロは対ドルで1時、 12日以来の安値となる1ユーロ= 1.2827ドルを付けた後、前日比横ばいの1.2874ドル付近で推移している。
ロイター・データによると、円に対しても、 13日以来の安値となる1ユーロ= 99.62円を付ける場面があった。その後は0.1%安の99.94円付近となっている。
スペインのサンタマリア副首相はこの日、 2013年予算について、増税よりも歳出削減に重点を置く方針を明らかにした。経済改革に向け、政府として今後半年間で43本の法案成立を目指すとした。
赤字削減を監督するための独立機関を設置する考えも示した。
-----------------------
認識ミス2箇所。うち、「1時」は学習しない模様。それと、半角数字手前のスペースが多数。
<例文2 http://www.jma.go.jp/jp/typh/D20120929124955428.html>
-----------------------
平成24年 台風第17号に関する情報 第55号付録(位置詳細)
平成24年 9月29日21時50分 気象庁予報部発表
(本文)
実況 29日21時 奄美大島の南東約100キロ
大きさ階級 //
強さ階級 非常に強い
中心に1 北緯37度55分 東経130度20分
移動 北東 毎時30キロ
中心気圧 940 hpa
-----------------------
認識ミス2箇所。27度がどうして37度なんだろう・・・ ちなみに、購入前に doragon の 詳しい情報ほしいひとは
英語版のを見るといい。簡易マニュアルもおちてるし、
HPに結構つっこんだ内容のFAQとかもある。 398です。 追加のレポートをありがとうございます。
確かに認識力は上がっているようですね。
不満点がとても参考になりました。 不満点を見ると、ちょっと厄介な問題を抱えていますね。
旧バージョンと比べても、手修正が多いのなら、結果的にそれほど改善されていないということになってしまうのか?
【吐息などに過剰反応】というのも気になります。
「ん〜」とか「え〜」とかも、拾われてしまいますか?
音声コマンド【削除・改行・バックスペースなど】については、正確な反応はしますでしょうか?
(やっぱりAmazonのレビューって何の役にも立たないな〜〜)
英語版のDragon Naturally Speaking11というのは、5から1段階ずつバージョンを積み上がっているのだろうけど、
日本語版は2005がバージョンで言うと 7 になるんでしたっけ?
それ以降、バージョンが引き継がれなくなっていて 8 9 10 を飛び越えているということなので、
バージョンが1段階上がっただけですから、英語版と比べて大した進展がないのかな〜? いや普通に考えて
DNSの日本語化がDSJでしょ・・・・。
おかしなこというひとだなw 397です。
>>407
私の場合「ん〜」とか「え〜」が無いので気にもしませんでしたが、
試しに冒頭に「ん〜」「え〜」を入れてみると、広告文句通りそれはパスされていました。
ただ、吐息、息を吸い込む音が認識されることはあります。
自分の場合、息を吸い込んで一拍おいて、文章と切り離すと誤認識はほぼなくなった感じです。
パッケージ表記通り、ノイズキャンセリングマイクの方がいいのかもしれません。
音声コマンド については、どのコマンドでも文章として認識されることがあります。
その場合は、一度取り消して再度打ち込めばコマンドとして動作します。
ロジックはよくわかないけど、文脈から文章として判断しているのかもしれません。
誤認率は1割くらい。 ちょっと書き方が悪く、誤解されやすかったですね。
結論として 【 DNS日本語版は、英語版と比較して、音声認識技術の蓄積が浅いのでは? 】と言いたかったのです。 というのは
●DNS英語版は、バージョン1から12まで連続して続いている
(しかも 9.5 とか 11.5まで出している)。
http://en.wikipedia.org/wiki/Dragon_NaturallySpeaking
●それに対して、DNS日本語版は2005がバージョン8にあたり、
9 10 が欠番になっていてこの度11が出たということです。
英語版は2008年からWindows 7対応版を出していますしね。
この違いから、英語版と比較して、日本語に対応する音声認識技術の蓄積が浅いのでは? と言いたかったのです。
ちなみに
>DNS11の日本語化がDS11Jね。
というのは確かに正しいです。 しかし、少し整理させて頂くと、
Nuance社 【開発・製造】 → DNS 11 日本語版 代理店 株式会社アセンディアが販売
→ DNS 11J 日本語版 代理店 ジャストシステムが販売
Jが付く付かないの違いで、ソフト自体は同じで、パッケージの中身などが微妙に異なり、価格も違います。 インターネットで調べると、DNS2005 日本語版が(文字通り2005年に出たんですかね?)が、
2008年に Windows XP が Service Pack 3 を出した時に修正バッチを出さなかったので
使用不可になったという書き込みが多々あります (中には別に問題無く使えているという書き込みもありましたが)。
その後、VISTAにもWindows 7の対応も無しでしたからね。
何を言いたいのかと言うと、Nuance社の日本語版への対応が非常に悪いので、
現在はWindows 7はService Pack 1ですが、Service Pack 2になった時に
Nuance社が対応する修正バッチを出すかどうかを見極めてからでないと買えないのでは? ということです。
日本語版2005の時の様にService Pack が更新されたら使えなくなるという可能性もありますから。
でも前科のある会社は気をつけないといけないし。
とすると、上記の対応を見極めるか? Amivoiceか? の選択かな〜?
私はDNS11か11J日本語版を買いたいのですが、とりあえずWindows 7付録の音声認識で場つなぎしています。
過去にViavoiceとかLaLaVoiceなどの、なんだかな〜ソフトを掴んでいるので慎重過ぎかな? 再び398です。 追加の使用レポートをありがとうございます。
「ん〜」「え〜」がパスされるのなら、訂正回数が減らせそうですね。
>吐息、息を吸い込む音が認識
これは、口に対してのマイクの距離と角度などで少し改善される可能性もありますね。
音声コマンドは、Win7の方が認識が良いのかな〜? ちょっと面倒ですね。 DS11(J)は DNS11のHOMEにあたるのかPREMUIUMにあたるのか
ご存知の方いらっしゃいませんか?
カスタムコマンド可能ってあたりからPREMIUMUの日本語版かなとも思うのですが。
DS11(E)HOMEはカスタムコマンドないですよね。 >DS11(J)は DNS11のHOMEにあたるのかPREMUIUMにあたるのか
こんにちは。 上に書かれている日本における販売代理店の 株式会社アセンディア か ジャストシステムに
問合せされるのが賢明かと思います。
但し、私は2社にEメールとか電話で色々と質問しましたが、
2社とも単なる販売店で売っているだけという姿勢なのであまり期待しない方がいいです。
もしも回答があったら、ここに詳しく書き込みをして頂けるとありがたいです。 amazonで英語版のDS11買ったら
中身はDS11.5でヘッドセットついてた。
ちなみにマイクはイヤホンジャックのやつ。
いまどきUSBじゃねえのかって思ったが。
でも3000円以下でこの内容ってのはお徳な気はした。
ちなみに
http://www.dragonspeech.jp/news/newrelease
8,10、11あたりは、英語版プレミアム(×ホーム)の機能なので
日本語版はプレミアムベースだと思うよ。
じゃなきゃ英語版と比べて詐欺的値段差。
型落ちのくせに。
また、英語版の情報は
http://support.nuance.com/usersguides
ここにあるんで
11(premium)の情報を見ればよいことになる。
それから、
>>411
【 DNS日本語版は、英語版と比較して、音声認識技術の蓄積が浅いのでは? 】
とのことだが、
「技術」というのが、あいまいすぎるが、
音声認識関連の論文でも(別に商品比較が目的ではないが)
旧版の時点でドラゴンのほうが他の商品より若干認識正解率が低かった。
おそらく現時点でもamivoiceより単純な日本語認識力では負けてるとおもう。
日本もアメリカと並び音声認識先進国なのでそういう意味でamivoiceなどの
純和物と比べると日本語の音響モデル・言語モデルの構築の力の入れ具合が弱い分
ドラゴンのほうが不利さはある。
ただ、ドラゴンは、英語の認識もできる上に定評もあるし、
コマンドなど制御系が強いという大きな利点がある。 ついでにいうと制御系は、windows7の音声認識がフリーな上にかなり強力。
サンプルソースを参考にして簡単なXML文法で好きなのつくれる。
win7 音声認識
コマンド ○
カスタムコマンド ○
日本語認識 ○
英語認識 ○
wav読み込み ×
amivoiceSP
コマンド △
カスタムコマンド ×
日本語認識 ○
英語認識 ×
wav読み込み ×
dragon 11J (おそらく11 premium の日本語対応版)
コマンド ○
カスタムコマンド ○ (簡単なもの)
日本語認識 ○
英語認識 ○
wav 読み込み ○ win7
無料
音声ファイル読み込み機能ない以外はハイレベルでまとまっている。
サポートもほどほどにはある。
amivoice
有料
機能はすくないが軽い。
日本語認識能力は高い。
コスパは悪いがサポートは少しは期待できそう。
dragon
有料
多機能だが重い
日本語認識は悪いことはないが、とくにすぐれてもいないと予想。
サポート体制は、購入前に日本語ドキュメントの閲覧さえできない状況から予想できる。
英語版情報はさがせばそれなりにある。
英語版がamazon.comでも動かなかったなどの評価多いので注意が必要。 創・価
死・ね
創・価
死・ね
創・価
死・ね
創・価
死・ね
創・価
死・ね
創・価
死・ね
創・価
死・ね
創・価
死・ね
創・価
死・ね
創・価
死・ね
創・価
死・ね
創・価
死・ね
AMAZON本家での、DNS英語版は意外に低評価が多いので驚いた。
アルファベットの方が認識率が高いと思っていたけど。
AMAZON本家の方がレビューの数が多いし、内容が詳しいね。
AMAZON日本での、DNS日本語版のレビューは、買ったばかりの人とかでまだ参考にならない。 ちゃんと評価読んだ?
起動不能系の低評価が主体だったと記憶してるが。 DNS11日本語版は、今度こそICレコーダーの音声の文書化をまともに出来るようになったのですかね?
それが結構気になるのですが。 そんなことはさすがにわからん。
心配ならアミボイス買ったほうがいいとおもうよ。 最新のMac OSにも、音声認識ソフトが入っています。この投稿はそれを利用して書いています。面白いのは、日本語以外の外国語にも対応していることです。
具体的に言いますと、ドイツ語、フランス語、スペイン語、中国語、韓国語などが使えます。中国語でニーハオと呼びかけて正しく変換された時は感動しました。外国語の勉強にも使えると思います。 多少は使えるけど
音響モデルとか人間よりはるかに精度低いから
あんま真面目にならないほうがいいよ。 みんなヘッドセット何つかってる?
宣伝じゃないが
サンワのMM-HSUSB10が安定定番なのかと思ってるのだが。 私が持っているヘッドセットは viaviceに付属していたもの。
そして、スピーチマイクはPhilips社 Speechmike Pro Plus LFH5276。
デスクトップのWindowsXPに付属する音声認識ソフトでは、両方とも一応コマンド入力は出来るが、
音声文字入力の方は両方とも誤認識が多くて使い物にならない。
ノートブックのWindows 7に付属する音声認識ソフトでは、両方とも一応コマンド入力は出来るし、
音声文字入力の方はヘッドセットは誤認識が多くて使い物にならないが、
スピーチマイクを使うとかなり認識される。 付属品が糞すぎるとおもう。
たぶん年代的にUSBじゃないでしょ?
USBの-38dBもので
静かな部屋で使えばサンワのも高級品もたいしてかわらんと思う。 430です。 LFH5276は1ヶ月前位にヤフオクで【 LFH5276本体のみ(動作未確認品扱い)500円 】で買いました。
買った直後は全く動かなかったけど、Philips社のHPでドライバーを落としたら動くようになりました。
但し、Win XPと7ではボタンが使えない。 マイクとスピーカーとマウス関係だけが動きます。 マイクは性能が良いみたい。
DNS11英語版用のドライバーを見付けてあるので、これを入れればDNS11日本語版でボタンが動くことを期待しています。
Win 7の音声認識がいまいちなので、DNSを買おうかどうか迷っている最中です。 ドラゴンスピーチに付属のヘッドセットの製品名を教えてくれませんか?
付属のものでやるか、少し高くても、認識率のために別製品を買うか、迷っているのですが……。
なお、以前は、このサイトで教わったプラントロニクスの製品を使用してました。
もうぼろぼろなので、今回の製品を購入と同時にマイクを変えるつもりです。 >>435
ですから、ヘッドセット付きで購入するか、ヘッドセットなしのものを買ってマイクだけ高級品を買うのか迷っているのです。 なしがいいよ。
マイクは高級品かどうかよりも
USBであることと、
感度レベル・指向性が重要 >434
まともなレスがつかないようなので、直接株式会社アセンディアに
問い合わせてみては如何でしょうか?
私もノイズキャンセリング機能付きヘッドセットマイクというのが気になるので。
回答を書き込んでもらえると参考になります(私も今、アセンディアに質問Eメールしてみましたけど)。
>438ですが、
ついさっき、アセンディアから回答が来ましたが、
【 弊社でメーカー情報、型番が不明です。
「ドラゴンスピーチ 11 日本語版」製造のメーカーに確認をとり、
ヘッドセットマイクのメーカー情報、型番をお調べいたします。】との事です。
しばし待たれよ。 英語版もってるけどUSBでさえないから、
同じだとしたら買ったほうがいいよ。
>438ですが、
アセンディアからまだ回答無しです。
完全にただ販売しているだけで、ソフト自体についても製品自体についても
何も分からずに販売しているという感じですね。
DNS2005の時はWinXPのSP3以降修正バッチを出さなかったので、
今回の11日本語版は今後において修正バッチは出す予定なのかをアセンディアに聞いたが、
販売しているだけで分からないと回答されたし。
フュートレックあたりが、PC用の音声認識ソフトを出してくれると良いんだけどな〜。 ドラゴンスピーチ11Jが出てることをさっき知ったので、このスレにきました。
amivoiceSP買ってたけど、徐々に使わなくなったな・・・
●>438ですが、
アセンディアからまだ回答無しです。 あきらめました。
DNS2005の時もサポート体制が最低だったらしいけど、
高いお金を払って後々嫌な思いをしたくないので11とか11Jを買うのは止めました。
●フュートレックは回答がすぐに来ましたが、PC用音声認識ソフトの販売予定なしだそうです。
●442さんへ amivoiceSPを徐々に使わなくなった理由は何ですか? >>443
もともとやりたかったのは、ICレコーダーにふきこんだ
音声ファイルを、一気にテキストファイルにする方法だったんですが、
使い物にならなかったんですよ。上の方でWAVって書いてあるやりかたですよね?
一方、PCのまえでマイクにむかってテキストファイルをつくる方法では、わりとストレスなかった記憶がありますが、
そういう使い方が性に合わなかったんですかね。
そういうわけで、今度のドラゴンスピーチには、音声ファイル→テキストファイル、がどのくらい
スムースかどうかという点で興味あるんですよ。
しかし、近い将来、
スマホにむかってしゃべれば、中央のスパコンでテキストファイルに変換して、
クラウドにかえしてくれるようなサービスができないかなあとおもってます。
二つの方法を統合したことになりますね。
需要が少なければ値段は高いかもしれませんが。 443ですが。
>ICレコーダーにふきこんだ音声ファイルを、一気にテキストファイルにする方法
あ〜〜これですか〜、私もこれが可能ならすぐにそのソフトを買うのですが。
DNS11(J)日本語版でどの位出来るのか、試してくれる人がいると良いのですが。
私は費用対効果の面でDNS11はやっぱり見送ろうかなと考えています。
ICレコーダーの件が可能ならば買いですが、単なる音声入力なら
騒がしいオフィスではまず使えず、家の静かな環境でしか使えないでしょうし。
音声入力の頻度が低いのなら、Win7の音声認識入力の方が費用対効果の方が高いですから。
>スマホにむかってしゃべれば、中央のスパコン
【 「Evernote for Android 3.6」公開、音声認識による文字入力が可能に 】
http://internet.watch.impress.co.jp/docs/news/20120328_521946.html
とりあえずは、これでやれませんかね?
私はクラウドは好きではないので(ていうかデータ流出と消滅が心配なので)、スタンドアローンが良いのですが。
スマホスマホでスマホばかり便利になると、今後PC用ソフトがますます売れなくなって、価格が高くなるかも。
確かに二つの方法共に可能ならば、私も即買いですけど。
Viavoice時代に比べると確かに認識率は良くなっているようですが、ただそれだけという感じですね。画期的な進歩まではいかない。 >>445
わたしはまだスマホにしてないのですが、スマホの音声入力はかなり使えるらしいですね。
スマホのOSに命令したり、簡単なメイルを入力するのも、音声でできるとききました。
ただ、スマホのCPUで処理してるんですよね?でしたら、ふつうのPCよりは、本質的な
能力は劣るんだろうとおもいます。
わたしがおもってたのは、スマホから音声データがどこか中央にあるスーパーコンピュータに
転送され、そこでテキストファイルに変換され、結果が返送されてくる、という
イメージです。クラウドに返送するようにもできるし、個々のスマホに返送するようにも
そのへんは柔軟にできるとおもいます。
音声テキスト変換は、結局はCPUとメモリの能力しだいなので、コンピュータの能力が
高ければ高いほど、効率が上がるんじゃないかとおもいます。個々人のこのみで変換に
クセをつける設定にすることも可能なんじゃないかと想像しています。
技術的にはもうできるんじゃないかとおもってるんですが、商業的にどうですかね。 >446
●Amivoiceは複数の人間が使える。
●DNSは以前は1人の人の声だけを覚えさせるので1人しか使えない(新製品の11は分かりませんが)。
●対してスマホの音声認識の性能が高いのは、クラウドだからの様です。
【 スマホ 音声認識 仕組み 】でネット検索すると沢山hitしますが。
『 スマートフォンのマイクで本体に話しかけると、その音声をデジタルデータに変換し、インターネット経由でそれを解析するサーバーに送信。
このサーバーは非常に性能が高く、一瞬で音声を解析して、文字に変換してくれるのである。』
http://www.famitsu.com/guc/blog/sano/11646.html
『 Androidの音声入力では、Googleの持つ膨大なデータベースを生かした認識技術が使われている。
入力された音声を、過去の入力パターンの蓄積と照らし合わせて、もっとも近い言葉を選び出す仕組み。 』
http://android-smart.com/2012/10/%E3%82%B9%E3%83%9E%E3%83%9B%E3%81%AE%E8%81%B4%E3%81%8D%E5%8F%96%E3%82%8A%E6%80%A7%E8%83%BD%E3%81%AE%E9%99%90%E7%95%8C%E3%81%AB%E6%8C%91%E6%88%A6%E3%80%80100%E3%83%87%E3%82%B7%E3%83%99%E3%83%AB.html
スマホによる音声入力は端末自体の性能は既に充分で、変化処理をクラウドでしているので、
接続回線速度により端末での変換反応速度が変わるという仕組みみたいです
( PC用ならばハード自体の性能に大きく左右されますが)。
と言っても、スマホでは画面が小さいので、私は老眼が入ってきている身なので使えないし、
画面の小ささで殆どofficeSoft関係を使うのは無理そうですし。
PC用としては、音声認識ソフトはWin7に標準搭載されているので、使用頻度が低ければそれで充分でしょうし、
PC用音声認識ソフトというのは使用頻度が高い人向けのマイナー製品としての位置づけで需要数が少ないので
だから今どき2万円という高い値段で売るしか採算がとれない状況なのでは? と推測しますが。
スレ違いですが、私は過去にOCRソフトを色々買って紙の文書をPC上で文字化させようと思いましたが、
どのOCRソフトも全然使い物になりませんでした。 こっちも良い製品が出ると良いのですが。 >>447
>>スマホの音声認識の性能が高いのは、クラウドだからの様です。
そうだったんですか。知りませんでした。情報ありがとうございます。
PC画面で目を傷める・字が読みにくいという問題は、年齢に関係なくありますよね。
スマホは知りませんが、小さなノートPCで、それは感じます。
スマホから入力しても、データを(大画面でつかってる)PCにかえすようにしてくれれば、
(あるいはこちらでそう設定できれば)、いいのですが。
あるいは、そういうサービスだけを単体で販売してくれませんかねえ。
たとえばPC画面上のエクセルを操作もデータ入力も全部音声で、
クラウドと連動しつつ、スムースにできるようにしたり、とか。
OCRも、それができれば効率があがるかもしれませんね。
クラウドにはデータをためない設定にしておけば、データ流出問題もかなり防げるようにおもいます。
音声入力は現在のところマイナーですが、私個人の考えでは、近い将来、右肩上がりにメジャーに
なっていく潜在性があるとおもいます。ただ、環境がととのう必要があります。 >448
>スマホから入力しても、データを(大画面でつかってる)PCにかえすようにしてくれれば
私はまだまだ不勉強なのですが、Evernoteというものがあります。
http://evernote.com/intl/jp/evernote/
web版とPC版があって、PCや新し目の情報端末から、いつでもどこでも、
あらゆるデータや情報を入力して、クラウドなので全ての端末で更新後の情報が同期して見られるというものです
(PC版のデータ保存場所がどこなのかをまだ掴んでなく、個人がバックアップをとる方法も掴んでいませんが)。
私はタスク(todo)管理方法として、
出先でPDAにタスクを入力して、後でPCに接続してOUTLOOK(の中の仕事)に同期させたり
(試験的には、2度手間になりますがOUTLOOKからEvernoteに情報転送させて同期させています)、
またPC使用時にOUTLOOK(の中の仕事)に音声入力でtodoを入力しています。
しかし、もう少し情報端末と音声入力ソフトでどうにか効率的にならないかと模索中です。 私は前回のドラゴンスピーチで、ICレコーダーによる文字化を実験しております。前回の経験では、ICレコーダーを使うと、認識率がマイクを使った場合より多少落ちました。
つまり、もっと高性能のICレコーダーを使用できるのなら、十分使い物になるのではないかと考えています。
ところで、音声認識は、あまり期待しすぎず使えば、わりといけるのではないでしょうか。
例えば、自分の書きたいこと、大事なこと、思いついたことなどをどんどん話していき、パソコンにテキスト化させる。それを後から、机に座って、校正していくというスタイルですね。
文章を書くことを仕事にしている人は、いろいろなアイデアを思いつくたびに書くことが必要だと思います。そういう人はこういう作業の仕方が能率的じゃないかなと思っていますけどどうでしょうか?
なおMac OSマウンテンライオンの音声認識は、一旦データをサーバー側に送って処理しているようです。という事は、あまりプライベートな内容を音声認識するのは気が進みませんね。 OCRソフトについて触れている人がいますので、私も自分の経験を書いておきます。
私は和西辞典のテキスト化を試みました。つまりスペイン語辞典ですね。
問題はたくさんありました。まず、スペイン語と日本語の混在、大きな活字と小さな活字の混在などです。
さらに、最初の頃はスキャナーの使い方を理解していませんでした。例えば、少しでも濃くすればよいのかと考えていたのですが、まったく間違いでした。
むしろ、少し薄すぎないか、位で丁度良いようです。文字の混在については、両方一度にやるのが無理なので、結局、スキャナーでとったものを、日本語のソフトと、欧米言語ソフトに別々にかけました。
それを、日本語、スペイン語、日本語、スペイン語の様にコピペしていったわけです。
想像できるとおもいますが、かなり面倒で時間のかかる作業です。それでもすべてキーボードで打ち込むよりは時間は少なかったと思います。
全体の3割程度の作業をやったところで、疲れてギブアップしました。残り7割と言うわけですが、おそらく最初の3割にかかった時間とほぼ同じ程度で終わると思います。
誤認識ですが、機械的に同じように間違えてくれるものについては、むしろありがたかったです。なぜなら検索置換機能を使えば、たとえ何千カ所であっても一気に修正できるからです。
私はこのときの経験からOCRソフトについていろいろ学びましたので、いつか時間ができたら、和露辞典、和独辞典などのテキスト化に挑戦したいと思っています。
>>449
ある端末からEvernoteに音声データをあげたときに、そこでテキストファイルに変換し、それがリアルタイムで
ほかの端末で再現できるサービスに発展してほしいですね。
ドラゴンスピーチ11Jを購入されたかたの書いたものをみつけました。わたしも、かなり購入に
傾いています。
http://netakiri.net/diary/archives/545.html >>450
貴重な体験談をありがとうございます
>>自分の書きたいこと、大事なこと、思いついたことなどをどんどん話していき、
>>パソコンにテキスト化させる。それを後から、机に座って、校正していくというスタイルですね。
私はスマホをまだ使ってないのでわからないのですが、
スマホで音声入力→クラウドにテキストファイルが作成される→それをデスクトップPCで校正
って使い方は、もうできるんでしょうか?ご存じなら教えてください。 ドラゴン買ってきた。馬鹿すぎて笑った。10回学習させてもダメな単語多数。
こんな物使い物になるわけ無いw >>453
私はスマホに詳しくないのでわかりません。
ドラゴンスピーチ11が届いたので、実験を繰り返しています。性能については、いまの時点では不満はありません。
ただ、ICレコーダーの実験をしようとしたら、こわれていてがっかりしました。
ネットで購入する製品をしらべているところです。ICレコーダーでの実験については、結果が出次第、ここで報告するつもりです。.
高性能のものは高価だし、私は音声認識だけできればいいので、ほどほどのものにしたいのですが、むずかしいですね。 次のページにICレコーダを使った音声認識の実験結果が載っています。
英文ですがそれほど難しい英語を使っていません。
このページによると、 ICレコーダーの機種ではなく、録音モードが問題になるようです。
高価なICレコーダが必要なのかと思っていたのですが、そういうことではないようです。
http://softduit.com/what-is-best-quality-setting-for-optimal-dragon-naturally-speaking-9-transcription-with-sony-ic-recorder/
私はこのホームページを読んで、正直多少ショックを受けました。
何故かといいますと、私はICレコーダーのspモードしか試してなかったからです。
音声認識には、モノラルモードしか有効でないとの認識でした。
ステレオモードが使えるとは考えていなかったのです。
ということは、私が使っていたicレコーダーでも、もっと高いレベルの認識が可能であったということです。
私が悪いというよりも、ニュアンス社が、ICレコーダーによる音声認識を、積極的にPRしていなかったともいえます。
11の説明書でも、ほとんど触れてません。実際にはけっこう使えると思うのですがね。 これ使うと終了後にすごい不安定になる。
メモリ管理おかしいんじゃないか。 俺的にはアンドロイドベースのタブとかで
グーグル音声認識使える汎用性の高いものがでると
一番よいとおもう。もう何かあるかもしれないが。
PC負担もすくないし。 結局ドラゴンスピーチはいいのか悪いのかわからんソフトだな。
レビューだけ見てると 音声認識自体がまだまだ実用価値低い。
ICレコーダーとか使いものになると思えないけどね。
google.comの音声認識でも
例えば
walking deadとか検索回数の多い流行の単語とかはすぐ認識するが、
fullhouse とか昔のドラマはいくらやっても認識しない。
president obama とかはどれだけてきとうに発音しても認識するが、
日本の首相の名前は英語風によんでも日本語風によんでも認識しない。
言語モデルによる修正が出現回数の多い単語を有意に認識率上げる反面
出現回数の低い単語は、類似の出現回数高い単語に置き換えられて
逆に認識の邪魔をされる。 私はドラゴンをヘッドセットなしで購入しました。
ヘッドセットはこわれやすいのが難点だと思います。
その代わりにソニーのECM-PCV80Uを購入しました。ソニーの宣伝によると、高音質pc用ボーカルマイクとのことです。
マイクの性能についてをほぼ満足しています。
なお、ICレコーダを利用しての音声認識というのは、パソコン画面を見ずにワープロをやってるのと同じです。
つまり、同音異義語について正しく変換されることを期待するのは間違いです。
私としては、思いついたアイディア、原稿を後で思い出せる程度の変換になってくれれば満足です。
そういうつもりで考えたとすれば、十分使えるんじゃないかと考えています。 >>464
前からおもってたけど高価とか高性能みたいな言葉にだまされて
ほんとカタログスペック自分で見ない人だねw
じゃぱネットにだまされそう。
まあその製品なら一応大丈夫だとおもうけど。 >465
>前からおもってたけど高価とか高性能みたいな言葉にだまされて
>ほんとカタログスペック自分で見ない人だねw
何か上の文章を読んでいて変な感じがするのだが。 464の文章を書いた人を前から知っていたということなの?
【自分で見ない人が多いよね】だったら分るが。
それは兎も角、私は昔からPCソフトをかなり買っているけど、
『こんなことが出来ます』なんてカタログや謳い文句で売られていても
実際に買ってみると実用レベルと言えない物やトラブルが多かった。昔も今も変わらないが。
PCソフトに限らず、世の中には謳い文句と実際がかなり違うという物がかなり多い。
デジタル機器なんかも機能は飛躍的に良くなったが、充電池のもちの問題は長年の課題のままなのに
そこはあまり表に出さないし。
音声認識ソフトも静かな場所で入力できる環境の人で、主に入力に使うだけで、安価なら買いだと思うが。 次のページは音声認識に優れているマイクの購入ガイドです。
http://speechrecsolutions.com/microphone_selection_guide.htm
読むとすぐにわかりますが、高価なマイクほど結果が良いという、しごく当たり前のことを言っているだけです。
ほとんど何も参考にもなりません。このページの結論は、少なくとも100ドル以上のお金を出しなさいということです。
昔、音声認識ではありませんが、ある事情から優秀なマイクを購入しようと考えた(注 結局買わなかったけど)ことがあります。店に行って業務用のマイクのパンフレットを見て驚きました。スペックが素人用のマイクより悪いのです。
店の人に聞いたら、「業務用は普通のマイクと基準が違うのだ。数字が悪くても、業務用のほうが性能は良い」とのことでした。
いまいち納得はしてませんが、私は過去にそういう経験をしています。 どちらも(ドラゴンスピーチ11 AmiVoice SP2)
使った事ないので判らない。
今後の書き込み期待します。 以下、ICレコーダーによる、音声のテキスト化の実験です。
ただし使用したICレコーダーは、ソニーのリニアPCMレコーダーです。
つまり音質はこれ以上ない最高級です。通常のICレコーダーで同じ結果が出るのかは保証しませんのでそのつもりで読んでください。わかりやすいように文章ごとに並べてあります。
上が原文、下がテキスト化したものです。
なお、ドラゴンスピーチで記号をどのように読んでいいのかわかってないものがいくつかあります。マニュアルにきちんとまとめられていないと思うんだけどどうなんだろう?
>>調査でわかった事実を遺族にきちんと開示する仕組みを作ってほしい。
調査で分かった事実を遺族にきちんと開示する仕組みを作ってほしい。
大津の事件を始め、いじめによる自殺で我が子を失った遺族らが訴えている。
大津の事件を始め、みじめによる自殺で我が子を失った遺族らが訴えている。 背景にあるのは「学校や教育委員会は、都合の悪い情報を隠そうとする」という不信感だ。
背景にあるのは「学校や教育委員会は、都合の悪い情報を隠そうとする」という不信感だ。
遺族は学校で何があったのかを知りたい。ところが、学校は「生徒が動揺する」「個人情報が含まれる」と、アンケートや聞き取りの内容を伏せる。
遺族は学校で何があったのかを知りたい。ところが、学校は「生徒が動揺する」 「個人情報が含まれる」と、アンケートや聞き取りの内容を伏せる。
他の保護者にも理解されず、遺族が孤立する。裁判に訴えるしかなくなる。そんなことがしばしば起きる。
他の保護者にも理解されず、遺族が孤立する。裁判に訴えるしかなくなる。そんなことがしばしば起きる。
本来、遺族と学校・教委は、対立関係にあってはならない。何があったのかを知りたいのは両者とも同じであるはずだ。
本来、遺族と学校競技は、対立関係にあってはならない。何があったのかを知りたいのは両者とも同じであるはずだ。
なぜ子どもが死に追いやられたのかを遺族と一緒に考えて、再発防止に生かす。そんな調査のあり方を探りたい。
なぜ子供が私に追いやられたのかを遺族と一緒に考えて炎再発防止に生かす。そんな調査のあり方を探りたい。
2年前に川崎市教委が公表した調査報告書はその手がかりになる。14歳で亡くなった篠原真矢さんの事件に関するものだ。
2年前に咲矢強いが公表した調査報告書はその手がかりになる。 14歳で亡くなった篠原昌也さんの事件に関するものだ。<< ついでですが、私は通常の文章作成にMacintoshを利用しています。
この原稿も、マックの音声認識で書いています。音声でおよその原稿作っておいて、後で小さな部分を修正して最終原稿まとめています。
マッキントッシュの音声認識も割といけると思っています。
ただし、有料版ではありませんので、認識率向上の方法などがありません。それが最大の欠点でしょうね。 音声認識ソフトを使っていると、認識結果が悪くても、
「もしもっと上等のマイクやICレコーダーを使っていたら、結果が違うのではないか?」
とつい考えてしまいます。
過去に私はアミボイスを使ったことがありますが、結果は良くありませんでした。
しかしソフトを非難するのは、なるべく避けています。
理由は、ひょっとすると、ソフトより私のマイクのせいかもしれないと考えるからです。
逆に言うと、最高のマイクと最高のICレコーダを使った上でのことならば、そこから先の問題は音声認識ソフトの問題であろうと結論づけられるのです。
私は今回、ドラゴンスピーチ専用のパソコンも新しくしました。
CPUも速いし、ハードディスクではなくSSDが入っています。この環境ですと、さすがにドラゴンも快適に使えるようです。
難点はマニュアルがわかりにくいです。
私は前のバージョンからのユーザーですから理解できますが、新しい人にはとっつきにくいと思います。 434さん、参考になるデータありがとうございました。DSがかなり使える可能性があることがよくわかりました。
逆に、レコーダーをダウングレードするとどうなるかが、実用的には気になるところです。 音声認識ソフトが得意とする分野は、新聞の一般記事のような内容です。
固有名詞、人名、専門用語などはもちろん苦手です。
ただし、専門用語といっても、政治的なもの、つまり新聞の社説のような内容だと割と得意だったりします。
専門用語は、自分でこつこつ登録すれば出るようになるのかな?
まだやったことないのでわかりません。
なお、一番苦手なものは、会話のような文章が現れる小説でしょうね。口語的なものは全滅します。
キーボードで入力したとしても、あとでいろいろいじらないとまともな原稿にはできませんから、最初のラフな原稿を音声認識でやるのは、悪い話ではありません。
ついでですが、ソニーのリニアPCMレコーダーPCM-M10は22000円前後で購入しました。
現在のICレコーダーはほとんど1万以下ですから高価に感じますが、10年前のICレコーダーはそれくらいしました。
それを考えると高いとは言えません。 ラジオの音声や、ドラマを音声認識させるとどうなるか知りたい とりあえずドラゴン11Jをポチった。
届いたら報告する。 478番様
それはむろん私も考えました。ドラゴンの場合、音声ファイルを認識させる形になりますから、つまり、ICレコーダーからの音声認識と一緒になります。
この場合、まず本人の音声を18分ぐらい録音したものをソフトにかけます。(注 あらかじめ決められた文章を読むのです)
すなわち、映画やニュースはだめということになります。
一方、マッキントッシュの音声認識は、誰の声でも反応しますから、こちらの方が可能性があることになります。
ところが今の時点において、私は接続方法がわかっていません。実は既に2chで相談したのですが、全く無視されました。
今のマックユーザーには、音声認識に興味がある人がそれほど多くないようです。 ついでに余談を書いておきます。
私はかつてドイツ語のDVDのテキスト化のためにアルバイト雇ったことがあります。
かつて日本に留学していたというドイツの方が応募してきました。
1回22分ほどの番組を10回分やってもらいましたが、謝礼が安かったせいか、やめられてしまいました。
残念です。今でもいい人がいないか探しているところです。
あるいは、音声認識ソフトを利用して、DVDの音声を自分でまねることによりテキスト化がうまくいくのか??? 押忍、オラ479 。というわけで今ドラゴンスピーチ11Jで入力しているところだ。
何回言い直してもひたすら間違える箇所があるが、まあ使えるソフトだと思う。
本当に昔のViaVoiceとは全然違うな。
(Jのところは何回やっても10になってしまう) AmivoiceSP2はまだ発売されてないよ……。 ドラゴンスピーチの辞書が10万語だそうだが、これは楽天のコボタッチのコンテンツ数くらい眉唾もんだなぁ。 一太郎・玄のスーパープレミアム版に、ドラスピ同梱! これですね。「ATOKならではの誤りのない変換」ってところに、激しく魅かれる。
├──────────────────────────────────
◆ドラゴンスピーチ11Jと連携し、最強の音声入力環境を実現!
--------------------------------------------------------------------
高性能音声認識ソフト「ドラゴンスピーチ11J」と「ATOK 2013」が連携。
同音異義語や固有名詞など、ATOKならではの誤りのない変換が、文章入力
のスピードを劇的に変えてくれます。
※ドラゴンスピーチ11J(希望小売価格 \24,255)は
「一太郎2013 玄 スーパープレミアム」に搭載されています。
├──────────────────────────────────
◎「一太郎2013 玄 スーパープレミアム バージョンアップ版 JMS」
MyShop価格: 【24,150円】
基本ポイント[1,150pt]のところ…予約ポイント3倍!【3,450pt】 一太郎2013 玄 スーパープレミアム バージョンアップ版
ってDSつきだからかなりお得感があるとおもう。
一太郎って、どっかで自分か家族がか一回は買ってるようなソフトだから、
対象者は広いな。
欲しい人が多いかどうかは、使えるかどうかにかなりかかってる気がする。 DNS11Jの使用レポートも、ろくにUPされていないのに、新製品が出ると言って喜ぶのもどうかと思うが。
メーカーのうたい文句を真に受けていたら、きりがない。
DNSの前バージョンは、XP SP3以降は長年放置していた。DNS11Jもどうなるかは分からない。
私は長年一太郎を使っているけど、そんな危ない他社ソフトを組み込んだ今回の一太郎スーパープレミアム版は買わない。
それに音声認識ソフトを買っている人は既に単品で買っているだろうから、
DNS11Jが出てから数か月も後に出る一太郎スーパープレミアム版は買わないだろうね。
以前はMSのWORDより一太郎が使い勝手が良かったが、最近はそうでもないし。 DNS+MSのWORDで充分。
AmiVoice SP2 の使用レポートも全くUPされないので、音声認識ソフトの関心も薄れたか? 一太郎は学校や役所につよいからな。
音声認識が実用レベルなら、どっと需要が増える。 俺がドラゴンスピーチ買った直後に出すなよ。詠太目当てに一太郎買うつもりなのによ。
どうでもいいけど、おまえら、読み上げソフトは面白いぞ。俺は車の中で小説読ませるつもり。
iphonの金沢文庫は誤読が多すぎて。
珍しい→ちんらしい
午前→うままえ
小説聞きながら笑ってしまうんだよw ドラゴンスピーチ11jの優待版ってインストールしたり起動したりする時に対象商品のシリアルナンバーとか必要になるんですか?
いらないなら優待版買おうと思うんですが・・・ >>495
ドンマイ←死語。
自分はドラゴンスピーチ今週買って、昨日の夜中に眠い中トレーニングしてた。
それで今北よ。自分、情報弱者だって、思い知ったよ。
ホームページすらちゃんと読んでなかったっぽいから、不注意に近いか。 米わかりにくかったね
自分もドラゴンスピーチ買ったんだけど、 ATOKとの連携ができるんだったら、一太郎との組み合わせで買いたかった。
そーゆー意味だよ。
それだけじゃなくって、自分の場合買ったのが今週。
つまり、ちゃんとホームページぐらい調から買えば、一太郎との組み合わせを逃すことがなかった。
ということ。
つまり、自分も、 495と同じだよー、て事。 >>499
ATOK持ってるんだけど、そういう場合はドラスピ単独で買えばOKなんですよね?違うのかな・・・ そのご1つ分かったのは、必ずしも一太郎を買う必要はないってこと。
さっきわかったんだけど、 ATOK 2013 とドラゴンスピーチ11Jは連携できるみたい。
http://www.justsystems.com/jp/products/atok/feature13.html#atok
発売されないとわからないけど連携できることはラッキー。
でも未だによくわからない。
買ってしまったドラゴンスピーチ11Jのヘルプを見る限り、自分の持っているATOK 2012との連携の仕方は、わからない。
希望的観測では、仮に今ATOK 2012と連携することができなくても、ATOK 2013が出る頃にドラゴンスピーチ11Jがアップデートか何かされている。
そんな都合よく行かないかもしれないけど。 >>502
こういうの止めて欲しいもんだ。
ここに来ないでくれ。