自然言語処理スレッド その4
■ このスレッドは過去ログ倉庫に格納されています
前前スレ 自然言語処理スレッド その2
http://mimizun.com/log/2ch/tech/1173105287/
前スレ 自然言語処理スレッド その3
http://mimizun.com/log/2ch/tech/1235129481/
このスレッドでは、日本語の構文解析、談話理解、情報検索、
文章生成などの技術に関する理論と(おもに)実装を扱います。
あくまでアプリケーションプログラミングの技術的な面に重点をおきたいので、
学術的な話はアリですが、いわゆる人工無能や哲学的AI話、
言語学の話題などは他のスレッドでお願いします。 >>779
> 「そもそも日本語に文法などあるのか?」と思わざるを得ない
とか言ってる奴がまだ生存してるんだなぁ ……
「日本語は非・論理的だ」みたいなことを言ってるやつも
いたし、「日本語を廃止してフランス語を国語として採用しよう」
とか、「かな文字の使用をやめてローマ字表記にしよう」とか、
昔はいろいろあったらしい。漢字も、連合軍が「廃止したいけど、
いきなり廃止しちゃうと不便だろうから、とりあえず、
しばらくの間は使っていいよ」というので「当用漢字」と
いうのが生まれたわけだし。
ここは自然言語処理に関するスレで、いちおう日本語処理が
このところの話題になっている(せいぜい七月の上旬からだ)
のだから、素直に「このあたりに疑義がある。答えろ」くらいの
ことは言っていいと思うんだが、どうだろう。 そういえば、
助詞「が」の用法について、大野晋先生に
「とりたて詞の『が』と、所属の『が』」を
ごっちゃにして喧嘩売ってた奴がいたけと
思うんだけど、その後どうなったんだろうかな?
つーか、誰だっけ? 誰か知ってるヒトいる?
「鼻が長い」の「が」と、「我が家」の「が」は、
同表記だけど意味が違う、というのを納得できなくて
大野晋先生に延々絡んでたヒトがいたと思うんだが、
だれか名前を憶えていないか? >>802
おれは そんな安い真似はしない。
名詞の結合の「と」と文の順接の「と」を
ごっちゃにしたりはしない。
たしか『文藝春秋』みたいな厚い月刊誌で
やってたように思うんだが、ネット検索では
引っかからないんだよ。 『その日は朝から夜だった!』(嘉門達夫)
○その日は朝から夜まで仕事だった
✕その日は朝から夜だった 【新聞配達店で面接したこと】
店長『では明日、朝の三時からということで。』
俺『朝の三時ってまだ深夜では?』
店長『あなた帰っていいです!』 >>805
むしろ
> あなた帰っていいです
の解析のほうが意味的には難しそうに思う。
〇 さっさと帰れ
× あなたは帰ることを許可されています あとは「ありえない」「できない」も、
発話者の意図によって意味が違ってくるうえに、
しばしば責任問題みたいな社会的行動に
かかわってくるので、「どういう意図で言って
いるのか」を明確にしてほしいと思うが、
「そこを明確にしちゃうと不都合なことになる」と
いう話者の意図が反映されていたりするから
始末におえない。 いわゆる「うなぎ文」も、「誰に向かって
言っているのか」が、解釈に影響する。
客が二人連れの場合、
「僕は、うなぎだ」は
客⇒客:「僕(の注文)は、うなぎだ」
客⇒店員:上記の意味以外に、「僕は
うなぎ(を註文する客)だ」
という解釈がありうる。
この場合の「文脈」としては、
「どちらの客に、注文の決定権があるのか?」
「どちらが支払をするか?」がある。 上司「僕は玉子丼だ」部下「僕はうなぎで」
とか、寿司屋で
上司「僕は玉子で」部下「トロをお願いします」
とかいうのは、「正しい解釈」というのが難しい。
上司「おまえ、空気読めよ」
部下「いや、玉子がお好きなんだなぁ、と」
上司「普通はせいぜい同じ値段のものを頼むんだよ!」
部下「僕、玉子アレルギーなんです」
みたいなのをコンピュータは理解できるか、
という課題はあろうと思う。 >>804
「AとB」は「AとBと」と同義。
「AからB」が「AからBまで」を意味する
こともあるが、「右から左」は、また別の
解釈があり、「後ろから前から」は
「後ろから前」とは略さない。
形態素解析は、省略のパターンまで含めて
行なう必要がある。 >>811
「後ろから前から」が「後ろから前」と
略されないのは、「後ろからも前からも」の
省略だと考える(というか、形態素解析の
候補として上位ルーチンに上げる)と、
構文解析が行ないやすいと思う。 文生成に関していうと、
応答をどうするかという意味論にも
無視できない部分がある。
「××していいですか?」
に対しては、
「どうぞ。」
「いちいち訊かんでよろしい」
「やってみなはれ」
「やめといた方がいいとは思うが、あえて止めようとも
思わない」
「やめとけ。」
「ふざけるな! おまえは何を考えてるんだ!」
等々、いろいろな応答があると思うんだが、
それが どのような判断や意図に基づいているか
ということには、議論の余地がある。 >>800
そういう意味で言ってるんじゃないことくらいアンタにもわかってるだろうに。
「正しい日本語文法」というものを頑張って発見したとしても、それは演繹的ではありえないということ。
生きてる人間によってどんどん新しい日本語文法が作られていくのだから、それを観察して後追いでルールを追加・修正・削除していくしかないんだよ。
> スクリプトと辞書で吸収できるんだよ。ふん。
スクリプトと辞書を延々と手作業で修正し続けなければならないことは否定しないんだな。しかも、そのスクリプトやらは、ルールベースのエキスパートシステムみたいに、
ルールの追加に専門知識が必要で、以前のルールとバッティングし、いずれ破綻するわけだろう。
だから反論として聞きたいのは、統計的自然言語処理と比べて何が勝っているのか、ルールを追加修正し続けるコストは許容できるレベルなのか、
後段の高レベルな自然言語処理タスク(意味理解など)に応用した際にどう性能が変わってくるのか、ということだよ。 >>814
> そういう意味で言ってるんじゃないことくらい
> アンタにもわかってるだろうに。
もちろん分かっているとも(笑)
うちらがやっているのは「記述文法」であって、
「規範文法」に対してどうのこうの、とか文句を
つける気はまったくないんだが、現在の中学校の
国語教育で教えられている、いわゆる「学校文法」
っつーのに異義を申し立てているだけだ。
ただし、「規範文法」としては、文語文法はよくできている
(なにせ、千年以上、日本語のスタンダードとして
機能していたのだからね)と思うので、「文語&舊字體」
を貫くというのは、少なくとも方向性としては
間違っていないと思っている。 >>814
> 生きてる人間によってどんどん新しい日本語文法が作られていくのだから、
> それを観察して後追いでルールを追加・修正・削除していくしかないんだよ。
だって、それ言ったら方言とかはスクリプトとして吸収できないはずじゃん。
原則が変わってないから、些末な部分(語彙とかスクリプトとか)で
吸収できちゃうから言ってるわけで、だからこそ沖縄の各島方言や、
伊豆諸島の各島方言とかを、ちゃんと保存しとこうと思ってるのよね、
うちらは(そのあたりの系統関係とか、遷移関係とかには、興味を
持っています)。 > だから反論として聞きたいのは、統計的自然言語処理と比べて
> 何が勝っているのか、ルールを追加修正し続けるコストは
> 許容できるレベルなのか、
えー? やってみると簡単だよ?
むしろ、統計的自然言語処理のほうが、よっぽど
大変なんじゃない?
どこの大学の、どこの研究室か言ってくださったら、
こっちから行っちゃうけど。 > 後段の高レベルな自然言語処理タスク(意味理解など)に応用した際に
> どう性能が変わってくるのか、ということだよ。
そんなこと言ったって、「高レベルな自然言語処理タスク(意味理解など)」
が実装されてないじゃん。「どう性能が変わってくるのか」とか言われたって、
「誰が評価するんだ (wwwww」ってな話にならんか? ちょっとスレの趣旨とは外れてコメしとくけど、
うちのマリ坊(Maria)は、自然言語処理業界では
「Maria 様」と崇め奉られていたので(とは言いつつ
かなりゲスな奴だが)、「こんな初歩的な質問をしても
いいのだろうか?」とかいった気苦労は、するだけ
無駄だ。
疑問があったら全部ぶつけろ。それで納得するかどうかは、
その後の話だ。 > 「どう性能が変わってくるのか」とか言われたって、「誰が評価するんだ (wwwww」ってな話にならんか?
既存のベンチマークに適用してペーパー書いて言語処理学会なり人工知能学会なりの研究会で発表すればいい。 >>820
> 既存のベンチマーク
そもそも、形態素解析における「標準的な解析結果」と
いうものが現状のところ存在していなくて、
「標準的な構文解析システム」というものが存在していなくて、
「じゃあ、何をもって正解とするの?」っていう判断基準が
なくって、それで「ペーパー書いて言語処理学会なり人工知能学会なりの
研究会で発表」しろって言われてもねぇ。
高橋秀俊先生は、電気通信学会から独立して、情報処理学会を
立ち上げたんですが、当時「裏切者」と呼ばれたそうです。
その後、「学会に出てくる奴が、背広ネクタイばっかりになってる」
というので、日本ソフトウェア科学会を立ち上げて、やっぱり
「裏切者」と呼ばれたそうです。
で、その後、認知心理学会が立ち上がったんですが ……
「既存の学会とか、既存の理論とか、既存のベンチマークとかがダメだ」
っていう話をしているときに、そういう話を持ってきますか。
「おまえは、ひとこと余計だ」と、所長に叱られたので、
本日はこれまで。 >>821
違う違う。形態素解析の「標準的な解析結果」なんか誰も求めてないの。
形態素解析は目的じゃなくて手段なんだから、後段の応用的な自然言語処理のタスクの性能にどれくらい寄与するかを示せって言ってるの。
https://github.com/google/sentencepiece/blob/master/doc/experiments.md
例えば上のページでは、各種トークナイザ及び形態素解析器を使って応用的なタスクのベンチマークをやってその性能を示しているわけだけど、
そこにあなたのシステムを導入したときに、他のトークナイザより性能が高かったらみんな認めるでしょってこと。 英文を読み解く以前に知るべき現代社会の常識
https://bookmeter.com/books/1235800
文法的には、反対の賛成=賛成の反対。しかしながらそういう言い方は『常識的には』されない。 ところで人工知能にわれわれ人間世界の『常識』『風習』を教え込むことは可能ですか?
まず、『エマ』については、絵作りの場合、資料本のほか、ドラマの『シャーロック・ホームズの
冒険など時代考証のしっかりした映像資料を見て、イギリス人的な考え方、イギリス人にとって
のツボを理解していくそうです。絵作り以外では、
本や文字資料から知識を入れた後、画像資料のビジュアルに当てはめていくとのこと。
次に『乙嫁語り』。絵に関しては、当時の写真やドキュメンタリー番組などを参考にしているそうです。
あと、中央アジア関係の学会や中近東文化センター、民族学博物館(吹田市の「みんぱく」?)などの研究所
にある図書室で棚を調べまくり、いい本があればタイトルを控え、オンライン書店から注文。
https://ameblo.jp/karasu-otoko-shokai/entry-11210732430.html
自然言語というのは人々の日常生活に密接に関連しており、その背景知識が無いと解読しにくいはずだ。
例えば『かわいがる』というのも、保育園と相撲部屋では全く違う意味に使われるはずだ。 >>824
> ところで人工知能にわれわれ人間世界の『常識』『風習』を
> 教え込むことは可能ですか?
「まず音声入出力機能を備えたロボットを作るところから
始めないと無理なんじゃない?」というのが、いまのところの
予想です。で、そのためには、筋肉に相当するアクチュエータから
開発してかないとダメだと思っています。
> 例えば『かわいがる』というのも、
> 哺育園と相撲部屋では全く違う意味に使われるはずだ。
じつは「〜がる」というのは「表出」を意味するので、
「かわいい」というメッセージを行動で表現するという
点では「かわいがる」には一般的な意味があります。
これは、「形容詞には、暗黙の主語としての話者が
存在する」ということで、「彼は悲しい」とは
言わず、「彼は悲しんでいる」「悲しそうだ」になり、
「彼は寂しい」ではなく「彼は寂しがっている」
「寂しそうだ」になります。
その先のニュアンスの部分で、運用論的な話が
出てくるんじゃないかな。 >>822
> 形態素解析は目的じゃなくて手段なんだから、
> 後段の応用的な自然言語処理のタスクの性能に
> どれくらい寄与するかを示せって言ってるの。
> そこにあなたのシステムを導入したときに、
> 他のトークナイザより性能が高かったら
> みんな認めるでしょってこと。
他のトーカナイザは出力がシリアルでしょ?
こちらは「かな漢字変換における、候補選択前の、
構造を持ったデータ」が出力なんですよ。
ですから、「入れない」がイレナイなのか
ハイレナイなのかは、「使うほうが選んでね。
選択に重みづけをしたいんだったら、必要なデータは
乗っけてあげるから」という形なんです。
で、JAI-Perser はチャート法を使っているので、
候補探索自体の実行順序も決まっていなくて、
「探索戦略の部分も、そっちの都合に合わせますけど、
どうします?」っていう話があるわけです。
現在のプロダクション・ルールの適用順位はかなり
こなれているので、「最長一致で深さ優先探索で
最初に文末まで解析が成功したものを出力する」で
よければ、とりあえず土俵には上がれると思います。 >>823
「危ないですから」は、連体形「危ない」の直後に
用言「です」が来ているので、厳密にいうと、文法的には
正しくありません。
とはいえ、文法的に正しい「危ないのですから」
「危のうございますから」は、常識的には使いません。
そんなわけで、「危ないですから」⇒「危ないので」
「危険ですから」「危険ですので」と言い換えるのが
望ましいんですが …… それってコンピュータに
指摘されても嬉しくないと思うんだけどなぁ。
あたしらは日本語処理をやってるので
「そうか、なるほど」と思うだけですけど。 >>824
森薫さんは『乙嫁語り』しか読んだことないんですよ。
『エマ』は まんが喫茶で探してみます。 あ、そうそう。 >>826 のチャート法うんぬんの話ですけど、
>>814
> ルールの追加に専門知識が必要で、以前のルールと
> バッティングし、いずれ破綻するわけだろう。
に関していうと、候補として出てくるだけで、バッティングは
しません。探索順序に関しても、疑似マルチで動かしていれば
順序が変わるでしょうが、クラウドで実行したら、それすら
関係のない話になります。
「専門知識が必要」というのは、「記述文法の知識」以上の
ものは必要ありません。もっとも、記述文法をマジメにやっている
ヒトは、日本国内にも十人いるかどうか(笑)
そういう意味では、「実用化される前に、まず専門家を育成しよう」
という話にはなるわけですが。 >>830
あんたが中身のある投稿をしてくれたら、
連投にならずに済むんだがな。
投稿できるようなネタがないなら
黙っといたほうが不興を買わずにすむぞ。 埋めるのが目的だろうから
運営に通報でもしない限りは
このまま続くだろうね そもそも >>1 に
「言語学の話題などは他のスレッドでお願いします。」ってあるんだけどな。 >>834
そもそもチャート法というのは、
構文解析の手法として用いられていた
ものであって、それが形態素解析に
対しても威力を発する、という話なのよ。
で、「形態素解析レベルの文法は、
スクリプトとして外に出せる」っていう話を
しているわけ。
そのときに、「省略」の話が出てくるんで、
「そのあたりの問題は、スクリプトの記述によって
かなりの部分、回避できる」っていう話をして
いるんですけど、何か問題でも?
黙って引っ込んでると、叩かれるよぉ?
なんか言い返しなよね。 >>832
「豚の前に、真珠を投げてはなりません。
それを足で踏みにじり、向き直ってあなたがたを
引き裂くでしょうから。」 >>833
> 運営に通報でもしない限りは
通報すればいいんじゃない? ROM ってる真面目な自然言語処理の研究者に告ぐ。
ザコネタでいいから絡んどけ。
なんかしら研究の種にはなるぞ? >>835
806-809みたいにウダウダと解釈を垂れたりとりたて詞がどうのこうの書いてるのをスレチと言ってるの。 >>809
格の一意性が成立するという前提を置かないと、
データ構造も決まらないし、
構文解析のロジックも決定できないって言ってるの。
ちょっとは自然言語処理システムを触ってからいらっしゃい。 > 格の一意性が成立するという前提を置かないと
アンタ、現代の自然言語処理から完全に取り残されてるよ >>841
小松左京さんの『日本沈没』で、
「『造山活動東進説』とか言ってると、
冷飯を食わされるぞ」という話があったが、
「CG(汎文法)とか言ってると、冷飯を
食わされるぞ」とかいう話がマジである。
「現代の自然言語処理」って、どこにあるんだ?
「国が、どこに予算を出しているのか」っていう
話は、また別な話だぞ?
貴様、誰だ。所属と姓名を名宣(なの)れ。
「たれか」って誰何を三回したら、射殺しても
(「しゃさつしても」だ。「いころしても」ではない)
軍法上認められるんだぞ? 「そこで、自然言語処理システムを実際に扱って学んだ者は皆、
素直な心を持って吉原の高級ソープに、童貞を捨てにいった
賢い人に似ている。
本番行為を行わなくても、
知識と自信と満足とを持ち帰ったからである。
自然言語処理システムの理論を聞くだけで実際に操作した
ことのない者は皆、安い風俗に童貞を捨てにいった愚かな人に似ている。
本番前に勃起せず、手で擦っても立たず、本番行為に至らなかったからである。
イエスがこれらの言葉を語り終えられると、
群衆はその教えに非常に驚いた。マルクス主義フェミニストの
ようにではなく、風俗の現場の人間として
お教えになったからである。
日本語処理システムに、実際に触ってから
出直してらっしゃいね? >>843
そういう狂った言い回しをしているから、誰も相手にしたくない
昔はそれなりに研究をやっていたようだが、いまはただの老害 >>844
> 昔はそれなりに研究をやっていたようだが
研究なんかしてねぇんだよ。
開発と実装をしてるうちに、
後から従いてきた知識でしかねぇんだよ。
だから、「実際に やってみろ」って言ってんだよ。
で、開発の現場に戻ってくるぞ、って言ってんだよ。
おまいら自然言語処理をやってる奴は、これから
ケツ叩かれて全力疾走させられるぞ?って
警告してんだよ。
マジレスできねぇ奴は、この先相手にされねぇぞ? >>845
ああ、だから馬鹿な発言連発してるんだな
言っとくけど、このスレを覗いているのはプログラミングできる人がほとんどだと思うよ? >>846
まぁ、誰に言ってんのかわかんないけど、
システムも組めない(つーか、業務に堪えられる
コードも書けない)奴が「自然言語処理」とか
言ってる時点で「ちゃんちゃらおかしい」と
思うのよねー。
Java プログラムのコーディングで勝負したかったら、
プログラム技術板のそれなりのスレッド(「Java の宿題
ここで答えます」とかね)で、ガチで勝負して下さっても
結構ですのよ? 外野から失礼します。
共起についてどう思われますか?
無いと自然言語処理の応用ができない気がして質問してみました。
大雑把に、共起は自然言語処理にどう関わりそうか、それとも要らないか程度でも話題になればと思います。 >>848
「共起」という概念で括れるかどうかは分かりませんが、
日本語においては、「係り結び」というものが、古くから存在します。
「係る」「受ける」の対応において、範囲を示すという意味では、
括弧に相当する役割があり、構文解析においては
効率化に結びつくという点で、通信という意味では、
合理的なのではないでしょうか。
「こそ」が来たら「〜め」が来るのを待つとか、
「ぞ」が来たら「なむ」が来るのを待つとかいった、
制禦の上での合理性があると思います。 >>848
>共起は自然言語処理にどう関わりそうか
共起1(反対)縦と横、黒と白、光と闇
共起2(属性)青赤黄緑、1234、ABCD
共起3(時代)信長と安土城、零戦と原爆、キン肉マンとファミコン
共起4(公式)解と係数、質量と体積、サインとコサイン
他にどんな『共起関係』を思いつけるだろうか? >共起3(時代)信長と安土城、零戦と原爆、キン肉マンとファミコン
『時代』については曖昧なところもある(原爆投下された頃は零戦なんて時代遅れ)ので、
信号機のような『赤』(正)『青』(否)『黄色』(曖昧)を。 >>504
>冒険者の広場では提案広場・あしあと伝言板にて言論規制がしかれている。
・思いつく予防策
1.利用しない、なにも書かない
予防策と言っていいのかわかりませんが、私は冒険者の広場は極力利用しないようにしています
自分にそのつもりがなくても、相手の解釈次第で悪意のある文章だと思われてしまうことがありうるからです。
【訂正後】提案広場、落ち着いて!広場BANに要注意!
http://pan1946.blog.jp/archives/2426203.html >>851
そういう意味での共起関係は、必ずしも一次元ではなく、
もうちょっと複雑な関係になっているようです。
赤・青・白・黒は、それ自体が形容詞の語幹になります
(「赤い」「青い」「白い」「黒い」)。
また、「赤(明るい)⇔黒(蒙(くら))」
「白(明白。はっきりした)⇔青(=淡い)」
「赤(熟した。本来の性質が表に現れている)
⇔青(未熟な。本来の性質が表に現れていない)」
のような例があります。 >>852
「おまえ、アホちゃうか?」は笑って済ませられるけど、
「あなたは、ちえおくれではありませんか?」だと
血の雨が降りかねん (-_-!)
関西人に「アホ」はいいけど「バカ」は禁忌、みたいな
地方性もある。
そうなると、「あほらしい」はOKだが「馬鹿馬鹿しい」
だと「誰が馬鹿だ!」と喧嘩になりかねん。 >>850
分子構造)オルソ、メタ、パラ
原子数)モノ、ジ、トリ、テトラ、ペンタ、ヘキサ …
事務処理の基本はソートとマージとサーチ
ツーといえばカー、CAR といえば CDR ちょっと軌道修正しておくと、
・シソーラスを作る
・出現頻度の相関を求めておく
あたりが、自然言語処理における定跡、
くらいの話になると思う。 共起5 (ライバル)ソッピース・キャメルとフォッカー三葉、
スピットファイアとメッサーシュミット、砂漠の狐とラットパトロール、
ロンメルとパットン、竜と虎 >>857
あのさぁ、いちおう加減は考えといてくんない?
このスレにミリタリー・マニアはそんなに
いないと思うからさぁ(まぁ、航空宇宙工学科だと
デフォなんだけどさ)。
>>852 関連だけど、「犯罪者の個人名を
晒してはいけない」っていうサイトで、「今田勇子」とか
「草加二郎」とかいったネタでサイトのオーナーを
引っ掛けて笑ってた あんたの過去は、忘れてないからねっ! そういえば、悪口というのは辞書に載りにくく、
しかもなかなか廃れない、という問題があります。
辞書作成担当者は、そのあたりにご注意を。
「昼行燈」(役に立ってない)
「天保銭」(ちょっと足りない)
「瞬間湯沸かし機」(すぐ熱くなる)
「蛍光灯」(応答が遅い)
なとが例になります。
英語圏では、
“Mr.Moto”(小賢しい日本人)
というのがあります。 >>31
>数学モデルとシミュレーションにより、実践と理論の結合が図れるのです。
龍が如く極のマップ。東京・神室町の飲食店、販売店、プレイスポット、要所の場所や地名を地図にまとめてます。
https://dswiipspwikips3.jp/yakuza-kiwami/cheats-data/map-kamurochou.html
近くのコンビニでおにぎりを買った(コンビニの中に居る)
近くのコンビニでタクシーに乗った(コンビニの外に居る)
シミュレーターを動かしてみれば一目瞭然だ。 一次元(数直線)
二次元(平面座標)
三次元(空間座標)
四次元(ドラえもん)
『0』『1 』『2 』『3』は別扱いにしたいところ。指数関数や対数関数や確率統計などもそう。 >>456
そういうのは人間だって一度に全文翻訳出来るわけではなく、ジグソーパズルのように、
断片的にでもとりあえずわかるところから解読していくみたいなやり方を。 >>862
>ジグソーパズルのように、断片的にでもとりあえずわかるところから解読していく
(4)全体の構成と設計
四番目のステップは「全体の構成と設計」です。
犯罪捜査でいえば犯行動機と犯行プロセスの全貌を推理して答を見出すことです。
歴史捜査では「真実の復元」と名付けましたが、ジグソーパズルでいえば、いくつかのピースの組み合わ
された塊を全体枠の適切な位置に順次はめ込んでいき、全体図を完成させる作業です。
http://www.issj.net/mm/mm0508/mm0508-5-ln.html >>456
>各操作で、(「記号○と×のいずれかを」「表示させる操作」を「k回繰り返す」。)
この問題文の意味する『操作』とは、具体的に何をどうすることなのかを考察する人工知能が必要。
初見で理解できなくても、後の文からいろいろ類推しかつ検証していくこと。 >>790-793
>超えなきゃいけない壁があって前に進めない
でもIBMのワトソンなんかは一枚壁を越えたと思う
もちろん自然言語理解にはまだ何枚も壁があるけど
>「省略」と「理解」は不可分なので、扱いが難しい
>「制禦」「意図」という視点がある
従来の研究の枠組ではたしかに難しいんだけど
ただ細かい文法をつつき回すだけじゃなくて
ワトソンなんかはある程度の質問文の
意味や意図の理解をしているように思える
そして意味や文脈を理解しないと
ワトソンのような対話システムの実現は難しい >>795
>これくらいのシステムであれば、
>現在の技術で充分に可能だと思うんだが
どうかなあ……?
もちろんその例文だけなら可能だし
辞書的な知識だけで上手く行きそうな雰囲気を醸し出してるけど
「ゾウは鼻が長いのに、キリンは首が長いのはなぜか?」
という問いに答えるには進化論について
かなり理解していないと的外れな回答をすることになる
データベースにある範囲だけで回答するなら可能だけど
対話システムは人工無能的なボロが出やすいから
もっと意味理解を進めないと現在の段階ではそれすら難しいと思う
文法をつつき回すだけではダメで
文法に回収できない意味や意図を理解することが
試されているのが今の自然言語処理のステージなんだと思う >>813
そういう応答の多様性については
人工無能は確率的に遷移するだけだけど
そういう適当な処理ではダメで
応答の前提になる意味と意図が形成されている必要がある
たとえばみんなで鍋を食べていて
「激辛唐辛子をジャンジャン入れていいか?」
と言われたら人間なら辛くなるから「嫌だ」と言う
つまり「〜していいですか?」に対して
「どうぞ」か「やめて」かは
人間は自分の都合に応じて判断をしているのであり
人工知能ならその都合を再現するのが本筋だろう
文法だけでは適切に返せない
しかしそれはつまり相手が「〜した」ことで何が起こるのかを
予測する必要がありどれだけ常識を教えれば足りるのか不明で
例のフレーム問題が起こってしまう
鍋に唐辛子を入れたら辛くなるとか洗剤を入れたら食べられないとか
人間の常識は無限にあるので承知の通り過去のAIブームは頓挫した
でも今はもうたんにフレーム問題を避けるのではなく
機械学習とかで少しは切り崩せないか
挑戦する段階に差し掛かっていると思う >>814
>ルールベースのエキスパートシステムみたいに
>ルールの追加に専門知識が必要で
>以前のルールとバッティングし、いずれ破綻するわけだろう
横レスだが承知の通りこれがかつてのAIブームの挫折の原因だね
組み合わせ爆発が起こって人力で辞書なりDBなり作ると
開発費が高くなり過ぎて実現できないと
そして今は機械学習によってその壁を部分的にでも
乗り越えられるのではないかとAIブームが再燃し
自然言語分野では統計的自然言語処理に注目が集まってる
つまり私(たち)の疑問は
連投している人は何か憤慨しているようだけど
文法をつつき回すかつてのやり方が壁に当たってるわけで
今の主流から外れてきたそのやり方の正当性なりを示さないまま
ただ細かい文法知識を披露されても心に響かないということ いろいろ書いたけど一番言いたいことを要約すると
自然言語処理はAIの冬の教訓から
「文法をつつき回すだけでは無理」だという大前提があるわけで
今の時代に自然言語処理を研究または開発する者は
それとどう向き合うかが問われている >>869
文法は下手につつくと祟るからねぇ(笑)
ただ、文法(規範文法じゃなくて記述文法)は
自然言語処理の基礎になるものだから、
そこをしっかりと固めておかないと、
何をやっても砂上の楼閣になっちゃうのよね。
現在の日本語処理は、軟弱地盤の上に
手抜き工事の躯体が乗ってるようなものだから、
なんかの拍子に倒壊しそうな気がする。 中学生のころに教わった規範文法のせいで、
国文法が嫌いになっちゃうヒトは多いようですが、
あれは橋本文法が悪いんじゃなくて
「いわゆる学校文法」がお粗末だったせいなので、
文語文法から勉強して、国語学者からの学校文法批判とかを
じっくり検討してみると、現在の自然言語処理の
基礎が意外に脆弱なことが理解できると思います。
なお、組合せ論的な爆発というのは、実用レベルでは
ほとんど起きません。「入れない」がイレナイかハイレナイか、
「行った」がイッタかオコナッタか、「文書」がブンショか
モンジョか、とかいった程度です。
「書かされたがらなかった」とかでも、そんなにややこしい
ことにはなりませんよ? 「すもももももももものうち」
「うらにわにはにわにわにはにわにわとりがいる」とかも、
解析にかけてみると、意外に複雑にはなりませんし。 そんなわけで、
「AIブームが再燃し、自然言語分野では
統計的自然言語処理に注目が集まってる」
というより、「文法から逃げ回っている研究者が
AIブームに乗じて統計的自然言語処理に逃げ込んでいる」
だけなんじゃないかなぁ。 自然科学の基礎研究に『学力』『経済力』『肩書き』は不要。その動かぬ証拠はこうだ!
ガウク大統領は、次のように強調しているー
「1945年5月8日、我々は解放された。我々を解放したのは、ソ連の諸民族の代表者達だったが、そればかりではない。
それゆえ、我々は、感謝と尊敬の念を示さなくてはならない。戦後ドイツが、ベルリンの壁により長い間分断されたという
事実でさえも、そうした気持ちに影響を与えるべきではない。一部の観測筋は疑っているようだが、私には、
ロシアにもロシア人に対しても問題はない。」
http://jp.sputniknews.com/europe/20150502/284616.html
ドイツ人が泣いて感謝するロシアの自然科学能力は、こうして養われたものである!
我らがネステロフは、全てのギアボックスを簡単に直してしまったよ。ある時、
イギリス人の技術者がネステロフのところに来て、「あなたはどこの大学で技術を学んだのですか?」
と聞いたことがある。ネステロフのやつは「コルホーズ大学さ」なんて答えておったな。
http://www.geocities.co.jp/SilkRoad/5870/loza1.html
ソ連人民の素朴な知見>>>>>>>(越えられない壁)>>>>大学教授博士 全ての学問は『形式』であり、それは一定の社会秩序を維持するための『方便』なのである。
全共闘やらオウムやらで無秩序に暴れるくらいなら、とりあえず勉強でもしてろ就活でもしてろという程度。
>あなたはどこの大学で技術を学んだのですか?
他人の評価だけで生きてるみたいなお偉方は、所詮マニュアル通りのことしか出来ない。
自然科学の新分野を開拓するには、決して○○博士号などという肩書きに拘るべきではない。 >>136
>>871
イラストでも文章でも、まずバラバラに分割して(点と線と文字)、しかる後に組み合わせを検証するとか。 >>874
大学行っても役に立つことを教えてもらえるとは
限らないんだよね。
「私の経験でも、大学の国文学科での三年間に、
ついに文法の講義はなかった」
大野晋『日本語の文法を考える』
だから、学校で文法を教えている先生が、
文法を教えられているとは限りません。 >>867
>人間の常識は無限にあるので
『龍が如く』シリーズの神室町で、主人公に何が出来るかは無限なので、続編は未来永劫出されるだろう。 >>875
そうそう。実際に、それだけで大雑把な形態素解析はできちゃうのよ。
まず、改行で区切れるでしょ?
次に、句読点で切れる …… はずなんだけど、「モーニング娘。」
とか「藤岡弘、」とかいった例外があるから要注意。
で、次に括弧の中身と外側を分けて、括弧の中が文なのか名詞など
のような文法上の役割を持っているかどうかを判断します。ここは
文法的な処理があるから、人間に任せないと精度が悪くなるので、
「括弧の入った文章は、機械的にやると精度が落ちるんで、
辞書作成のときくらいにしか使えない」と思ってください。
次に、長尾真先生がおっしゃっていた方法があって、
「文頭から見ていって、非漢字から漢字に替わるところで切ると、
だいたい文節で切れる」という経験則があります(なお、カタカナ
語については自分で考えてみてね)。例外は「う歯」「えん罪」
「すい星」「ら致」や、接頭語の「お」「ご」。
ここまでで、文節レベルの形態素解析は済んだようなものです。
で、文節に分けたら、形容詞句・動詞句・接続句・修飾句その他に
分けて、活用や接続規則を個別に処理してゆきます。いちばん
簡単なのが形容詞で、しかも数百個しかありません。つぎに動詞で、
これは千五百個くらいあります。名詞句は名詞の数だけあるわけ
だから、地名・姓・名まで含めると、何十万という数になりましが、
地名の「紫波(しわ)」「日出(ひじ)」なんかを下手に登録すると、
かな漢字変換に使ったときに(はい。JAI-Parser は双方向です)、
ちょっとムカッとします。 >>877
「Zipf の法則」というものがありましてですね、
「そこそこ実用的」くらいのところで妥協すると、
以外に多くないんですよ。
とくに、ジャンルを限定すれば、現在のパーソナル
コンピュータでも、わりと簡単に処理できるくらいの
規模になっちゃうと思います。
そのあたりで業務なり生活環境なりに投入して、
そこから先の「常識」は、使いながら付け足して
ゆく、というアプローチでけっこうなんとかなるだろう、と
思ってます。 正規表現を言語化できるようなとこ知りませんか?
/^ab/
これを入れると、
↓
「abで始まる」
と変換されるようなサービスって無いでしょうか? >>880
そのくらいだったら Java で書けば早いんじゃない?
C 言語は文字列の扱いが大雑把(つーか、システム記述用
なので、可変長データを扱おうとすると、メモリリークとか
ワイルドポインタとか、ややこしいことになります)。
そうなると LISP なんだけど、LISP の処理系って、それほど
電算業界に普及してないのと GUI をサポートしていないのも
あって、LISP 勉強しても仕事で食ってけないのよ。
その点、Java はとりあえず飯の種になるし、バージョン 1.4
以降は正規表現もサポートしてるし、動的な記憶領域管理も
ちゃんと行なってて文字列の扱いも楽(ライブラリ関数も
けっこう充実してます)なので、とりあえず自分で
プログラム書いてみたら? >>880
正規表現を一からコーディングする、とかいった
根性があるんでしたら、
カーニハンとプロ―ジャー著/木村 泉 訳の
『ソフトウェア作法(Software Tools)』(共立出版)
あたりから入門するのが適切かと思います。
だけど、フツーのプログラミング言語で正規表現を
処理しようと思うと、けっこう面倒臭いんですよね。
ですから、うちらは途中に仮想言語と仮想マシンをかませた、
という事情があります。 >>880
仮想言語と仮想マシンの実装については、
『BCPL : 言語とそのコンパイラ 』(共立出版)が
参考になります。
前段階としては、『やさしいコンパイラの作り方』
(同じく共立出版。中西正和先生がお書きになっています)
あたりを読んでおけば、そんなに難しくありませんよ。
もっとも、義務教育でプログラミング教育を受けている、
いまどきの中学生・高校生・大学生のような
ディジタルネイティブ世代とは、話が噛み合わない危惧も
ございますけど。 そうそう。最近、「丼ぶり」という表記を見ると、
イラッとします。「丼」という字は、「井戸の中に
何かを放りこんだ音が、『どんぶり』と聞こえる」と
いうのが発祥だと云われているんですよね。
語源としては、韓国語の「湯鉢(スープ用の、深い皿。
タンブリ)」だと云われています。
ですから、「丼」の訓は「どんぶり」であって、「どん」では
ありません。日本語処理の観点では、「カツ丼」「天丼」
「親子丼」「玉子丼」「鉄火丼」「湘南丼」「深川丼」
「海鮮丼」などを登録したうえで、「丼」を「どん」と入力する
例を運用レベルで吸収するのが本来のありかただと思うんですが、
「丼ぶり」が一般化しちゃうと、処理がバッティングするんですよね。
日本語処理に興味のある方にお伺いします。こういうのって、
どう思います? >>873
ガウク大統領って、
・妻ゲアヒルド(ハンズィ)と子供が4人居るが妻とは現在も
正式には離婚していない
・一九九〇年から「ディー・ツァイト」紙のヘルガ・ヒルシュ記者と
同棲していた。
・一九九八年からは「ニュルンベルガーツァイトゥング」の
政治記者であったダニエラ・シャットと現在まで
十年以上にわたる交際を続けている。シャットは大統領夫人として
ガウクとベルリンで生活している。
というヒトですよね? >>871
> なお、組合せ論的な爆発というのは、実用レベルでは
> ほとんど起きません。
>>884
> 「丼」の訓は「どんぶり」であって、「どん」では
> ありません。
「丼ぶり」→(「丼」に「どんぶり」の訓を適用する)
→「丼ぶりぶり」→再帰的に変換規則を適用して、
「丼ぶりぶり」に変換→以下、「丼ぶりぶりぶりぶりぶり
ぶりぶり ……」
スタックオーバーフローを起こしてマシンがクラッシュ(笑)
やーいやーい。 >>880
視覚化してくれるサイトならいくつもあるけど言語化となると思い付かない >>887
とりあえず、「バッカス・ナウア記法」あたりから
ググッてみるとよろしいんじゃないですか?
「言語化」というと、いろいろ難しい問題があると
思います。細井勉先生の、『数とことばの迷い道』
あたりをとっかかりにするのが、ひょっとしたら
正解かもしれません。 >>886
てめぇ憶えてろよ
月夜の晩ばかりじゃねぇんだぞ
大川に蓋はできねぇぞ? >>890
「止(や)む」→「止(や)める」→
(命令形)「止(や)めろ」が正。
「帰る」→(命令形)「帰れ」は正。
ふーんだ。 >>892
「帰り」は連用形かもしれない、とも思います。
「帰りなさいませ」の省略形としての「帰り」は、
京都あたりでは一般化している可能性は
あるのではないかと。 >>894
はよ去(い)ね
「呉れる」の命令形は「呉れろ」のはずですが、
もっぱら「呉れ」が使われる(おそらくは、「呉れ給え」
の略だと思います)ように、「帰る」の命令形は
運用上避けられているのではないかと
思います。 >>870
>>872
>「文法から逃げ回っている研究者が
> AIブームに乗じて統計的自然言語処理に逃げ込んでいる」
それはポジショントーク過ぎて
ぜんぜん賛同できないなあ……
機械翻訳でグーグルとかの統計ベースの翻訳が
従来のルールベースの翻訳に精度がかなり迫ってるし
単なる流行だけじゃなくてそういう実績があるから
統計ベースが主流になってきてるわけで現実を見ていない >>871
>組合せ論的な爆発というのは
>実用レベルではほとんど起きません
いやいや
形態素解析レベルの話ではなくてその先の話
フレーム問題が起きるのも
組み合わせ爆発があるからでしょう >>880
>正規表現を言語化
そういうソフトを見かけたことがないので
自分もしくは外注でソフトを制作する必要がありそうです
「abで始まる」とかだけなら
単純な置換でできる部分もあるけど
「abで始まり、cdで終わる」のように
場合分けである程度複雑な処理をするなら
インタプリタとかコンパイラの仕組みが必要になります
まあ本格的な自然言語処理に比べたら
初歩的なインタプリタなんかオモチャみたいなものですが
それでももしプログラマでない場合
もしくは初心者プログラマの場合かなり難しいでしょう
もしビジネスでどうしても必要なら
外部への発注も検討した方がいいかも >>898
補足
>「abで始まる」
>「abで始まり、cdで終わる」
この部分は何が言いたいかというと
この「始まる」「始まり」の活用をするだけでも
単純な文字列の一括置換ではすぐ壁につきあたってしまうので
そういう「場合分けである程度複雑な処理をするなら」
プログラムを組む必要があるというわけです
言語はある程度メジャーなら何でもいいです
Java、C#、Python、Ruby……など ■ このスレッドは過去ログ倉庫に格納されています