自然言語処理スレッド その4

■ このスレッドは過去ログ倉庫に格納されています
1デフォルトの名無しさん
垢版 |
2014/06/03(火) 05:40:00.54ID:yefNLumx
前前スレ 自然言語処理スレッド その2
http://mimizun.com/log/2ch/tech/1173105287/
前スレ 自然言語処理スレッド その3
http://mimizun.com/log/2ch/tech/1235129481/

このスレッドでは、日本語の構文解析、談話理解、情報検索、
文章生成などの技術に関する理論と(おもに)実装を扱います。
あくまでアプリケーションプログラミングの技術的な面に重点をおきたいので、
学術的な話はアリですが、いわゆる人工無能や哲学的AI話、
言語学の話題などは他のスレッドでお願いします。
562Mb
垢版 |
2018/07/17(火) 20:31:47.87ID:iAzNVHws
でまぁ、本筋に戻るんだが、
現代日本語の動詞と形容詞の終止形(連体形と形は同じ)は、
じつは連体形の終止用法で、その後に体言とコピュラが
省略されていると考えると、処理も楽だし解析木も
ややこしくならない。試してみりゃあすぐ解る。
だけど、これを大声で言うと冷や飯を食わされるやら
煮え湯を飲まされるやら、いろんな目にあう。
563Mb
垢版 |
2018/07/17(火) 20:47:58.86ID:iAzNVHws
>>561
まぁ、「データが木構造なんで、図で説明するのに
便利」っちゅー以上の意味はないわな。
「修飾関係が交差しない」から、木の形で
描ける、つーだけの話だし。
フローチャートと同じで、滅んだほうがいい
文化かもしれん。
564デフォルトの名無しさん
垢版 |
2018/07/18(水) 17:42:01.84ID:r2tNZQmN
>>561
それな

どうせ文法なんて人間の都合で勝手に名付けた物だったりルールがあると錯覚してるだけだし
2018/07/18(水) 18:58:52.59ID:nFdzt/yd
>>564
ところが、「ハナモゲラ語」とか「言葉のサラダ」とか、
そういうのが、コンピュータで生成しようとしても
面白くならないんだよなぁ。
「ある」のは分ってるんだが、それが「何なのか」っつーのが
わからないのが文法の面白いところなのよ。
566デフォルトの名無しさん
垢版 |
2018/07/19(木) 11:52:00.94ID:ZMW1ym8c
ランダムでやってもつまらんだろ
567デフォルトの名無しさん
垢版 |
2018/07/19(木) 13:27:00.87ID:DUpb208V
>>566
だな。つまらん。
n-gram 法の単純なやつで、2-gram 法でウケてた時代も
あったんだが(筒井康隆『狂気の沙汰も金次第』参照)、
いまどきはそれで笑いは取れん。
昨今はスパムフィルタを潜り抜けるための
ネタでしかない。
自然言語処理の研究者は何をやってるんだ、という
怒りが消えない。
2018/07/19(木) 13:31:36.20ID:DUpb208V
つーか、東工大とかお茶の水女子大とかは、
「自然言語処理」っつって何をやってるんだ、
という怒りがある。
正直、いっぺん行ってシメてきたほうが
いいような気がする。
569デフォルトの名無しさん
垢版 |
2018/07/19(木) 13:51:07.59ID:yj8RkDmG
日本以外の国ではどうなん?自然言語処理。
570デフォルトの名無しさん
垢版 |
2018/07/19(木) 15:32:56.09ID:DUpb208V
>>569
日本語みたいに膠着語の国が少ないので、
もうちょい楽。
ただ、わりと手に負えないのが韓国語と
インド諸語かな?
インドは英語が普及してるんで、あんまり
自国語(つーても方言が多いので、何が
なんやら分らんのだが)の自然言語処理には
熱心じゃないらしい。
韓国は、とにかくハングルの字母の数が多いうえに、
正書法が確立しとらんのだよ。
「子音+母音+子音」でカナ一個の文字なんで、
単純に子音が十個で母音が五個としても、カナが
五百個ある勘定になる。
571デフォルトの名無しさん
垢版 |
2018/07/19(木) 15:51:30.42ID:DUpb208V
ハングルは使い慣れると便利っつーのは
分るんだけど、できればローマ字表記を
確立してほしい。
「ピビン麺」と「ビビンバ」を並べて
見るとイラッとくる。
2018/07/19(木) 16:31:30.15ID:OaLdX1mQ
連投してる奴が何に対して怒ってるのか分からん
現状を打破する何かを自分で開発すればいいだけだろ
573デフォルトの名無しさん
垢版 |
2018/07/19(木) 17:56:05.63ID:DUpb208V
>>572
開発したからイラついてんだよ。
だったらおまいは何を開発したか
言ってみろ。
2018/07/19(木) 18:24:18.12ID:OaLdX1mQ
>>573
開発中だが別にイラついて文句言ってないから
言わないといけない義理はない
2018/07/19(木) 19:54:40.83ID:DUpb208V
>>574
「ビビンバ」は、「混ぜご飯」の意味で、発音は“pi-bim-pap”。
「ビビン麺」は、「混ぜ麺」の意味で、表記は “bi-bim-guk-su”。
だけど、「ピビンパ」とか「ビビン飯」とか変換するとダメだと言われ、
「ビビングスク」とか変換するとダメだと言われる。
「じゃあ、どうすればいいのか?」という話になると、
「それは説明できないが、とにかくそうなんだ」と言われる。

まぁ、そんな連中はいっぱいいるので、べつに「韓国人は」
みたいなことで怒っているわけではないし、
ユーザの要求を聞き取って、具体的な仕様に落とすのが
システムエンジニアの仕事ではあるんだが、
自然言語処理の世界だと、「いやだー! いやだー!
そうじゃないんだー! うわぁぁぁぁぁぁぁ!」みたいな話で
ぶっ壊れる案件が多いというのは知っておくといい。
少なくとも金が自分の懐に入るまでは、油断しないほうがいい。
もっとも、その後で知的所有権がなんだかんだ、で懐から
金が出てゆくこともあるから油断はできないが。
576デフォルトの名無しさん
垢版 |
2018/07/19(木) 20:01:12.43ID:DUpb208V
>>564
> どうせ文法なんて人間の都合で勝手に名付けた物だったり
> ルールがあると錯覚してるだけだし
「だから説明できないけどおれが正しい」って言われても、
説得できないのが自然言語処理。
で、説得しようとすると、「あんたは日本語処理とかなんとか
言ってるけど、あんたは日本語がわかってない」と言われる。
それが日本語処理業界の現実。
577デフォルトの名無しさん
垢版 |
2018/07/19(木) 20:29:21.21ID:DUpb208V
これは言いたかなかったけど、
「支配者の言語」というのがあって、「被支配者の言語」の
言語表現を規制するのが「規範文法」。で、被支配者の
言語表現に対して、「それは文法に適っていない」と言えるのは、
支配者の権利だとする思想がある。
それがあるんで、左派の言語学者は「文法なんてない」と主張するし、
おれは「すべての言語表現において普遍的な原則」としての
「高精度の記述文法」というのを考えたワケ。
だから、おれが「あんたの表現は文法的に間違ってるぞ?」と
言うときは、「そういう言い方だと、他の奴には通じないぞ?」と
いう意味で使ってる。で、精神科医は、そういう発話を「言葉のサラダ」
と謂うんだ。
2018/07/19(木) 21:01:52.09ID:zpCf8yuT
>言葉のサラダ

お医者さんにそういわれたのか
言われたんだろうな…
2018/07/20(金) 03:36:24.54ID:1ksMRsUr
>>568
それでも研究費が出るからぬくぬくしてるんじゃないの?
2018/07/20(金) 06:28:12.00ID:GozXxEHN
>>579
たぶん、ぬくぬくはしてないと思う。全体のパイが
小さいから、研究費(あるいは科研費)の奪い合いが
熾烈なんだと思う。だから、足の引っ張り合いになるんだろう。
日本語が論理式(モンタギュー文法)にうまく落ちないとか
形態素解析の精度が上がらないとかいうことになると、
「日本語は非・論理的だ」「日本語の文法は不完全だ」みたいな
ことを言いだして、「大規模データを統計的に処理すれば …」
とかいって予算を取ろうとする。
だから、哲学(論理学が絡むとこっちに該当する)とか
記述文法なんかやってる奴が下手に成果なんか上げちゃったら、
そいつらが困る。
581デフォルトの名無しさん
垢版 |
2018/07/20(金) 10:16:08.42ID:B9AYu9ui
>>571
韓国人はピもビも同じ文字を使って区別しないで発音してるけど、日本人が聞くとピビンバに聞こえるんだな。どっちの表記が正しいってこともないけど表記揺れはちょっともやもやするな。

日本語でも「パパ」って発音したとき1個目のパは有気音、2個目のパは無気音で発音するので、韓国人にしてみれば同じカナなのに別の発音してるって感じるはず。
582デフォルトの名無しさん
垢版 |
2018/07/20(金) 13:02:25.01ID:CcJkjASV
別に困んないけど

本当にpracticalならともかく
583デフォルトの名無しさん
垢版 |
2018/07/20(金) 13:26:52.30ID:c77xM4ns
朝鮮人パカするな
2018/07/20(金) 14:58:22.06ID:GozXxEHN
>>581
まぁ、「マンガ」「メガネ」の「ガ」は鼻濁音だし、
「軍歌」の「カ」と「軍靴」の「カ」は違うんだけど
(後者は「クワ(ワは小さく)」)、普通の日本人は
気にせんのだけどな。

>>583
おれは朝鮮人と呼ばれてバカにされても一向に気にしない
(大陸顔なのは理解している。鹿賀 丈史とか米倉 斉加年が
代表的な大陸顔だ)。
必ずしもすべての朝鮮人が馬鹿ではないし
(例を思い浮かべられないのがなさけないが、
呉 善花は入れておいていいかもしれないと思う)、
すべての馬鹿が朝鮮人だという話でもない
(馬鹿な日本人は少なからずいる)。

力道山や大山倍達や大木金太郎については
コメントは控えておきたい。
2018/07/20(金) 15:05:41.59ID:GozXxEHN
千田是也さんが、関東大震災のときに、「朝鮮人が叛乱を
企てている」というので自警団が検問をしているときに
引っかかって、「『水道局』と言ってみろ」と言われ、
滑舌が悪くて「しゅっ … しゅいどうこく!」と言ったら
「鮮(せん)だ、これは。」と言われたので、「千田是也」という
ペンネームを使っていたというのは有名な話。
2018/07/20(金) 15:11:04.74ID:GozXxEHN
「おれは東京生まれの東京育ちで、日本橋の出身だから
訛りなんかない」と豪語していた奴が同僚にいたので、
「だったら『潮干狩り』って言ってみろ」と言ったら、
しばらく絶句してから、「しっ …… しおしがり!」って
言ってから勝手に落ち込んでた。
ちなみに江戸弁だと「ひよしがり」が正。

「鮭」は「しゃけ」、「朝日新聞」は「あさししんぶん」。
かな漢字変換用の辞書には登録しておくのが吉。
2018/07/20(金) 15:19:37.45ID:GozXxEHN
あと、「蠅帳」は、正訓は「はえちょう」。江戸弁では「はいちょう」。
「蚊帳」は、日本中「かや」。
「棟梁」の正訓は「とうりょう」。江戸弁では「とうりゅう」。
「道了尊」は、「どうりょうそん」と「どうりゅうさん」。
形態素解析っていうのは、ここまでやって一丁前。
2018/07/20(金) 15:29:07.28ID:GozXxEHN
>>582
「義足とか義手とかなくても、別に困んないけど。
おれ健常者だし」
「べつにハングル表記とかなくても、別に困んないけど。
おれに帆人だし」

「本当にpracticalならともかく」。
あーやだやだ、想像力とか共感性のない奴は。

「自然言語処理とかなくても、別に困んないけど。
普通に言葉分かってるし」ってぇ話だろ?
589デフォルトの名無しさん
垢版 |
2018/07/20(金) 17:35:58.98ID:GozXxEHN
>>588
×に帆人
〇日本人
2018/07/20(金) 17:40:15.50ID:GozXxEHN
あと、昔の越後の人は「し」と「す」の区別がつかなくて、
「伸びた“シ”と結んだ“シ”」というんで区別してた。
「お寿司」と「お獅子」とかな。
2018/07/20(金) 18:01:44.97ID:GozXxEHN
日本橋の『たいめいけん』の茂出木 心護さんが、
越後の出身者は「えちご」と「いちご」が発音上
区別できなくて、「ストロベリー」と云われて
馬鹿にされたという話を書いている。
592デフォルトの名無しさん
垢版 |
2018/07/20(金) 18:34:54.69ID:GozXxEHN
正しい日本語処理。

「やってみてくれ」
 ⇒金融機関が借入金を引き上げようとしているので、
なんか儲かりそうな話をでっち上げてくれ。
「やってくれ」
 ⇒「できません」とか言ったらぶっ殺すぞ。とにかく
儲けを出せ。
「上からの GO が出た」
 ⇒逃げ支度が済むまで引っ張れ。
「君には失望させられたよ」
 ⇒ぜんぶお前の責任だ。お前が尻拭いをしろ。おれらは
知らない。

そんなもんですよ。
2018/07/20(金) 18:57:49.52ID:TZxtxi0x
連投してる奴いろいろ書いてるけど
他人に対して何か伝える文章じゃないな
結局何が言いたいのかぼんやりしたまま
2018/07/20(金) 19:55:29.19ID:GozXxEHN
人工無脳が なんか言ってますよ。

ところで、「なさい」「ください」「いらっしゃい」とかは、
文法的にいうと、動詞の活用としては何形になるのかねぇ?
2018/07/20(金) 20:02:56.67ID:GozXxEHN
>>593
> 連投してる奴いろいろ書いてるけど
> 他人に対して何か伝える文章じゃないな
> 結局何が言いたいのかぼんやりしたまま

「 連投して(い)る奴(が)いろいろ(と)書いて(い)る[けど
(=「けれども」)]、他人に対して何か(を)伝え(「ようとしてい」?/
「られ」?)る文章[じゃ(=「では」の口語的に崩れた形)]ないな
結局、何が言いたいのか(が)ぼんやりしたまま(の)(何か)(だ)」 。

こんな屑な人口無脳を作った馬鹿は、どこの大学のどこの研究室の所属だ。
2018/07/20(金) 20:05:19.46ID:GozXxEHN
>>595
×人口無脳
〇人工無脳
こんな屑な IME を作ったのはマイクロソフトだ。
2018/07/20(金) 20:41:02.84ID:TZxtxi0x
>>595
馬鹿はお前だよ
自然な省略だろ

>>594
>かねぇ?
ってのは口語的に崩れた形だろうが
分かったらお前も人工無能な
2018/07/20(金) 20:53:07.41ID:GozXxEHN
>>597
> 自然な省略だろ
自然言語処理をやっているなら、何が自然なのかを説明してくれ。

>>かねぇ?
>ってのは口語的に崩れた形だろうが
そんな甘いツッコミを入れられてもサムいだけだ。
まぁ、ここのところ猛暑が続いているからご愛敬だけどな。
「動詞の活用としては何形になるのかねぇ?」
だったら、
「動詞の活用としては、何形になる(の)(でしょう)かねぇ?」
とツッコんでほしかった。「なる」は連体形だから、その後に何かが
省略していないと文が完結しないので、そのあとに「体言+コピュラ」が
省略されている、と推測するのが正解、くらいのツッコミが入ったら、
おれも素直に頭を下げられるんだが。

ついでながら、「ってのは」は「というのは」の、口語的に崩れた形だ。
2018/07/20(金) 20:58:35.72ID:GozXxEHN
>>597
> お前も人工無能な
文脈としては、
×人工無能
〇人工無脳
だと思うが。“も”っていうことは、お前は無能なんだな?
おれが人工無脳だったら、製作者はとっくにチューリング賞を
獲っとるわ。
600デフォルトの名無しさん
垢版 |
2018/07/20(金) 21:25:48.02ID:GozXxEHN
くそう。叱られちゃったい。
> ないな
「ない(体言:省略)(コピュラ:省略)な」
> ぼんやりした
「ぼんやり(と:省略)した」
が正解。
2018/07/20(金) 22:01:12.70ID:1ksMRsUr
しよはしよじゃないの?
2018/07/21(土) 06:57:48.94ID:HTyh/4m5
>>598
>そんな甘いツッコミ
お前が自分に甘いだけだろ
だから馬鹿なんだよ
2018/07/21(土) 07:37:00.82ID:c9/IgS/z
>>602
事実と意見は区別しないと、論文は通らないぞ?
604デフォルトの名無しさん
垢版 |
2018/07/22(日) 06:53:00.75ID:HlH3bx5P
>>そんな甘いツッコミ
> お前が自分に甘いだけだろ
> だから馬鹿なんだよ
せっかくだから自然言語処理に関係のある話をしておこう。
形容詞は暗黙の主語として話者を要求する。「>>602 は恥ずかしい奴だ」は
>>602 は自分を恥じている」を含意しない。「>>602 は(話者である)私を
して“恥ずかしい”と感じせしめる人物である」という意味を内包している。
また、「とりたて詞『が』は強調転置を起こす」ので、
「お前が自分に甘い」は「自分に甘いお前」を含意するが、たいていの奴は
自分に甘い。
「だから馬鹿なんだよ」は、「だから」と「馬鹿」のどちらに強意があるかが
字面からは読み取れない。前者だとすると、「馬鹿」という概念が
すでに所与のものとしてあり、前提から導出が可能だ、と主張している
ことになるが、後者では、「馬鹿」というのは文中にトピックとして
出てきたことになる。
2018/07/22(日) 07:05:30.26ID:HlH3bx5P
日本人動物学者「こいつは馬鹿だ!」
満州アカシカ「いかにも私は馬鹿です」
606デフォルトの名無しさん
垢版 |
2018/07/22(日) 09:01:24.76ID:HlH3bx5P
日本語には体言の省略が多い(ただし異論はある)。
ただ、「その、省略された対象が何か」を推定するのに、
シソーラスと「その名詞にはどういう性質(内包的な意味)が
付与されているか」というデータが必要になってくる。
仮に百科語を二万語として、それだけのシソーラスを
作るのは並大抵の労力ではない。
そうすると、なにか限定されたジャンル(医学とか、化学とか)を
扱うしかなくなってくるが、それだと一般性が乏しくなる。
中学・高校あたりの理科系分野とかに狙いをつけるのが
いいんだろうか。
素人向けの医学・薬学・栄養学的な知識、というのも
考えたんだけど、厳密な体系にならないんだよね。
2018/07/22(日) 12:40:16.29ID:HlH3bx5P
>>606
もうひとつ、述語の中心である動詞の場合、要求する
「文法的な格」がどのようなものであるか、が明らかであって、
しかも「かかる」相手がどういうカテゴリーにあるか、というのが
分らないと、体言に附属した助詞が省略された場合に、「述語から
要求される文法格」が何であるかを推定できないんですよね。
「彼、スパゲティ、食べた」が、「彼はスパゲティを食べた」なのか
「スパゲティが彼を食べた」なのかは決定不能なのね。
「コタツが葬儀屋を食べた」は無意味文になりそうだけど、
映画『バトルヒーター』(一九八九)という文脈があったら、
「意味がある」と判断されると思うんだけど。
2018/07/23(月) 08:38:44.41ID:8XnpjG9G
一時期「ら抜き」が問題になってたけど、
「可能」と「尊敬」を区別できるという
メリットがあるので、一概に否定はできないと
思っている。だったら「れる」を「ことが可能である」と
入力時に機械的に置き換える(あるいは変換候補として出す)
くらいの芸はできんのか、とは思う。
一行めの「なってた」も「なっていた」が候補に出ていいし、
「あっさりした」も「あっさりとした」が正のはず。
入力時にチェックするのは難しいにしても、
テキストデータをチェックするくらいは簡単なように
思われるんだけどね。
609デフォルトの名無しさん
垢版 |
2018/07/23(月) 12:57:40.81ID:8XnpjG9G
>>601
> しよはしよじゃないの?
そこんとこ kwsk
2018/07/27(金) 14:22:16.44ID:q3ebuKRa
本番過ぎちゃったので時期遅れですが

You might or more heard a two fishes.
611デフォルトの名無しさん
垢版 |
2018/07/27(金) 14:25:38.80ID:q3ebuKRa
>>610
ダメだ。暑気中りが治ってない。

×You might or more heard a two fishes.
〇You might or more heard today's a two fishes.

冬バージョン
You might or more heard today's some fishes.
2018/07/27(金) 20:23:15.22ID:dNDh2QHO
>>611
私は
You might think but today's hot fish
と習いました
2018/07/28(土) 23:43:24.97ID:HVxOC8gw
>>612
粋な先生だな。
じゃあ、「“ghoti”と書いて何と発音するか?」とか
習ったクチだな?
おれはすれっからしの自然言語処理屋なんで、
“Time flies like an arrow.”を
「時蠅は矢を好む。」とか「矢のように時を測れ。」とか
訳してしまうクチだ。
614デフォルトの名無しさん
垢版 |
2018/07/29(日) 00:46:36.29ID:TGkp0btZ
>>613
象は鼻が長い、で二、三時間話ができそうだな。
2018/07/29(日) 11:52:38.73ID:ecsh/nBS
>>614
どっかの国語学者は何十年とかそういう話をやってるので、
二三時間で片がつくならいつでもやるんだが(^_^;)。
ついでながら、>>613
「enough」の "gh"、「women」の "o"、「nation」の "ti" で
「フィッシュ(fish)」だそうだ。

電算業界では「jail(牢獄)」というテクニックがあるのだが、
「本当は『geol』」とか思ってしまうおれはへそまがりだ。
2018/07/29(日) 12:05:56.01ID:ecsh/nBS
「象は鼻が長い」は、「象は鼻が長いのです」を含意し、
準体助詞の「の」の役割を考えると、「象は鼻が長いのです」
は「象は鼻が長い(X)(です)」を含意すると看做せると
解釈可能である。
しかしながら、「長い」は「鼻」を修飾しているので、X は
「哺乳類」「生物」とかいったものであると解釈するのが
妥当であろう。したがって、とりたて詞「が」によって「鼻」が
強調されて転置が怒り、「長い」の連体修飾という役割が、
結果として文構成のなかで引き継がれた、と解釈すると、
構文解析によって自然な解釈であろうと私は主張するのだ。

できればツッコミをよろしく。
617デフォルトの名無しさん
垢版 |
2018/07/29(日) 12:34:29.98ID:2jsBPgao
ここは「は」の機能に焦点をあてて説明した方がいいんじゃないのかな。
2018/07/29(日) 14:10:34.39ID:ecsh/nBS
>>617
「は」「が」は「とりたて詞」であって、「主格の格助詞」では
ない、とかいう主張はなかなか通らないんだよね。
そうすると「主格の格助詞が存在しない」ということに
なってしまうから(個人的には、ないと思っている)。
で、「は」「が」がつくと、格助詞が消えるという現象が
あると思っている。「をは」「をが」「にが」って使わないだろう?
「には」はあるし、「へは」「へが」「からは」「からが」「までは」
「までが」等々はあるわけだから、「『は』『が』はとりたて詞であって、
格助詞ではない」というのは強調しておきたいところだ。
2018/07/29(日) 16:07:45.71ID:86TZxKJ6
言語学者とか要らなくなるね
620デフォルトの名無しさん
垢版 |
2018/07/29(日) 16:35:02.64ID:TGkp0btZ
文法の存在ってのは幻みたいなもんだと思うけど、言語にはよく分からんけど法則があることだけは確かなんだよなあ。
621デフォルトの名無しさん
垢版 |
2018/07/29(日) 16:59:44.89ID:jmfLAdWz
>よく分からんけど法則

結局なんでもそうだし
機械学習やDLに向いてる分野ってことかな

でも法則自体は判らんでも何故かうまくこなすっていうAIっぽいのが生まれるっていう展開
2018/07/29(日) 19:07:58.68ID:XATyMGvf
とりたて詞って副助詞のこと?
2018/07/29(日) 20:06:05.33ID:ecsh/nBS
>>622
おれらは自然言語屋なんで、むしろ「副助詞」の
定義がわからん。「ね」「さ」「よ」「な」「ぞ」
は、「強調助詞」と呼んでいる。「とりたて詞」は、
トピックであることを示すと同時に、語順の
転換が起きる。それを「強調転置」と呼んでいるので、
「用語の統一ができていない!」と叱られそうに思うが。
「だからね、そのあたりはさ、適当によ、塩梅してな、
欲しいぞ?」みたいなのは強調助詞、という話。
2018/07/30(月) 03:32:11.29ID:Rd2xs5Db
よくわからん。
このスレはプログラム板のスレなんだからコンピュータで自然言語処理するのに有用な話をしてほしい
ぶっちゃけ、MeCabにもKNPにも出てこない品詞の話をされても意味がない。
2018/07/30(月) 07:03:35.67ID:9nIH/p+f
end-to-endの時代なのにね

わざわざnmtに構文解析の結果をぶち込んでくるバカがいて
誰がやってんのかなと思ったら東大だった
2018/07/30(月) 08:31:39.90ID:ArBfASRB
>>624
>>560
若いのに痛ましいのう。
2018/07/30(月) 08:45:24.47ID:ArBfASRB
ぶっちゃけ形態素解析システムなんて自前で開発しても
たいした手間じゃないぞ? 方針が分かってりゃ
1人月くらいで書ける。
1)まず、形容詞を活用語尾で引っ掛けるルーチンを書く。
2)それを使って形容詞の辞書を作る。
3)それでコツを掴んだら、動詞で同じことをする。
4)受け身だとか尊敬だとか使役だとかの処理と、
各種の形態素の処理を書く。これは数が少ないので
大した手間じゃない。
5)残った奴は名詞句なので、助詞やらなんやらの処理を
考えつつ名詞の辞書を作る。
ただ、これをやると、「もうちょっと抽象化できんかな?」とか
考えてしまい、全部捨てて新しいシステムを書きたくなる。
ただ、ここまで来ると日本語の文法体系が頭に入っていて
必要な辞書はあらかた揃ってるから、勝負は早い。
2018/07/30(月) 09:02:59.59ID:ArBfASRB
形態素解析システムを自前で開発すると、いくつか副作用があって、
「モーニング娘。」とか「藤岡弘、」とか見ると
反射的にイラッとくるようになる。
2018/07/30(月) 09:05:49.92ID:ArBfASRB
あと、メモが手放せなくなる。
「さっぱりした」の「さっぱり」と、
「さっぱりわからん」の「さっぱり」は、
別の単語として辞書に登録したほうがいい、とか
その場でメモるからだ。
「さっぱりとした」は言うが、
「さっぱりとわからん」は普通言わない
(いう地方もあるかもしれんが)。
2018/07/30(月) 09:10:43.80ID:z4Mxuxkf
作ったことないでしょ
2018/07/30(月) 09:15:05.66ID:ArBfASRB
いい面での副作用としては、
「文語」「(正体の)口語」「俗語的な口語」の
区別に敏感になる。
「むくつけし」「猛(たけ)し」「かそけし」のような
e 音で終わる形容詞は、文語にはあるが現代語にはない
(「むくつけい」「たけい」「かそけい」はない)。
「し」ではなく i 音で終わる形容詞は、俗語では使うが
正体では使わない。「みみっちい」「ばばっちい」などが
あり、「ずるっちい」を使う人はいる。
文語動詞では「子音終わりは四段」「母音終わりは一段」が
基本。ただし、母音は i, e しかない。
ところが、現代語では五段活用ワ行があり、a/o/u という
母音で終わっているのに五段活用、というややこしい話に
なっている。これは動詞末尾の h 音が消失しまったせいだが、
h 音の前が i/e である動詞は行き場がなくなって、けっこうな
騒動になっていることが形態素解析で判る。
2018/07/30(月) 09:22:41.82ID:ArBfASRB
あるよ。新旧とりまぜて三つほどある。
1)C 言語ベタ書きバージョン、
2)C 言語文法分離バージョン、
3)Java で書き直してメモリリークや
ワイルドポインタを防止したバージョン。ただし、
Java の使い方が当時は よくわからなかったので、
多段解析を実装できなかったのが悔やまれる。
(2)のバージョンは、ローマ字英単語交じりの
文字列を漢字かな交じり文に変換する、というのも
可能だった。
あと、(2)と(3)は双方向のシステムで、
漢字かな交じり文の読みびらきと、かな漢字変換の
両方が同じシステムで可能だった。
2018/07/30(月) 09:28:45.10ID:ArBfASRB
あと、全件辞書引きは Google が使ってるダブル配列法じゃなくて、
その原形であるトリプル配列法を使ってる。
マルチバイト文字の場合、「辞書がコンパクトになる」という
ダブル配列法のメリットが生きなくて、トリプル配列のほうが
コンパクトになったりする。
まぁ、昨今のマシンは作業用のメモリがギガバイト単位なんで、
それほど気にする必要はないんだが。
ほかになんか質問ある?
2018/07/30(月) 09:35:40.86ID:ArBfASRB
ところで質問なんだけど、
MeCabとかKNPとかって、文語とか解析できるの?
文法って、どんな形で持ってるの?
品詞分類とか変えられるの?
635デフォルトの名無しさん
垢版 |
2018/07/30(月) 12:28:22.50ID:fs6nfZiK
あ、古い人なんだ
636デフォルトの名無しさん
垢版 |
2018/07/30(月) 12:34:35.75ID:fs6nfZiK
JAI-Parserとかかな
2018/07/30(月) 12:41:04.42ID:ArBfASRB
>>635
つーか、JUMAN と ほぼ同時期に開発したシステムだから、
茶筅とか MeCab とかは、はなから使ったことがないのよ。
unix 環境なんて、手近になかったからね。初代は PC-98 とかで
動かしてたらしい。
当初、辞書をフロッピーディスクに置いといたら、やたら
カッチャンカッチャンとアクセスするので、「ドライブが
壊れるかと思った」てな話を聞いた。で、その後「RAM
ドライブ」っちゅーのが出て、384 Kb くらいの「マシンから
見るとドライブだけど、じつはメモリ空間」っつーのができて、
そのあたりの心配はなくなった。
で、その後 IBM-PC 互換機ができてメモリ空間が広がったんで
普通に実メモリ空間に置いて、アスキーの出版技術部の
TEX のチームの前でデモしたら、「それで?」と言われたそうだ。
あんまり処理が速かったんで、ただファイルを出力してただけだと
思われていた、というオチがついている。
2018/07/30(月) 12:41:58.32ID:ArBfASRB
>>636
なんで知ってんだ?
639デフォルトの名無しさん
垢版 |
2018/07/30(月) 12:42:57.61ID:fs6nfZiK
文体と興味が特徴的すぎる
2018/07/30(月) 12:49:03.23ID:ArBfASRB
>>639
そっちか。rStone とか『bit』とかを知ってる
古い世代かと思った。
641デフォルトの名無しさん
垢版 |
2018/07/30(月) 18:23:05.86ID:fs6nfZiK
たまごとかの世代ですが何か?
642Mr.Moto
垢版 |
2018/07/30(月) 19:38:47.79ID:ArBfASRB
>>641
じゃあ、Wnn(「私の名前は中野です」) あたりは知ってるんだ。
おれらは VJE-Pen(VJE-β)とか「ことえり」とか Wnn とか
よりちょっと遅れた時代だ。rStone-JE は、JAI-Perser の、
>>632 の(1)を実装してる。
(2)は、自動ルビ振り/自動点訳システム「紅玉(Ruby)」に実装
したんだが、まつもとゆきひろさんの「Ruby」が流行っちゃったので
あんまり有名にならなかった。
643Mr.Moto
垢版 |
2018/07/30(月) 21:22:57.38ID:ArBfASRB
たいへん・またせて・ごめんなさい
644Mr.Moto
垢版 |
2018/07/30(月) 21:25:45.64ID:ArBfASRB
「くるまでまつ」
「はくさいやだいこんなどのやさいが」
「やまのうえにはながさきました」

懐かしいのぅ。
645Mr.Moto
垢版 |
2018/07/30(月) 21:29:31.72ID:ArBfASRB
今は、
「長く庄内平野を転々としながらも私は肘折の渓谷に分け入るまで
月山がなぜ月の山と云われるのかを知りませんでした」
を、一発で構文解析できるシステムをインプリメントしようと
思案中。
646Mr.Moto
垢版 |
2018/08/02(木) 17:06:15.29ID:qDXNPl4s
スレが止まってるのが気にくわんなぁ。
せっかくの夏休みなのに、
喧嘩売ってくるとか、
質問してくるとか、
なんかスレを伸ばすような話題はないのか?
自然言語処理をやってる研究室は何をやっとるんだ?
2018/08/03(金) 10:26:42.91ID:G5/K3zuO
昔のソースを発掘したのはいいが、
なにせ量が多すぎて頭を抱えている。
辞書管理とかとツールが多いんだよなぁ ……
やっぱり日本語処理システムの開発は、
ある程度頭数が揃ってないとしんどいわ。
648デフォルトの名無しさん
垢版 |
2018/08/03(金) 12:24:06.18ID:zviFVEVF
githubで公開すれば?
2018/08/03(金) 15:27:48.96ID:G5/K3zuO
>>648
昔のソースなんで、恥ずいからやだ。
だいたい、Tomcat 上で SubVirsion 使ってソースは公開してたのに、
ずっと無視されてたから知ったこっちゃない。
2018/08/03(金) 21:12:14.93ID:7Jwc2PzI
自分から閉ざしちゃいかん
651Mr.Moto
垢版 |
2018/08/04(土) 09:55:56.28ID:Ply8bxep
>>650
わかった。努力する。
652Mr.Moto
垢版 |
2018/08/06(月) 06:44:57.20ID:C/D04uYr
スキーマと辞書の扱いを、どうすりゃいいのかな?
A)田中は台所でカップ焼きそばを作っている。
B)田中は工場でカップ焼きそばを作っている。
があって、
C)田中は栃木でカップ焼きそばを作っている。
は、どう解釈するか、っちゅーのが問題なんだが。
653Mr.Moto
垢版 |
2018/08/06(月) 13:59:40.47ID:C/D04uYr
漢字二字熟語で置きかえるというのはひとつの手段ではあるのだが、
A)田中は台所でカップ焼きそばを作っている。
→田中は台所でカップ焼きそばを調理している。
B)田中は工場でカップ焼きそばを作っている。
→製造している/開発している。
くらいはOKとして、
「子供を作っている」とか「家庭を作っている」とか
いうのは、なかなか説明しづらいものがあるように思う。
2018/08/07(火) 09:52:26.98ID:kx2eUWnl
昔ながらの方法だな
いずれ収拾がつかなくなるだろう
2018/08/07(火) 12:45:26.68ID:DcjP7j/S
>>654
昨今は どんなのが流行りなんだ?
多世界解釈とか言われても困るぞ?
656Mr.Moto
垢版 |
2018/08/07(火) 19:12:08.68ID:DcjP7j/S
かなり昔の話だが、
『ぼんさんがへをこいた』というパソコンの
ソフトがあった。

今日、近所のローソンへ行ったら、なんかしら
レジのところに『おいしいおでんのつくり方』という
のが置いてあって、「これって書籍ですか? それとも
店内のマニュアルですか?」と訊いたら、「あ、これは
店内用のマニュアルです」という返答だった。

「おいしいおでんのつくり方」をコンピュータに説明できるか、
というのは、けっこうテーマになりそうに思う。
2018/08/07(火) 19:49:55.57ID:UzMr++cp
つまなさう
658Mr.Moto
垢版 |
2018/08/07(火) 20:07:35.64ID:DcjP7j/S
>>657
と、いうことは、おまえは「田楽芋」が「おでん」になった経緯を
説明できる自然言語インターフェースを備えた知識ベースシステムを
すでに実装して運用してるということだな?
2018/08/08(水) 08:24:21.25ID:P8peofBj
知識ベースに疑問を持てよ
660Mr.Moto
垢版 |
2018/08/08(水) 13:13:47.75ID:l+OzLrq9
>>659
知識ベース=プロダクション・システムという
昨今の決めつけには疑問を持ってる。
とはいえ、様相論理とかフレーム理論とか、
そのあたりを取り込みゃあうまくいくかというと、
そうでもなさそうな気はする。
なんか、そこいらを統合するコンセプトが
ありそうな気はするんだが、おれには今のところ
思いつかない。
2018/08/08(水) 20:15:37.89ID:DgDhxyY4
正直でよろしい
■ このスレッドは過去ログ倉庫に格納されています