X



自然言語処理スレッド その4
■ このスレッドは過去ログ倉庫に格納されています
0001デフォルトの名無しさん
垢版 |
2014/06/03(火) 05:40:00.54ID:yefNLumx
前前スレ 自然言語処理スレッド その2
http://mimizun.com/log/2ch/tech/1173105287/
前スレ 自然言語処理スレッド その3
http://mimizun.com/log/2ch/tech/1235129481/

このスレッドでは、日本語の構文解析、談話理解、情報検索、
文章生成などの技術に関する理論と(おもに)実装を扱います。
あくまでアプリケーションプログラミングの技術的な面に重点をおきたいので、
学術的な話はアリですが、いわゆる人工無能や哲学的AI話、
言語学の話題などは他のスレッドでお願いします。
0504デフォルトの名無しさん
垢版 |
2018/06/26(火) 00:19:49.53ID:suPxm0NB
冒険者の広場では提案広場・あしあと伝言板にて言論規制がしかれている。
提案広場では主にスクエニに対して不利になるような発言
WiiUで発売してすぐ、ウィンドウズ版では出さないといっておきながら
発売を発表、それにより広場は荒れたものの、超速で削除。
両手剣スレイプニールのチート問題、これもチート行為は絶対にないと
いいきってからの問題発覚、これも荒れて超速削除。
他全年齢対象のためちょっとでも卑猥と感じる内容は削除
ネタバレと書かなければ、ネタバレと思われるものは削除
これについては運営側がネタバレと加筆すればいいだけの話だと思うけど。
あしあと伝言板は悪口と思われる内容の言葉が含まれていれば
自動で削除される。
この装備イカす→カス
ちょっとバカンスに行ってきます→バカ
パチンコばっかりいってた→チンコ
どう考えても冤罪削除。しかも累積すると冒険者の広場利用停止。
横暴。
ちなみに冤罪削除を訴えた発言も削除される。
異議申し立ても悪だというらしい。
サポートセンターに問い合わせたところ、調べてもくれなかった。
https://ameblo.jp/cinnamon-rilakkuma/entry-12317442377.html
0505デフォルトの名無しさん
垢版 |
2018/07/04(水) 22:07:34.62ID:gFgZc5FG
5UX
0508Mb
垢版 |
2018/07/16(月) 06:02:54.03ID:RFTF6J3p
省略のある文を構文解析するときに、
あらかじめ「省略がある」と解っている場合は
いいんだが、文法が間違ってて「ないはずの省略が
あることになってしまっている」場合は
ややこしい話になりそうに思う。
「すごく面白い」は「省略なし」で「すごく」が
「面白い」にかかるんだが、「すごい面白い」だと、
構文解析木自体が変わってきてしまう。
それとも、「解析木自体が違う」と認識して、
もっと上位の意味解析とかで処理するほうが
いいのかね?
0509Mb
垢版 |
2018/07/16(月) 06:18:39.78ID:RFTF6J3p
逆に、誤用とか慣用として、辞書レベルで処理しちゃったほうが
実用上は便利なのかね?
「そうすべきだ」なんていうのは、構造としては、
「そうするべきことだ」のはずなんだが、
「××する」みたいな附属語的な用法や、「漢字一字+s」
の形の五段活用動詞の連体形の変化形とは違って、単独の
「する」の連体形が「す」として使われる例はあんまりない
(文語じゃねぇんだから)。
で、「べき」は連体形だから、助動詞「だ/です/である」に
接続する場合は、本来は間に体言が入らないとおかしい。
でなかったら、「べし」と命令形にしちゃうのが文法的には
正だろう。
こういうのは、処理の観点からいうと、どう扱ったらいいのかね?
0511Mb
垢版 |
2018/07/16(月) 08:41:11.73ID:RFTF6J3p
>>510
それは、「おれは好きにするからユーザは文句言うな」
なのか、「ユーザが好きに処理できるように、アプリに
自由度を持たせろ」なのか。
0512Mb
垢版 |
2018/07/16(月) 08:48:33.94ID:RFTF6J3p
そもそも、「人間のチェックには漏れがある」から
「コンピュータにチェックさせる」のが本筋なのに、
「コンピュータの解析精度が低いから、人間が
処理結果をチェックしないといけない」というのが
本末転倒だ。
標準表記外音は『常用漢字表』(昭和56内閣告示)によれば、
「時」には「と」の音はないため、「時計」を「とけい」と読むと
表記外になるとか、「日」には「に」の音はないため、「日本」を
「にほん」と読むと表記外となるとか、そんなの人間がチェックしたら
見落とすに決まってるだろ。
「じゃあ、他にはそういう例があるのか?」とかいったデータくらい、
ちゃんと用意してどっかに公開しておけというのだ。
0513Mb
垢版 |
2018/07/16(月) 11:05:42.72ID:RFTF6J3p
だいたい、中学校で
「活用するのが『用言』で、活用しないのが『体言』」とか
教えてるくせに、
天(あめ→あま)
天日嗣(あまつひつぎ)・天津日嗣(あまつひつぎ)・天照大神(あまてらすおおみかみ)・天の川(あまのがわ)・天水(あまみず)
雨(あめ→あま)
雨足(あまあし)・雨脚(あまあし)・雨蛙(あまがえる)・雨傘(あまがさ)
・雨具(あまぐ)・雨乞い(あまごい)・雨水(あまみず)・雨漏り(あまもり)
雨(あめ→さめ)
秋雨(あきさめ)・霧雨(きりさめ)・小雨(こさめ)・細雨(ささめ)
・春雨(はるさめ)・氷雨(ひさめ)・村雨(むらさめ)
とかいうのはどう説明したらいいんだよ。
「日本語処理の技術者は、中学校レベルの文法知識も持っていない」って、
中学校で教えるのかよ。
で、高校受験や大学受験で、「本当のこと」を主張したら減点されて
不合格のリスクを負うのか?
それっておかしいとは、おまいら自然言語処理をやっている人間は思わんのか。
0514デフォルトの名無しさん
垢版 |
2018/07/16(月) 11:21:56.62ID:Tl1DHPio
>「活用するのが『用言』で、活用しないのが『体言』」とか
>教えてるくせに、

ええぇぇぇっ
0515Mb
垢版 |
2018/07/16(月) 11:36:38.15ID:RFTF6J3p
>>514
> ええぇぇぇっ
いや、ここは驚くとこじゃねぇだろう。
中学二年で習う「文法」だと、
まず「自立語」と「附属語」の区別があって、
自立語のうち「その役割によって形を変える語」を
「用言」といい、「形を変えない語」を「体言」というと、
しっかり教科書に書いてある。
だもんだから、教師はそれを信じてテストの問題を作り、
それに「教師が正しいと思った解答」を書かなかった
児童・生徒は成績評価が低くなる。
で、「それはおかしいんじゃないですか?」とかいって
文句をつける保護者は、「モンスター・ペアレント」として
扱われる。

めでてぇな。
0516デフォルトの名無しさん
垢版 |
2018/07/16(月) 11:36:41.25ID:1RDPQ2ba
最近少し興味を持った初心者なのですが、
2ch用語やギャル語、話し言葉や文法的な違いはどのような手順で処理されるのですか?

例えば、

>それっておかしいとは、おまいら自然言語処理をやっている人間は思わんのか。

おまいら自然言語処理をやっている人間は、それっておかしいとは思わんのか。

あなた方の様に自然言語の処理を行う人達は、「それはおかしい」と思わないのですか?
0517デフォルトの名無しさん
垢版 |
2018/07/16(月) 11:54:52.76ID:KKQqxuup
>>515
その「教え方(ほんとなら)」に驚いてるんじゃなくて

>>513 の認識に驚いてる
0518デフォルトの名無しさん
垢版 |
2018/07/16(月) 12:10:49.45ID:LulkQD8r
しょせんは人が決めた分類なんで従うしかない

って書こうとしたけど
漢字って単語のさらに一部分で雨水はいつだってあまみずだから
雨水を単語として分類するとき体言にするのはべつに間違ってないような

https://kotobank.jp/word/%E4%BD%93%E8%A8%80-91058
定義もっとこまかかった最初の前提からちがう
0519Mb
垢版 |
2018/07/16(月) 12:54:56.73ID:RFTF6J3p
>>518
> 漢字って単語のさらに一部分で雨水はいつだって「あまみず」だから
 開く(あく/ひらく)
 開ける(あける/ひらける)
 温める(あたためる/あっためる/ぬくめる)
 暖める(あたためる/あっためる)
 温まる(あたたまる/ぬくまる)
 言う・謂う・云う(いう/ゆう)
 怒る(いかる/おこる)
 行く・逝く・往く(いく/ゆく)
 射殺した(いころした/しゃさつした)
 抱く(いだく/だく)
 行った(いった/おこなった)
 出し((文)いでし/(現)だし/(文)でし)
 居る(いる/×おる)
 入る(いる/はいる)・入れない(いれない/はいれない)
 得る(うる/える)
(以下、規制に引っかかるので省略)
「雨水溝」は、「うすいこう」なのよ。
0520Mb
垢版 |
2018/07/16(月) 13:03:08.07ID:RFTF6J3p
>>516
> 2ch用語やギャル語、話し言葉や文法的な違いはどのような手順で
> 処理されるのですか?
いや、普通に処理してるけど?
「文法格の一意性」とか「非交差則」とかで説明できるんだけど。
ただ、「処理の結果が気にくわない!」って言ってる、自然言語処理
分野のヒトが邪魔してるだけだし。文語文法とかの研究者は、
「使えるツールがあれば欲しい」っていう要望があるんだけど。
そのあたりは早稲田大学の文理学部の筧先生とかに嘆願してね。
0521Mb
垢版 |
2018/07/16(月) 13:08:49.98ID:RFTF6J3p
>>518
「の」とか「ん」で表される、いわゆる「準体助詞」は
主語にならないから体言じゃないんだな?
0522Mb
垢版 |
2018/07/16(月) 13:12:52.10ID:RFTF6J3p
>>516
そのあたりは運用上の意味論がある。
わりと有名な例だが、
「てめぇは馬鹿か?」は通るが、
「あなたは知恵遅れではありませんか?」と
言ったら、血の雨が降る。
0523Mb
垢版 |
2018/07/16(月) 13:16:06.01ID:RFTF6J3p
慣用・誤用、あるいはいわゆる“百姓読み”

口腔外科
「こうくうげか」ではなく「こうこうげか」。
清拭
「せいしき」ではなく「せいしょく」。
独壇場
正しくは「独擅場」と表記して、「どくせんじょう」。
疾病
「しつびょう」ではなく「しっぺい」。
偏執狂
「へんしつきょう」ではなく「へんしゅうきょう」。
情緒
慣用は「じょうちょ」。正式には「じょうしょ」。
膏肓
「病、膏肓に入る」は「やまいこうもうにいる」ではなく「やまいこうこうにいる」。
捏造
慣用は「ねつぞう」。正式には「でつぞう」。「捏ち上げる」は「でっちあげる」。
0524Mb
垢版 |
2018/07/16(月) 13:17:32.40ID:RFTF6J3p
>>523
あ、ごめん。うっかり送信しちゃった。
0525Mb
垢版 |
2018/07/16(月) 13:22:00.06ID:RFTF6J3p
>>519
続き。
 脅かす(おどかす/おびやかす)
 下り(おり/くだり)
 降り(おり/ふり)
 解す(かいす/ほぐす)
 通った(かよった/とおった)
 来る(きたる/くる)
 汚す(けがす/よごす)
 汚れる(けがれる/よごれる)
 煙る(けぶる/けむる)
 扱く(こく/しごく)
 栄える(さかえる/はえる)
 誘う(さそう/いざなう)
 認める(したためる/みとめる)
 狭まる(せばまる/はさまる)
 狭める(せばめる/はさめる)
 初めて(そめて/はじめて)
 逸らす(そらす/はやらす)
 逸れる(それる/はぐれる/はやれる)
 違う(たがう/ちがう)
 尊ぶ(たっとぶ/とうとぶ)
 貴ぶ(たっとぶ/とうとぶ)
 違える(たがえる/ちがえる)
 吐く(つく/はく)
 留める(とめる/とどめる)
 留まる(とまる/とどまる)
 叩く(たたく/はたく)
 弾く(はじく/ひく)
 瞬く(またたく/まばたく)
0526Mb
垢版 |
2018/07/16(月) 13:25:35.64ID:RFTF6J3p
せっかくだから、最後までやっとこうか。
 (文)悪し(あし/わろし)
 良い・善い・好い(いい/よい)
 鈍い(にぶい/のろい)
 辛い(からい/つらい)
 難い(かたい/にくい)
 臭い(くさい/におい)
 尊い(たっとい/とうとい)
 貴い(たっとい/とうとい)
 難しい(むずかしい/むつかしい)
 (文)良し(よし/よろし)

(まだ続く)
0527Mb
垢版 |
2018/07/16(月) 13:26:51.56ID:RFTF6J3p
 (文)悪し(あし/わろし)
 良い・善い・好い(いい/よい)
 鈍い(にぶい/のろい)
 辛い(からい/つらい)
 難い(かたい/にくい)
 臭い(くさい/におい)
 尊い(たっとい/とうとい)
 貴い(たっとい/とうとい)
 難しい(むずかしい/むつかしい)
 (文)良し(よし/よろし)

抜けてる例があったら知らせてくれ。
0528Mb
垢版 |
2018/07/16(月) 13:29:11.05ID:RFTF6J3p
で、質問があったらカモーン! 歓迎するぜぇ!
0529Mb
垢版 |
2018/07/16(月) 13:49:08.35ID:RFTF6J3p
>>517
> その「教え方(ほんとなら)」に驚いてるんじゃなくて
中学校の国語教科書なら神保町の三省堂書店で
売ってるから確かめてみたらどうだ。
0530Mb
垢版 |
2018/07/16(月) 15:36:36.28ID:RFTF6J3p
ところで、
「ところで」を漢字で表記する場合、
「処で」「所で」「處で」のどれが正しいのか、
知っているヒトがいるんだったら教えてほしい。
本当に。
0531デフォルトの名無しさん
垢版 |
2018/07/16(月) 16:15:34.93ID:Od4s/iux
>>523
確執は?
0532Mb
垢版 |
2018/07/16(月) 16:59:58.75ID:RFTF6J3p
>>531
それは別板の話題だと思うが …
「固執」「執事」「偏執狂」との絡みで解決してくれい。
0534Mb
垢版 |
2018/07/16(月) 17:22:46.07ID:RFTF6J3p
>>533
べつにおれの知ったこっちゃないんだが、
あっちゃこっちゃの板でヒトに嫌われるようなコトを
ホザいてたからだろう。
0535Mb
垢版 |
2018/07/16(月) 17:30:44.70ID:RFTF6J3p
>>533
なんか知らんが、数学板とかプログラマ板とか、
あっちゃこっちゃで粘着してくる香具師がいるんだよ。
どうしたもんかなぁ …
0536デフォルトの名無しさん
垢版 |
2018/07/16(月) 18:49:32.10ID:Weu21Vcy
国文法の細かい話題に参加する気はないが
人間が文法を間違えたときにどう処理するかは
自然言語処理で昔から問題になってる
0537Mb
垢版 |
2018/07/16(月) 21:00:28.41ID:RFTF6J3p
>>536
> 昔から問題になってる
っつーのはよく解る。
清少納言が「べきにもあらず」とか
書いてるけど、文法的には「べからず」が
正しいと思う。

「慣用形」として認めるのはアリだと思うが、
しょっちゅう使うから「慣用」なんであって、
そこを網羅するのがコンピュータの出番だと
思うんだがどうだろう。

つーか、記述文法の精度が低すぎるのが
本来の問題なんだが、

おまいら記述文法を舐めてねぇか?

という連中が自然言語処理業界に多すぎるのが
問題だと思うが。
0538デフォルトの名無しさん
垢版 |
2018/07/16(月) 21:05:53.77ID:LulkQD8r
憤慨ポイントがよくわからない

自分のアプリで処理できないから怒ってるのか?
0539Mb
垢版 |
2018/07/16(月) 21:14:19.70ID:RFTF6J3p
>>536
“じつは”というか、“ぶっちゃけ”というか、
もう四半世紀(要するに二十五年以上)前から、
そこいらにあるパソコンの(形態素解析レベルの)チェック
能力は、人間を軽く超えているんだよ。
ただ、構文解析に関しては、国語学とか自然言語処理とか
数学とかコンピュータサイエンスとか認知心理学とか、
そのあたりの合意がとれてないわけよ。
だから、そのあたりを整理する必要があるわけなんだけど、
苫米地 英人とかが引っ掻き回しやがってバカヤロウ、
みたいな話があるんだわ。
0540Mb
垢版 |
2018/07/16(月) 21:24:18.35ID:RFTF6J3p
>>538
そもそも先人の業績をないがしろにしてるところが
気にくわんのだよ。
処理はできるんだが、その結果が「気に食わん」という奴が
いるわけだ。
「文法格の一意性」とか「非交差則」とか言うと、
学会で「こいつ GC とか信じてやがる pgr」とか云われるんだよ。
0541Mb
垢版 |
2018/07/16(月) 21:28:39.50ID:RFTF6J3p
>>540
× GC
〇 CG
汎文法(common grammer)な。
「文を構成するのは述語である」とか、
「述語に対する役割が、文法格である」とかいった、
「言語には、基本的な構成要素がある」っていう
構造主義的な立場だ。
0542デフォルトの名無しさん
垢版 |
2018/07/16(月) 21:48:34.53ID:LulkQD8r
文法よりまずおまえの頭を整理したほうがいいきがする
結局なにゆーてんかわからん
0543Mb
垢版 |
2018/07/16(月) 22:09:23.58ID:RFTF6J3p
>>542
とりあえず、トポロジーとかカタストロフィ理論とかから
勉強してきてくれるとありがたいんだが。
一から説明してると面倒臭いんだわ。

「私はラーメンを餃子を喰う」とは言わんだろ?
「私はラーメンと餃子を喰う」んだわ。
「喰う」という動詞に対して、文法格を
持つ対象は一意なんだよ。だから、「ラーメンと餃子」というふうに、
集合体になってるわけ。これが、「文法格の一意性」。
0544デフォルトの名無しさん
垢版 |
2018/07/16(月) 22:12:55.13ID:LulkQD8r
2行目で頭がフットーした
絶対おれの知識不足じゃなくてお前の話し方に問題がある
0545Mb
垢版 |
2018/07/16(月) 22:12:55.55ID:RFTF6J3p
>>542
でもって、昔(文語文法)は形容詞は述語になってたんだが、
いまの文法(いわゆる学校文法)では、形容詞は述語に
ならんのよ。だから、

「象は鼻が長い」

は、「述語がないのに主語が二つもあるのはおかしい!」という
批判が出てるわけ。

おわかりか?
0546デフォルトの名無しさん
垢版 |
2018/07/16(月) 22:28:36.42ID:LulkQD8r
文法の細かいことはほとんどわからんが

ようはその文法格とかをメインに考えてきたおまいらの方針が
AIとかの漠然とした解析方法に押されて消えちゃいそうで
危機感を感じて発狂してるということなのか?
0547デフォルトの名無しさん
垢版 |
2018/07/16(月) 22:55:46.12ID:LulkQD8r
批判ってつまり
今の文法格の考え方じゃ対処できてないじゃんって
おまいさんが突っ込まれたってことだよね

誰かが日本語の文法批判してるみたいじゃねーかまぎらわしい


それともなにか
本当に教育に干渉して日本語の文法に変更を加えようとしてるのか
0548Mb
垢版 |
2018/07/17(火) 09:14:36.43ID:iAzNVHws
>>547
> 誰かが日本語の文法批判してるみたいじゃねーか
> まぎらわしい
国語学者が中学校の現代国語で教えられている
「いわゆる学校文法」を批判してるんだよ。
「学校文法 批判」でググると五十万件以上
ヒットするから読んでみるといい。
特に、文語文法を教えてる先生は、言葉が通じなくて
頭を抱えてる。
0549Mb
垢版 |
2018/07/17(火) 09:25:46.63ID:iAzNVHws
>>546
つーか、自然言語処理自体が AI の一分野なんだよ。
だけど、事前言語処理をやっている人間の多くは
學校文法の延長でしか日本語の文法を捉えていないので、
日本語処理の技術の進歩が停滞しとるのよ。
0550Mb
垢版 |
2018/07/17(火) 09:28:18.11ID:iAzNVHws
>>547
これなんか、よくまとまってる。
ttps://ci.nii.ac.jp/els/contentscinii_20180717092612.pdf?id=ART0001102905
0551Mb
垢版 |
2018/07/17(火) 09:34:38.84ID:iAzNVHws
なお、本居春庭が悪いとか、橋本進吉が悪いとかいう話ではない
(大野晋先生は橋本進吉先生の弟子)。
中学校の文法教育が、文法嫌いを六十年以上拡大再生産
しているのが悪い、っちゅー話。
0553Mb
垢版 |
2018/07/17(火) 14:40:42.81ID:iAzNVHws
>>552
ある。「かな漢字変換」とか「ローマ字かな変換」とかな。
「programwo」は、本来なら「プログラム(program)を」と
変換してほしいところだが、「pろgらmを」と変換される。
これを「AI の限界」とか言ってる奴も多いが、
技術的にはすでに解決されてる。
0554Mb
垢版 |
2018/07/17(火) 14:50:17.21ID:iAzNVHws
>>552
かな漢字変換システムの形容詞の辞書登録で、
「i」とか「e」とかで終わる形容詞を登録してみ?
「i」終わりは「みみっちい」「ばっちい(ばばっちい)」
くらいしか存在しないので、登録時のチェックで注意喚起
してくれるのが正しいありかただ。
「e」末尾は、「かそけき」「さやけき」「むくつけき」「猛き」
あたりが該当するが、現代語の連体形が存在しないので、
「かそけい」「さやけい」「むくつけい」「猛い」が
変換候補として出てきたときに腹が立つかどうか、という
話になる。
0555Mb
垢版 |
2018/07/17(火) 14:55:42.16ID:iAzNVHws
でもって、自然言語処理というのは、一般的に
「形態素解析ができて、それを構文解析したときに、
正しい(ちゅーか、実用的な)解析木(ちゅーか、
情報処理するときに扱いやすいデータ構造)に落ちるか
どうか」が勝負なんだよ。
だけど、「そんな解析木は認めない!」ていって
頑張っている奴が業界を押さえていると、日本語処理
っていうもの自体が成り立たなくなるわけだ。
だから、「まず、記述文法から交通整理しよう」っちゅー
話をしとるわけよ。
0556Mb
垢版 |
2018/07/17(火) 15:08:30.84ID:iAzNVHws
「日本人は髪が黒い」という表現は、「黒い」が「髪」を連体修飾
してて、「髪」がとりたてによって強調されているから、「黒い」
の前に出てきて、とりたて詞「が」が用いられる、って言っただけで、
学会で吊るし上げを喰らうんだぞ?
で、まともな反論が返ってくるならともかく、
「くぁwせdrftgyふじこふじこふじこ!」
みたいなコトになるんだぞ?
「いや、ちゃんと動いてるシステムがあるんですが」とか
言っても、「あーあーあーあーあー聞こえない聞こえない聞こえなーい」
みたいな反応しか返ってこないんだぞ?
だけど、普通の研究者は逆らえないんだ。そういう連中は、大っぴらには
言えんけど大きな企業で国の予算を貰っていて、その一部をスポンサーとして
研究機関に流してるところから来た、背広着てネクタイ締めて学会に来てる
ような連中だからだ。
「日本語処理が実用化されたりなんかしたら、研究費が出なくなって
自分らが干上がる」というのを知っている連中が、日本語処理業界に
巣食ってるんだよ。
0558デフォルトの名無しさん
垢版 |
2018/07/17(火) 16:56:24.01ID:GZ88p15f
原子力学会かよ
0559Mb
垢版 |
2018/07/17(火) 17:08:28.25ID:iAzNVHws
>>557 >>558
自然言語処理に関係してる学会なんて、
だいたい想像つくだろうに。
0560Mb
垢版 |
2018/07/17(火) 17:17:24.52ID:iAzNVHws
で、益岡 隆志/田窪 行則『基礎日本語文法』以外の文法は
認められないんだ。
なぜかというと、JUMAN や ChaSen や MeCab とかを
いじくって「日本語処理やってまーす」つってアピールして
予算貰って生きてくしかないからだ。
0562Mb
垢版 |
2018/07/17(火) 20:31:47.87ID:iAzNVHws
でまぁ、本筋に戻るんだが、
現代日本語の動詞と形容詞の終止形(連体形と形は同じ)は、
じつは連体形の終止用法で、その後に体言とコピュラが
省略されていると考えると、処理も楽だし解析木も
ややこしくならない。試してみりゃあすぐ解る。
だけど、これを大声で言うと冷や飯を食わされるやら
煮え湯を飲まされるやら、いろんな目にあう。
0563Mb
垢版 |
2018/07/17(火) 20:47:58.86ID:iAzNVHws
>>561
まぁ、「データが木構造なんで、図で説明するのに
便利」っちゅー以上の意味はないわな。
「修飾関係が交差しない」から、木の形で
描ける、つーだけの話だし。
フローチャートと同じで、滅んだほうがいい
文化かもしれん。
0564デフォルトの名無しさん
垢版 |
2018/07/18(水) 17:42:01.84ID:r2tNZQmN
>>561
それな

どうせ文法なんて人間の都合で勝手に名付けた物だったりルールがあると錯覚してるだけだし
0565デフォルトの名無しさん
垢版 |
2018/07/18(水) 18:58:52.59ID:nFdzt/yd
>>564
ところが、「ハナモゲラ語」とか「言葉のサラダ」とか、
そういうのが、コンピュータで生成しようとしても
面白くならないんだよなぁ。
「ある」のは分ってるんだが、それが「何なのか」っつーのが
わからないのが文法の面白いところなのよ。
0566デフォルトの名無しさん
垢版 |
2018/07/19(木) 11:52:00.94ID:ZMW1ym8c
ランダムでやってもつまらんだろ
0567デフォルトの名無しさん
垢版 |
2018/07/19(木) 13:27:00.87ID:DUpb208V
>>566
だな。つまらん。
n-gram 法の単純なやつで、2-gram 法でウケてた時代も
あったんだが(筒井康隆『狂気の沙汰も金次第』参照)、
いまどきはそれで笑いは取れん。
昨今はスパムフィルタを潜り抜けるための
ネタでしかない。
自然言語処理の研究者は何をやってるんだ、という
怒りが消えない。
0568デフォルトの名無しさん
垢版 |
2018/07/19(木) 13:31:36.20ID:DUpb208V
つーか、東工大とかお茶の水女子大とかは、
「自然言語処理」っつって何をやってるんだ、
という怒りがある。
正直、いっぺん行ってシメてきたほうが
いいような気がする。
0569デフォルトの名無しさん
垢版 |
2018/07/19(木) 13:51:07.59ID:yj8RkDmG
日本以外の国ではどうなん?自然言語処理。
0570デフォルトの名無しさん
垢版 |
2018/07/19(木) 15:32:56.09ID:DUpb208V
>>569
日本語みたいに膠着語の国が少ないので、
もうちょい楽。
ただ、わりと手に負えないのが韓国語と
インド諸語かな?
インドは英語が普及してるんで、あんまり
自国語(つーても方言が多いので、何が
なんやら分らんのだが)の自然言語処理には
熱心じゃないらしい。
韓国は、とにかくハングルの字母の数が多いうえに、
正書法が確立しとらんのだよ。
「子音+母音+子音」でカナ一個の文字なんで、
単純に子音が十個で母音が五個としても、カナが
五百個ある勘定になる。
0571デフォルトの名無しさん
垢版 |
2018/07/19(木) 15:51:30.42ID:DUpb208V
ハングルは使い慣れると便利っつーのは
分るんだけど、できればローマ字表記を
確立してほしい。
「ピビン麺」と「ビビンバ」を並べて
見るとイラッとくる。
0572デフォルトの名無しさん
垢版 |
2018/07/19(木) 16:31:30.15ID:OaLdX1mQ
連投してる奴が何に対して怒ってるのか分からん
現状を打破する何かを自分で開発すればいいだけだろ
0573デフォルトの名無しさん
垢版 |
2018/07/19(木) 17:56:05.63ID:DUpb208V
>>572
開発したからイラついてんだよ。
だったらおまいは何を開発したか
言ってみろ。
0575デフォルトの名無しさん
垢版 |
2018/07/19(木) 19:54:40.83ID:DUpb208V
>>574
「ビビンバ」は、「混ぜご飯」の意味で、発音は“pi-bim-pap”。
「ビビン麺」は、「混ぜ麺」の意味で、表記は “bi-bim-guk-su”。
だけど、「ピビンパ」とか「ビビン飯」とか変換するとダメだと言われ、
「ビビングスク」とか変換するとダメだと言われる。
「じゃあ、どうすればいいのか?」という話になると、
「それは説明できないが、とにかくそうなんだ」と言われる。

まぁ、そんな連中はいっぱいいるので、べつに「韓国人は」
みたいなことで怒っているわけではないし、
ユーザの要求を聞き取って、具体的な仕様に落とすのが
システムエンジニアの仕事ではあるんだが、
自然言語処理の世界だと、「いやだー! いやだー!
そうじゃないんだー! うわぁぁぁぁぁぁぁ!」みたいな話で
ぶっ壊れる案件が多いというのは知っておくといい。
少なくとも金が自分の懐に入るまでは、油断しないほうがいい。
もっとも、その後で知的所有権がなんだかんだ、で懐から
金が出てゆくこともあるから油断はできないが。
0576デフォルトの名無しさん
垢版 |
2018/07/19(木) 20:01:12.43ID:DUpb208V
>>564
> どうせ文法なんて人間の都合で勝手に名付けた物だったり
> ルールがあると錯覚してるだけだし
「だから説明できないけどおれが正しい」って言われても、
説得できないのが自然言語処理。
で、説得しようとすると、「あんたは日本語処理とかなんとか
言ってるけど、あんたは日本語がわかってない」と言われる。
それが日本語処理業界の現実。
0577デフォルトの名無しさん
垢版 |
2018/07/19(木) 20:29:21.21ID:DUpb208V
これは言いたかなかったけど、
「支配者の言語」というのがあって、「被支配者の言語」の
言語表現を規制するのが「規範文法」。で、被支配者の
言語表現に対して、「それは文法に適っていない」と言えるのは、
支配者の権利だとする思想がある。
それがあるんで、左派の言語学者は「文法なんてない」と主張するし、
おれは「すべての言語表現において普遍的な原則」としての
「高精度の記述文法」というのを考えたワケ。
だから、おれが「あんたの表現は文法的に間違ってるぞ?」と
言うときは、「そういう言い方だと、他の奴には通じないぞ?」と
いう意味で使ってる。で、精神科医は、そういう発話を「言葉のサラダ」
と謂うんだ。
0580デフォルトの名無しさん
垢版 |
2018/07/20(金) 06:28:12.00ID:GozXxEHN
>>579
たぶん、ぬくぬくはしてないと思う。全体のパイが
小さいから、研究費(あるいは科研費)の奪い合いが
熾烈なんだと思う。だから、足の引っ張り合いになるんだろう。
日本語が論理式(モンタギュー文法)にうまく落ちないとか
形態素解析の精度が上がらないとかいうことになると、
「日本語は非・論理的だ」「日本語の文法は不完全だ」みたいな
ことを言いだして、「大規模データを統計的に処理すれば …」
とかいって予算を取ろうとする。
だから、哲学(論理学が絡むとこっちに該当する)とか
記述文法なんかやってる奴が下手に成果なんか上げちゃったら、
そいつらが困る。
0581デフォルトの名無しさん
垢版 |
2018/07/20(金) 10:16:08.42ID:B9AYu9ui
>>571
韓国人はピもビも同じ文字を使って区別しないで発音してるけど、日本人が聞くとピビンバに聞こえるんだな。どっちの表記が正しいってこともないけど表記揺れはちょっともやもやするな。

日本語でも「パパ」って発音したとき1個目のパは有気音、2個目のパは無気音で発音するので、韓国人にしてみれば同じカナなのに別の発音してるって感じるはず。
0582デフォルトの名無しさん
垢版 |
2018/07/20(金) 13:02:25.01ID:CcJkjASV
別に困んないけど

本当にpracticalならともかく
0583デフォルトの名無しさん
垢版 |
2018/07/20(金) 13:26:52.30ID:c77xM4ns
朝鮮人パカするな
0584デフォルトの名無しさん
垢版 |
2018/07/20(金) 14:58:22.06ID:GozXxEHN
>>581
まぁ、「マンガ」「メガネ」の「ガ」は鼻濁音だし、
「軍歌」の「カ」と「軍靴」の「カ」は違うんだけど
(後者は「クワ(ワは小さく)」)、普通の日本人は
気にせんのだけどな。

>>583
おれは朝鮮人と呼ばれてバカにされても一向に気にしない
(大陸顔なのは理解している。鹿賀 丈史とか米倉 斉加年が
代表的な大陸顔だ)。
必ずしもすべての朝鮮人が馬鹿ではないし
(例を思い浮かべられないのがなさけないが、
呉 善花は入れておいていいかもしれないと思う)、
すべての馬鹿が朝鮮人だという話でもない
(馬鹿な日本人は少なからずいる)。

力道山や大山倍達や大木金太郎については
コメントは控えておきたい。
0585デフォルトの名無しさん
垢版 |
2018/07/20(金) 15:05:41.59ID:GozXxEHN
千田是也さんが、関東大震災のときに、「朝鮮人が叛乱を
企てている」というので自警団が検問をしているときに
引っかかって、「『水道局』と言ってみろ」と言われ、
滑舌が悪くて「しゅっ … しゅいどうこく!」と言ったら
「鮮(せん)だ、これは。」と言われたので、「千田是也」という
ペンネームを使っていたというのは有名な話。
0586デフォルトの名無しさん
垢版 |
2018/07/20(金) 15:11:04.74ID:GozXxEHN
「おれは東京生まれの東京育ちで、日本橋の出身だから
訛りなんかない」と豪語していた奴が同僚にいたので、
「だったら『潮干狩り』って言ってみろ」と言ったら、
しばらく絶句してから、「しっ …… しおしがり!」って
言ってから勝手に落ち込んでた。
ちなみに江戸弁だと「ひよしがり」が正。

「鮭」は「しゃけ」、「朝日新聞」は「あさししんぶん」。
かな漢字変換用の辞書には登録しておくのが吉。
0587デフォルトの名無しさん
垢版 |
2018/07/20(金) 15:19:37.45ID:GozXxEHN
あと、「蠅帳」は、正訓は「はえちょう」。江戸弁では「はいちょう」。
「蚊帳」は、日本中「かや」。
「棟梁」の正訓は「とうりょう」。江戸弁では「とうりゅう」。
「道了尊」は、「どうりょうそん」と「どうりゅうさん」。
形態素解析っていうのは、ここまでやって一丁前。
0588デフォルトの名無しさん
垢版 |
2018/07/20(金) 15:29:07.28ID:GozXxEHN
>>582
「義足とか義手とかなくても、別に困んないけど。
おれ健常者だし」
「べつにハングル表記とかなくても、別に困んないけど。
おれに帆人だし」

「本当にpracticalならともかく」。
あーやだやだ、想像力とか共感性のない奴は。

「自然言語処理とかなくても、別に困んないけど。
普通に言葉分かってるし」ってぇ話だろ?
0589デフォルトの名無しさん
垢版 |
2018/07/20(金) 17:35:58.98ID:GozXxEHN
>>588
×に帆人
〇日本人
0590デフォルトの名無しさん
垢版 |
2018/07/20(金) 17:40:15.50ID:GozXxEHN
あと、昔の越後の人は「し」と「す」の区別がつかなくて、
「伸びた“シ”と結んだ“シ”」というんで区別してた。
「お寿司」と「お獅子」とかな。
0591デフォルトの名無しさん
垢版 |
2018/07/20(金) 18:01:44.97ID:GozXxEHN
日本橋の『たいめいけん』の茂出木 心護さんが、
越後の出身者は「えちご」と「いちご」が発音上
区別できなくて、「ストロベリー」と云われて
馬鹿にされたという話を書いている。
0592デフォルトの名無しさん
垢版 |
2018/07/20(金) 18:34:54.69ID:GozXxEHN
正しい日本語処理。

「やってみてくれ」
 ⇒金融機関が借入金を引き上げようとしているので、
なんか儲かりそうな話をでっち上げてくれ。
「やってくれ」
 ⇒「できません」とか言ったらぶっ殺すぞ。とにかく
儲けを出せ。
「上からの GO が出た」
 ⇒逃げ支度が済むまで引っ張れ。
「君には失望させられたよ」
 ⇒ぜんぶお前の責任だ。お前が尻拭いをしろ。おれらは
知らない。

そんなもんですよ。
0593デフォルトの名無しさん
垢版 |
2018/07/20(金) 18:57:49.52ID:TZxtxi0x
連投してる奴いろいろ書いてるけど
他人に対して何か伝える文章じゃないな
結局何が言いたいのかぼんやりしたまま
0594デフォルトの名無しさん
垢版 |
2018/07/20(金) 19:55:29.19ID:GozXxEHN
人工無脳が なんか言ってますよ。

ところで、「なさい」「ください」「いらっしゃい」とかは、
文法的にいうと、動詞の活用としては何形になるのかねぇ?
0595デフォルトの名無しさん
垢版 |
2018/07/20(金) 20:02:56.67ID:GozXxEHN
>>593
> 連投してる奴いろいろ書いてるけど
> 他人に対して何か伝える文章じゃないな
> 結局何が言いたいのかぼんやりしたまま

「 連投して(い)る奴(が)いろいろ(と)書いて(い)る[けど
(=「けれども」)]、他人に対して何か(を)伝え(「ようとしてい」?/
「られ」?)る文章[じゃ(=「では」の口語的に崩れた形)]ないな
結局、何が言いたいのか(が)ぼんやりしたまま(の)(何か)(だ)」 。

こんな屑な人口無脳を作った馬鹿は、どこの大学のどこの研究室の所属だ。
0597デフォルトの名無しさん
垢版 |
2018/07/20(金) 20:41:02.84ID:TZxtxi0x
>>595
馬鹿はお前だよ
自然な省略だろ

>>594
>かねぇ?
ってのは口語的に崩れた形だろうが
分かったらお前も人工無能な
0598デフォルトの名無しさん
垢版 |
2018/07/20(金) 20:53:07.41ID:GozXxEHN
>>597
> 自然な省略だろ
自然言語処理をやっているなら、何が自然なのかを説明してくれ。

>>かねぇ?
>ってのは口語的に崩れた形だろうが
そんな甘いツッコミを入れられてもサムいだけだ。
まぁ、ここのところ猛暑が続いているからご愛敬だけどな。
「動詞の活用としては何形になるのかねぇ?」
だったら、
「動詞の活用としては、何形になる(の)(でしょう)かねぇ?」
とツッコんでほしかった。「なる」は連体形だから、その後に何かが
省略していないと文が完結しないので、そのあとに「体言+コピュラ」が
省略されている、と推測するのが正解、くらいのツッコミが入ったら、
おれも素直に頭を下げられるんだが。

ついでながら、「ってのは」は「というのは」の、口語的に崩れた形だ。
0599デフォルトの名無しさん
垢版 |
2018/07/20(金) 20:58:35.72ID:GozXxEHN
>>597
> お前も人工無能な
文脈としては、
×人工無能
〇人工無脳
だと思うが。“も”っていうことは、お前は無能なんだな?
おれが人工無脳だったら、製作者はとっくにチューリング賞を
獲っとるわ。
0600デフォルトの名無しさん
垢版 |
2018/07/20(金) 21:25:48.02ID:GozXxEHN
くそう。叱られちゃったい。
> ないな
「ない(体言:省略)(コピュラ:省略)な」
> ぼんやりした
「ぼんやり(と:省略)した」
が正解。
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況