前前スレ 自然言語処理スレッド その2
http://mimizun.com/log/2ch/tech/1173105287/
前スレ 自然言語処理スレッド その3
http://mimizun.com/log/2ch/tech/1235129481/
このスレッドでは、日本語の構文解析、談話理解、情報検索、
文章生成などの技術に関する理論と(おもに)実装を扱います。
あくまでアプリケーションプログラミングの技術的な面に重点をおきたいので、
学術的な話はアリですが、いわゆる人工無能や哲学的AI話、
言語学の話題などは他のスレッドでお願いします。
探検
自然言語処理スレッド その4
■ このスレッドは過去ログ倉庫に格納されています
1デフォルトの名無しさん
2014/06/03(火) 05:40:00.54ID:yefNLumx512Mb
2018/07/16(月) 08:48:33.94ID:RFTF6J3p そもそも、「人間のチェックには漏れがある」から
「コンピュータにチェックさせる」のが本筋なのに、
「コンピュータの解析精度が低いから、人間が
処理結果をチェックしないといけない」というのが
本末転倒だ。
標準表記外音は『常用漢字表』(昭和56内閣告示)によれば、
「時」には「と」の音はないため、「時計」を「とけい」と読むと
表記外になるとか、「日」には「に」の音はないため、「日本」を
「にほん」と読むと表記外となるとか、そんなの人間がチェックしたら
見落とすに決まってるだろ。
「じゃあ、他にはそういう例があるのか?」とかいったデータくらい、
ちゃんと用意してどっかに公開しておけというのだ。
「コンピュータにチェックさせる」のが本筋なのに、
「コンピュータの解析精度が低いから、人間が
処理結果をチェックしないといけない」というのが
本末転倒だ。
標準表記外音は『常用漢字表』(昭和56内閣告示)によれば、
「時」には「と」の音はないため、「時計」を「とけい」と読むと
表記外になるとか、「日」には「に」の音はないため、「日本」を
「にほん」と読むと表記外となるとか、そんなの人間がチェックしたら
見落とすに決まってるだろ。
「じゃあ、他にはそういう例があるのか?」とかいったデータくらい、
ちゃんと用意してどっかに公開しておけというのだ。
513Mb
2018/07/16(月) 11:05:42.72ID:RFTF6J3p だいたい、中学校で
「活用するのが『用言』で、活用しないのが『体言』」とか
教えてるくせに、
天(あめ→あま)
天日嗣(あまつひつぎ)・天津日嗣(あまつひつぎ)・天照大神(あまてらすおおみかみ)・天の川(あまのがわ)・天水(あまみず)
雨(あめ→あま)
雨足(あまあし)・雨脚(あまあし)・雨蛙(あまがえる)・雨傘(あまがさ)
・雨具(あまぐ)・雨乞い(あまごい)・雨水(あまみず)・雨漏り(あまもり)
雨(あめ→さめ)
秋雨(あきさめ)・霧雨(きりさめ)・小雨(こさめ)・細雨(ささめ)
・春雨(はるさめ)・氷雨(ひさめ)・村雨(むらさめ)
とかいうのはどう説明したらいいんだよ。
「日本語処理の技術者は、中学校レベルの文法知識も持っていない」って、
中学校で教えるのかよ。
で、高校受験や大学受験で、「本当のこと」を主張したら減点されて
不合格のリスクを負うのか?
それっておかしいとは、おまいら自然言語処理をやっている人間は思わんのか。
「活用するのが『用言』で、活用しないのが『体言』」とか
教えてるくせに、
天(あめ→あま)
天日嗣(あまつひつぎ)・天津日嗣(あまつひつぎ)・天照大神(あまてらすおおみかみ)・天の川(あまのがわ)・天水(あまみず)
雨(あめ→あま)
雨足(あまあし)・雨脚(あまあし)・雨蛙(あまがえる)・雨傘(あまがさ)
・雨具(あまぐ)・雨乞い(あまごい)・雨水(あまみず)・雨漏り(あまもり)
雨(あめ→さめ)
秋雨(あきさめ)・霧雨(きりさめ)・小雨(こさめ)・細雨(ささめ)
・春雨(はるさめ)・氷雨(ひさめ)・村雨(むらさめ)
とかいうのはどう説明したらいいんだよ。
「日本語処理の技術者は、中学校レベルの文法知識も持っていない」って、
中学校で教えるのかよ。
で、高校受験や大学受験で、「本当のこと」を主張したら減点されて
不合格のリスクを負うのか?
それっておかしいとは、おまいら自然言語処理をやっている人間は思わんのか。
514デフォルトの名無しさん
2018/07/16(月) 11:21:56.62ID:Tl1DHPio >「活用するのが『用言』で、活用しないのが『体言』」とか
>教えてるくせに、
ええぇぇぇっ
>教えてるくせに、
ええぇぇぇっ
515Mb
2018/07/16(月) 11:36:38.15ID:RFTF6J3p >>514
> ええぇぇぇっ
いや、ここは驚くとこじゃねぇだろう。
中学二年で習う「文法」だと、
まず「自立語」と「附属語」の区別があって、
自立語のうち「その役割によって形を変える語」を
「用言」といい、「形を変えない語」を「体言」というと、
しっかり教科書に書いてある。
だもんだから、教師はそれを信じてテストの問題を作り、
それに「教師が正しいと思った解答」を書かなかった
児童・生徒は成績評価が低くなる。
で、「それはおかしいんじゃないですか?」とかいって
文句をつける保護者は、「モンスター・ペアレント」として
扱われる。
めでてぇな。
> ええぇぇぇっ
いや、ここは驚くとこじゃねぇだろう。
中学二年で習う「文法」だと、
まず「自立語」と「附属語」の区別があって、
自立語のうち「その役割によって形を変える語」を
「用言」といい、「形を変えない語」を「体言」というと、
しっかり教科書に書いてある。
だもんだから、教師はそれを信じてテストの問題を作り、
それに「教師が正しいと思った解答」を書かなかった
児童・生徒は成績評価が低くなる。
で、「それはおかしいんじゃないですか?」とかいって
文句をつける保護者は、「モンスター・ペアレント」として
扱われる。
めでてぇな。
516デフォルトの名無しさん
2018/07/16(月) 11:36:41.25ID:1RDPQ2ba 最近少し興味を持った初心者なのですが、
2ch用語やギャル語、話し言葉や文法的な違いはどのような手順で処理されるのですか?
例えば、
>それっておかしいとは、おまいら自然言語処理をやっている人間は思わんのか。
おまいら自然言語処理をやっている人間は、それっておかしいとは思わんのか。
あなた方の様に自然言語の処理を行う人達は、「それはおかしい」と思わないのですか?
2ch用語やギャル語、話し言葉や文法的な違いはどのような手順で処理されるのですか?
例えば、
>それっておかしいとは、おまいら自然言語処理をやっている人間は思わんのか。
おまいら自然言語処理をやっている人間は、それっておかしいとは思わんのか。
あなた方の様に自然言語の処理を行う人達は、「それはおかしい」と思わないのですか?
518デフォルトの名無しさん
2018/07/16(月) 12:10:49.45ID:LulkQD8r しょせんは人が決めた分類なんで従うしかない
って書こうとしたけど
漢字って単語のさらに一部分で雨水はいつだってあまみずだから
雨水を単語として分類するとき体言にするのはべつに間違ってないような
https://kotobank.jp/word/%E4%BD%93%E8%A8%80-91058
定義もっとこまかかった最初の前提からちがう
って書こうとしたけど
漢字って単語のさらに一部分で雨水はいつだってあまみずだから
雨水を単語として分類するとき体言にするのはべつに間違ってないような
https://kotobank.jp/word/%E4%BD%93%E8%A8%80-91058
定義もっとこまかかった最初の前提からちがう
519Mb
2018/07/16(月) 12:54:56.73ID:RFTF6J3p >>518
> 漢字って単語のさらに一部分で雨水はいつだって「あまみず」だから
開く(あく/ひらく)
開ける(あける/ひらける)
温める(あたためる/あっためる/ぬくめる)
暖める(あたためる/あっためる)
温まる(あたたまる/ぬくまる)
言う・謂う・云う(いう/ゆう)
怒る(いかる/おこる)
行く・逝く・往く(いく/ゆく)
射殺した(いころした/しゃさつした)
抱く(いだく/だく)
行った(いった/おこなった)
出し((文)いでし/(現)だし/(文)でし)
居る(いる/×おる)
入る(いる/はいる)・入れない(いれない/はいれない)
得る(うる/える)
(以下、規制に引っかかるので省略)
「雨水溝」は、「うすいこう」なのよ。
> 漢字って単語のさらに一部分で雨水はいつだって「あまみず」だから
開く(あく/ひらく)
開ける(あける/ひらける)
温める(あたためる/あっためる/ぬくめる)
暖める(あたためる/あっためる)
温まる(あたたまる/ぬくまる)
言う・謂う・云う(いう/ゆう)
怒る(いかる/おこる)
行く・逝く・往く(いく/ゆく)
射殺した(いころした/しゃさつした)
抱く(いだく/だく)
行った(いった/おこなった)
出し((文)いでし/(現)だし/(文)でし)
居る(いる/×おる)
入る(いる/はいる)・入れない(いれない/はいれない)
得る(うる/える)
(以下、規制に引っかかるので省略)
「雨水溝」は、「うすいこう」なのよ。
520Mb
2018/07/16(月) 13:03:08.07ID:RFTF6J3p >>516
> 2ch用語やギャル語、話し言葉や文法的な違いはどのような手順で
> 処理されるのですか?
いや、普通に処理してるけど?
「文法格の一意性」とか「非交差則」とかで説明できるんだけど。
ただ、「処理の結果が気にくわない!」って言ってる、自然言語処理
分野のヒトが邪魔してるだけだし。文語文法とかの研究者は、
「使えるツールがあれば欲しい」っていう要望があるんだけど。
そのあたりは早稲田大学の文理学部の筧先生とかに嘆願してね。
> 2ch用語やギャル語、話し言葉や文法的な違いはどのような手順で
> 処理されるのですか?
いや、普通に処理してるけど?
「文法格の一意性」とか「非交差則」とかで説明できるんだけど。
ただ、「処理の結果が気にくわない!」って言ってる、自然言語処理
分野のヒトが邪魔してるだけだし。文語文法とかの研究者は、
「使えるツールがあれば欲しい」っていう要望があるんだけど。
そのあたりは早稲田大学の文理学部の筧先生とかに嘆願してね。
521Mb
2018/07/16(月) 13:08:49.98ID:RFTF6J3p522Mb
2018/07/16(月) 13:12:52.10ID:RFTF6J3p523Mb
2018/07/16(月) 13:16:06.01ID:RFTF6J3p 慣用・誤用、あるいはいわゆる“百姓読み”
口腔外科
「こうくうげか」ではなく「こうこうげか」。
清拭
「せいしき」ではなく「せいしょく」。
独壇場
正しくは「独擅場」と表記して、「どくせんじょう」。
疾病
「しつびょう」ではなく「しっぺい」。
偏執狂
「へんしつきょう」ではなく「へんしゅうきょう」。
情緒
慣用は「じょうちょ」。正式には「じょうしょ」。
膏肓
「病、膏肓に入る」は「やまいこうもうにいる」ではなく「やまいこうこうにいる」。
捏造
慣用は「ねつぞう」。正式には「でつぞう」。「捏ち上げる」は「でっちあげる」。
口腔外科
「こうくうげか」ではなく「こうこうげか」。
清拭
「せいしき」ではなく「せいしょく」。
独壇場
正しくは「独擅場」と表記して、「どくせんじょう」。
疾病
「しつびょう」ではなく「しっぺい」。
偏執狂
「へんしつきょう」ではなく「へんしゅうきょう」。
情緒
慣用は「じょうちょ」。正式には「じょうしょ」。
膏肓
「病、膏肓に入る」は「やまいこうもうにいる」ではなく「やまいこうこうにいる」。
捏造
慣用は「ねつぞう」。正式には「でつぞう」。「捏ち上げる」は「でっちあげる」。
525Mb
2018/07/16(月) 13:22:00.06ID:RFTF6J3p >>519
続き。
脅かす(おどかす/おびやかす)
下り(おり/くだり)
降り(おり/ふり)
解す(かいす/ほぐす)
通った(かよった/とおった)
来る(きたる/くる)
汚す(けがす/よごす)
汚れる(けがれる/よごれる)
煙る(けぶる/けむる)
扱く(こく/しごく)
栄える(さかえる/はえる)
誘う(さそう/いざなう)
認める(したためる/みとめる)
狭まる(せばまる/はさまる)
狭める(せばめる/はさめる)
初めて(そめて/はじめて)
逸らす(そらす/はやらす)
逸れる(それる/はぐれる/はやれる)
違う(たがう/ちがう)
尊ぶ(たっとぶ/とうとぶ)
貴ぶ(たっとぶ/とうとぶ)
違える(たがえる/ちがえる)
吐く(つく/はく)
留める(とめる/とどめる)
留まる(とまる/とどまる)
叩く(たたく/はたく)
弾く(はじく/ひく)
瞬く(またたく/まばたく)
続き。
脅かす(おどかす/おびやかす)
下り(おり/くだり)
降り(おり/ふり)
解す(かいす/ほぐす)
通った(かよった/とおった)
来る(きたる/くる)
汚す(けがす/よごす)
汚れる(けがれる/よごれる)
煙る(けぶる/けむる)
扱く(こく/しごく)
栄える(さかえる/はえる)
誘う(さそう/いざなう)
認める(したためる/みとめる)
狭まる(せばまる/はさまる)
狭める(せばめる/はさめる)
初めて(そめて/はじめて)
逸らす(そらす/はやらす)
逸れる(それる/はぐれる/はやれる)
違う(たがう/ちがう)
尊ぶ(たっとぶ/とうとぶ)
貴ぶ(たっとぶ/とうとぶ)
違える(たがえる/ちがえる)
吐く(つく/はく)
留める(とめる/とどめる)
留まる(とまる/とどまる)
叩く(たたく/はたく)
弾く(はじく/ひく)
瞬く(またたく/まばたく)
526Mb
2018/07/16(月) 13:25:35.64ID:RFTF6J3p せっかくだから、最後までやっとこうか。
(文)悪し(あし/わろし)
良い・善い・好い(いい/よい)
鈍い(にぶい/のろい)
辛い(からい/つらい)
難い(かたい/にくい)
臭い(くさい/におい)
尊い(たっとい/とうとい)
貴い(たっとい/とうとい)
難しい(むずかしい/むつかしい)
(文)良し(よし/よろし)
(まだ続く)
(文)悪し(あし/わろし)
良い・善い・好い(いい/よい)
鈍い(にぶい/のろい)
辛い(からい/つらい)
難い(かたい/にくい)
臭い(くさい/におい)
尊い(たっとい/とうとい)
貴い(たっとい/とうとい)
難しい(むずかしい/むつかしい)
(文)良し(よし/よろし)
(まだ続く)
527Mb
2018/07/16(月) 13:26:51.56ID:RFTF6J3p (文)悪し(あし/わろし)
良い・善い・好い(いい/よい)
鈍い(にぶい/のろい)
辛い(からい/つらい)
難い(かたい/にくい)
臭い(くさい/におい)
尊い(たっとい/とうとい)
貴い(たっとい/とうとい)
難しい(むずかしい/むつかしい)
(文)良し(よし/よろし)
抜けてる例があったら知らせてくれ。
良い・善い・好い(いい/よい)
鈍い(にぶい/のろい)
辛い(からい/つらい)
難い(かたい/にくい)
臭い(くさい/におい)
尊い(たっとい/とうとい)
貴い(たっとい/とうとい)
難しい(むずかしい/むつかしい)
(文)良し(よし/よろし)
抜けてる例があったら知らせてくれ。
528Mb
2018/07/16(月) 13:29:11.05ID:RFTF6J3p で、質問があったらカモーン! 歓迎するぜぇ!
529Mb
2018/07/16(月) 13:49:08.35ID:RFTF6J3p530Mb
2018/07/16(月) 15:36:36.28ID:RFTF6J3p ところで、
「ところで」を漢字で表記する場合、
「処で」「所で」「處で」のどれが正しいのか、
知っているヒトがいるんだったら教えてほしい。
本当に。
「ところで」を漢字で表記する場合、
「処で」「所で」「處で」のどれが正しいのか、
知っているヒトがいるんだったら教えてほしい。
本当に。
531デフォルトの名無しさん
2018/07/16(月) 16:15:34.93ID:Od4s/iux >>523
確執は?
確執は?
533デフォルトの名無しさん
2018/07/16(月) 17:13:46.84ID:FxG3mwKE なんでこの人ID真っ赤なの?
534Mb
2018/07/16(月) 17:22:46.07ID:RFTF6J3p535Mb
2018/07/16(月) 17:30:44.70ID:RFTF6J3p536デフォルトの名無しさん
2018/07/16(月) 18:49:32.10ID:Weu21Vcy 国文法の細かい話題に参加する気はないが
人間が文法を間違えたときにどう処理するかは
自然言語処理で昔から問題になってる
人間が文法を間違えたときにどう処理するかは
自然言語処理で昔から問題になってる
537Mb
2018/07/16(月) 21:00:28.41ID:RFTF6J3p >>536
> 昔から問題になってる
っつーのはよく解る。
清少納言が「べきにもあらず」とか
書いてるけど、文法的には「べからず」が
正しいと思う。
「慣用形」として認めるのはアリだと思うが、
しょっちゅう使うから「慣用」なんであって、
そこを網羅するのがコンピュータの出番だと
思うんだがどうだろう。
つーか、記述文法の精度が低すぎるのが
本来の問題なんだが、
おまいら記述文法を舐めてねぇか?
という連中が自然言語処理業界に多すぎるのが
問題だと思うが。
> 昔から問題になってる
っつーのはよく解る。
清少納言が「べきにもあらず」とか
書いてるけど、文法的には「べからず」が
正しいと思う。
「慣用形」として認めるのはアリだと思うが、
しょっちゅう使うから「慣用」なんであって、
そこを網羅するのがコンピュータの出番だと
思うんだがどうだろう。
つーか、記述文法の精度が低すぎるのが
本来の問題なんだが、
おまいら記述文法を舐めてねぇか?
という連中が自然言語処理業界に多すぎるのが
問題だと思うが。
538デフォルトの名無しさん
2018/07/16(月) 21:05:53.77ID:LulkQD8r 憤慨ポイントがよくわからない
自分のアプリで処理できないから怒ってるのか?
自分のアプリで処理できないから怒ってるのか?
539Mb
2018/07/16(月) 21:14:19.70ID:RFTF6J3p >>536
“じつは”というか、“ぶっちゃけ”というか、
もう四半世紀(要するに二十五年以上)前から、
そこいらにあるパソコンの(形態素解析レベルの)チェック
能力は、人間を軽く超えているんだよ。
ただ、構文解析に関しては、国語学とか自然言語処理とか
数学とかコンピュータサイエンスとか認知心理学とか、
そのあたりの合意がとれてないわけよ。
だから、そのあたりを整理する必要があるわけなんだけど、
苫米地 英人とかが引っ掻き回しやがってバカヤロウ、
みたいな話があるんだわ。
“じつは”というか、“ぶっちゃけ”というか、
もう四半世紀(要するに二十五年以上)前から、
そこいらにあるパソコンの(形態素解析レベルの)チェック
能力は、人間を軽く超えているんだよ。
ただ、構文解析に関しては、国語学とか自然言語処理とか
数学とかコンピュータサイエンスとか認知心理学とか、
そのあたりの合意がとれてないわけよ。
だから、そのあたりを整理する必要があるわけなんだけど、
苫米地 英人とかが引っ掻き回しやがってバカヤロウ、
みたいな話があるんだわ。
540Mb
2018/07/16(月) 21:24:18.35ID:RFTF6J3p >>538
そもそも先人の業績をないがしろにしてるところが
気にくわんのだよ。
処理はできるんだが、その結果が「気に食わん」という奴が
いるわけだ。
「文法格の一意性」とか「非交差則」とか言うと、
学会で「こいつ GC とか信じてやがる pgr」とか云われるんだよ。
そもそも先人の業績をないがしろにしてるところが
気にくわんのだよ。
処理はできるんだが、その結果が「気に食わん」という奴が
いるわけだ。
「文法格の一意性」とか「非交差則」とか言うと、
学会で「こいつ GC とか信じてやがる pgr」とか云われるんだよ。
541Mb
2018/07/16(月) 21:28:39.50ID:RFTF6J3p >>540
× GC
〇 CG
汎文法(common grammer)な。
「文を構成するのは述語である」とか、
「述語に対する役割が、文法格である」とかいった、
「言語には、基本的な構成要素がある」っていう
構造主義的な立場だ。
× GC
〇 CG
汎文法(common grammer)な。
「文を構成するのは述語である」とか、
「述語に対する役割が、文法格である」とかいった、
「言語には、基本的な構成要素がある」っていう
構造主義的な立場だ。
542デフォルトの名無しさん
2018/07/16(月) 21:48:34.53ID:LulkQD8r 文法よりまずおまえの頭を整理したほうがいいきがする
結局なにゆーてんかわからん
結局なにゆーてんかわからん
543Mb
2018/07/16(月) 22:09:23.58ID:RFTF6J3p >>542
とりあえず、トポロジーとかカタストロフィ理論とかから
勉強してきてくれるとありがたいんだが。
一から説明してると面倒臭いんだわ。
「私はラーメンを餃子を喰う」とは言わんだろ?
「私はラーメンと餃子を喰う」んだわ。
「喰う」という動詞に対して、文法格を
持つ対象は一意なんだよ。だから、「ラーメンと餃子」というふうに、
集合体になってるわけ。これが、「文法格の一意性」。
とりあえず、トポロジーとかカタストロフィ理論とかから
勉強してきてくれるとありがたいんだが。
一から説明してると面倒臭いんだわ。
「私はラーメンを餃子を喰う」とは言わんだろ?
「私はラーメンと餃子を喰う」んだわ。
「喰う」という動詞に対して、文法格を
持つ対象は一意なんだよ。だから、「ラーメンと餃子」というふうに、
集合体になってるわけ。これが、「文法格の一意性」。
544デフォルトの名無しさん
2018/07/16(月) 22:12:55.13ID:LulkQD8r 2行目で頭がフットーした
絶対おれの知識不足じゃなくてお前の話し方に問題がある
絶対おれの知識不足じゃなくてお前の話し方に問題がある
545Mb
2018/07/16(月) 22:12:55.55ID:RFTF6J3p >>542
でもって、昔(文語文法)は形容詞は述語になってたんだが、
いまの文法(いわゆる学校文法)では、形容詞は述語に
ならんのよ。だから、
「象は鼻が長い」
は、「述語がないのに主語が二つもあるのはおかしい!」という
批判が出てるわけ。
おわかりか?
でもって、昔(文語文法)は形容詞は述語になってたんだが、
いまの文法(いわゆる学校文法)では、形容詞は述語に
ならんのよ。だから、
「象は鼻が長い」
は、「述語がないのに主語が二つもあるのはおかしい!」という
批判が出てるわけ。
おわかりか?
546デフォルトの名無しさん
2018/07/16(月) 22:28:36.42ID:LulkQD8r 文法の細かいことはほとんどわからんが
ようはその文法格とかをメインに考えてきたおまいらの方針が
AIとかの漠然とした解析方法に押されて消えちゃいそうで
危機感を感じて発狂してるということなのか?
ようはその文法格とかをメインに考えてきたおまいらの方針が
AIとかの漠然とした解析方法に押されて消えちゃいそうで
危機感を感じて発狂してるということなのか?
547デフォルトの名無しさん
2018/07/16(月) 22:55:46.12ID:LulkQD8r 批判ってつまり
今の文法格の考え方じゃ対処できてないじゃんって
おまいさんが突っ込まれたってことだよね
誰かが日本語の文法批判してるみたいじゃねーかまぎらわしい
それともなにか
本当に教育に干渉して日本語の文法に変更を加えようとしてるのか
今の文法格の考え方じゃ対処できてないじゃんって
おまいさんが突っ込まれたってことだよね
誰かが日本語の文法批判してるみたいじゃねーかまぎらわしい
それともなにか
本当に教育に干渉して日本語の文法に変更を加えようとしてるのか
548Mb
2018/07/17(火) 09:14:36.43ID:iAzNVHws >>547
> 誰かが日本語の文法批判してるみたいじゃねーか
> まぎらわしい
国語学者が中学校の現代国語で教えられている
「いわゆる学校文法」を批判してるんだよ。
「学校文法 批判」でググると五十万件以上
ヒットするから読んでみるといい。
特に、文語文法を教えてる先生は、言葉が通じなくて
頭を抱えてる。
> 誰かが日本語の文法批判してるみたいじゃねーか
> まぎらわしい
国語学者が中学校の現代国語で教えられている
「いわゆる学校文法」を批判してるんだよ。
「学校文法 批判」でググると五十万件以上
ヒットするから読んでみるといい。
特に、文語文法を教えてる先生は、言葉が通じなくて
頭を抱えてる。
549Mb
2018/07/17(火) 09:25:46.63ID:iAzNVHws >>546
つーか、自然言語処理自体が AI の一分野なんだよ。
だけど、事前言語処理をやっている人間の多くは
學校文法の延長でしか日本語の文法を捉えていないので、
日本語処理の技術の進歩が停滞しとるのよ。
つーか、自然言語処理自体が AI の一分野なんだよ。
だけど、事前言語処理をやっている人間の多くは
學校文法の延長でしか日本語の文法を捉えていないので、
日本語処理の技術の進歩が停滞しとるのよ。
550Mb
2018/07/17(火) 09:28:18.11ID:iAzNVHws551Mb
2018/07/17(火) 09:34:38.84ID:iAzNVHws なお、本居春庭が悪いとか、橋本進吉が悪いとかいう話ではない
(大野晋先生は橋本進吉先生の弟子)。
中学校の文法教育が、文法嫌いを六十年以上拡大再生産
しているのが悪い、っちゅー話。
(大野晋先生は橋本進吉先生の弟子)。
中学校の文法教育が、文法嫌いを六十年以上拡大再生産
しているのが悪い、っちゅー話。
552デフォルトの名無しさん
2018/07/17(火) 14:03:22.52ID:ejUOYbm+ いまどきAIの分野でない自然言語処理なんてあるの?
553Mb
2018/07/17(火) 14:40:42.81ID:iAzNVHws >>552
ある。「かな漢字変換」とか「ローマ字かな変換」とかな。
「programwo」は、本来なら「プログラム(program)を」と
変換してほしいところだが、「pろgらmを」と変換される。
これを「AI の限界」とか言ってる奴も多いが、
技術的にはすでに解決されてる。
ある。「かな漢字変換」とか「ローマ字かな変換」とかな。
「programwo」は、本来なら「プログラム(program)を」と
変換してほしいところだが、「pろgらmを」と変換される。
これを「AI の限界」とか言ってる奴も多いが、
技術的にはすでに解決されてる。
554Mb
2018/07/17(火) 14:50:17.21ID:iAzNVHws >>552
かな漢字変換システムの形容詞の辞書登録で、
「i」とか「e」とかで終わる形容詞を登録してみ?
「i」終わりは「みみっちい」「ばっちい(ばばっちい)」
くらいしか存在しないので、登録時のチェックで注意喚起
してくれるのが正しいありかただ。
「e」末尾は、「かそけき」「さやけき」「むくつけき」「猛き」
あたりが該当するが、現代語の連体形が存在しないので、
「かそけい」「さやけい」「むくつけい」「猛い」が
変換候補として出てきたときに腹が立つかどうか、という
話になる。
かな漢字変換システムの形容詞の辞書登録で、
「i」とか「e」とかで終わる形容詞を登録してみ?
「i」終わりは「みみっちい」「ばっちい(ばばっちい)」
くらいしか存在しないので、登録時のチェックで注意喚起
してくれるのが正しいありかただ。
「e」末尾は、「かそけき」「さやけき」「むくつけき」「猛き」
あたりが該当するが、現代語の連体形が存在しないので、
「かそけい」「さやけい」「むくつけい」「猛い」が
変換候補として出てきたときに腹が立つかどうか、という
話になる。
555Mb
2018/07/17(火) 14:55:42.16ID:iAzNVHws でもって、自然言語処理というのは、一般的に
「形態素解析ができて、それを構文解析したときに、
正しい(ちゅーか、実用的な)解析木(ちゅーか、
情報処理するときに扱いやすいデータ構造)に落ちるか
どうか」が勝負なんだよ。
だけど、「そんな解析木は認めない!」ていって
頑張っている奴が業界を押さえていると、日本語処理
っていうもの自体が成り立たなくなるわけだ。
だから、「まず、記述文法から交通整理しよう」っちゅー
話をしとるわけよ。
「形態素解析ができて、それを構文解析したときに、
正しい(ちゅーか、実用的な)解析木(ちゅーか、
情報処理するときに扱いやすいデータ構造)に落ちるか
どうか」が勝負なんだよ。
だけど、「そんな解析木は認めない!」ていって
頑張っている奴が業界を押さえていると、日本語処理
っていうもの自体が成り立たなくなるわけだ。
だから、「まず、記述文法から交通整理しよう」っちゅー
話をしとるわけよ。
556Mb
2018/07/17(火) 15:08:30.84ID:iAzNVHws 「日本人は髪が黒い」という表現は、「黒い」が「髪」を連体修飾
してて、「髪」がとりたてによって強調されているから、「黒い」
の前に出てきて、とりたて詞「が」が用いられる、って言っただけで、
学会で吊るし上げを喰らうんだぞ?
で、まともな反論が返ってくるならともかく、
「くぁwせdrftgyふじこふじこふじこ!」
みたいなコトになるんだぞ?
「いや、ちゃんと動いてるシステムがあるんですが」とか
言っても、「あーあーあーあーあー聞こえない聞こえない聞こえなーい」
みたいな反応しか返ってこないんだぞ?
だけど、普通の研究者は逆らえないんだ。そういう連中は、大っぴらには
言えんけど大きな企業で国の予算を貰っていて、その一部をスポンサーとして
研究機関に流してるところから来た、背広着てネクタイ締めて学会に来てる
ような連中だからだ。
「日本語処理が実用化されたりなんかしたら、研究費が出なくなって
自分らが干上がる」というのを知っている連中が、日本語処理業界に
巣食ってるんだよ。
してて、「髪」がとりたてによって強調されているから、「黒い」
の前に出てきて、とりたて詞「が」が用いられる、って言っただけで、
学会で吊るし上げを喰らうんだぞ?
で、まともな反論が返ってくるならともかく、
「くぁwせdrftgyふじこふじこふじこ!」
みたいなコトになるんだぞ?
「いや、ちゃんと動いてるシステムがあるんですが」とか
言っても、「あーあーあーあーあー聞こえない聞こえない聞こえなーい」
みたいな反応しか返ってこないんだぞ?
だけど、普通の研究者は逆らえないんだ。そういう連中は、大っぴらには
言えんけど大きな企業で国の予算を貰っていて、その一部をスポンサーとして
研究機関に流してるところから来た、背広着てネクタイ締めて学会に来てる
ような連中だからだ。
「日本語処理が実用化されたりなんかしたら、研究費が出なくなって
自分らが干上がる」というのを知っている連中が、日本語処理業界に
巣食ってるんだよ。
557デフォルトの名無しさん
2018/07/17(火) 15:53:21.98ID:EeLIetXI558デフォルトの名無しさん
2018/07/17(火) 16:56:24.01ID:GZ88p15f 原子力学会かよ
560Mb
2018/07/17(火) 17:17:24.52ID:iAzNVHws で、益岡 隆志/田窪 行則『基礎日本語文法』以外の文法は
認められないんだ。
なぜかというと、JUMAN や ChaSen や MeCab とかを
いじくって「日本語処理やってまーす」つってアピールして
予算貰って生きてくしかないからだ。
認められないんだ。
なぜかというと、JUMAN や ChaSen や MeCab とかを
いじくって「日本語処理やってまーす」つってアピールして
予算貰って生きてくしかないからだ。
561デフォルトの名無しさん
2018/07/17(火) 20:17:31.80ID:4Y4cMBMm どうせ構文解析器なんて要らなくなるよ
不毛な議論
不毛な議論
562Mb
2018/07/17(火) 20:31:47.87ID:iAzNVHws でまぁ、本筋に戻るんだが、
現代日本語の動詞と形容詞の終止形(連体形と形は同じ)は、
じつは連体形の終止用法で、その後に体言とコピュラが
省略されていると考えると、処理も楽だし解析木も
ややこしくならない。試してみりゃあすぐ解る。
だけど、これを大声で言うと冷や飯を食わされるやら
煮え湯を飲まされるやら、いろんな目にあう。
現代日本語の動詞と形容詞の終止形(連体形と形は同じ)は、
じつは連体形の終止用法で、その後に体言とコピュラが
省略されていると考えると、処理も楽だし解析木も
ややこしくならない。試してみりゃあすぐ解る。
だけど、これを大声で言うと冷や飯を食わされるやら
煮え湯を飲まされるやら、いろんな目にあう。
563Mb
2018/07/17(火) 20:47:58.86ID:iAzNVHws >>561
まぁ、「データが木構造なんで、図で説明するのに
便利」っちゅー以上の意味はないわな。
「修飾関係が交差しない」から、木の形で
描ける、つーだけの話だし。
フローチャートと同じで、滅んだほうがいい
文化かもしれん。
まぁ、「データが木構造なんで、図で説明するのに
便利」っちゅー以上の意味はないわな。
「修飾関係が交差しない」から、木の形で
描ける、つーだけの話だし。
フローチャートと同じで、滅んだほうがいい
文化かもしれん。
564デフォルトの名無しさん
2018/07/18(水) 17:42:01.84ID:r2tNZQmN565デフォルトの名無しさん
2018/07/18(水) 18:58:52.59ID:nFdzt/yd >>564
ところが、「ハナモゲラ語」とか「言葉のサラダ」とか、
そういうのが、コンピュータで生成しようとしても
面白くならないんだよなぁ。
「ある」のは分ってるんだが、それが「何なのか」っつーのが
わからないのが文法の面白いところなのよ。
ところが、「ハナモゲラ語」とか「言葉のサラダ」とか、
そういうのが、コンピュータで生成しようとしても
面白くならないんだよなぁ。
「ある」のは分ってるんだが、それが「何なのか」っつーのが
わからないのが文法の面白いところなのよ。
566デフォルトの名無しさん
2018/07/19(木) 11:52:00.94ID:ZMW1ym8c ランダムでやってもつまらんだろ
567デフォルトの名無しさん
2018/07/19(木) 13:27:00.87ID:DUpb208V >>566
だな。つまらん。
n-gram 法の単純なやつで、2-gram 法でウケてた時代も
あったんだが(筒井康隆『狂気の沙汰も金次第』参照)、
いまどきはそれで笑いは取れん。
昨今はスパムフィルタを潜り抜けるための
ネタでしかない。
自然言語処理の研究者は何をやってるんだ、という
怒りが消えない。
だな。つまらん。
n-gram 法の単純なやつで、2-gram 法でウケてた時代も
あったんだが(筒井康隆『狂気の沙汰も金次第』参照)、
いまどきはそれで笑いは取れん。
昨今はスパムフィルタを潜り抜けるための
ネタでしかない。
自然言語処理の研究者は何をやってるんだ、という
怒りが消えない。
568デフォルトの名無しさん
2018/07/19(木) 13:31:36.20ID:DUpb208V つーか、東工大とかお茶の水女子大とかは、
「自然言語処理」っつって何をやってるんだ、
という怒りがある。
正直、いっぺん行ってシメてきたほうが
いいような気がする。
「自然言語処理」っつって何をやってるんだ、
という怒りがある。
正直、いっぺん行ってシメてきたほうが
いいような気がする。
569デフォルトの名無しさん
2018/07/19(木) 13:51:07.59ID:yj8RkDmG 日本以外の国ではどうなん?自然言語処理。
570デフォルトの名無しさん
2018/07/19(木) 15:32:56.09ID:DUpb208V >>569
日本語みたいに膠着語の国が少ないので、
もうちょい楽。
ただ、わりと手に負えないのが韓国語と
インド諸語かな?
インドは英語が普及してるんで、あんまり
自国語(つーても方言が多いので、何が
なんやら分らんのだが)の自然言語処理には
熱心じゃないらしい。
韓国は、とにかくハングルの字母の数が多いうえに、
正書法が確立しとらんのだよ。
「子音+母音+子音」でカナ一個の文字なんで、
単純に子音が十個で母音が五個としても、カナが
五百個ある勘定になる。
日本語みたいに膠着語の国が少ないので、
もうちょい楽。
ただ、わりと手に負えないのが韓国語と
インド諸語かな?
インドは英語が普及してるんで、あんまり
自国語(つーても方言が多いので、何が
なんやら分らんのだが)の自然言語処理には
熱心じゃないらしい。
韓国は、とにかくハングルの字母の数が多いうえに、
正書法が確立しとらんのだよ。
「子音+母音+子音」でカナ一個の文字なんで、
単純に子音が十個で母音が五個としても、カナが
五百個ある勘定になる。
571デフォルトの名無しさん
2018/07/19(木) 15:51:30.42ID:DUpb208V ハングルは使い慣れると便利っつーのは
分るんだけど、できればローマ字表記を
確立してほしい。
「ピビン麺」と「ビビンバ」を並べて
見るとイラッとくる。
分るんだけど、できればローマ字表記を
確立してほしい。
「ピビン麺」と「ビビンバ」を並べて
見るとイラッとくる。
572デフォルトの名無しさん
2018/07/19(木) 16:31:30.15ID:OaLdX1mQ 連投してる奴が何に対して怒ってるのか分からん
現状を打破する何かを自分で開発すればいいだけだろ
現状を打破する何かを自分で開発すればいいだけだろ
573デフォルトの名無しさん
2018/07/19(木) 17:56:05.63ID:DUpb208V574デフォルトの名無しさん
2018/07/19(木) 18:24:18.12ID:OaLdX1mQ575デフォルトの名無しさん
2018/07/19(木) 19:54:40.83ID:DUpb208V >>574
「ビビンバ」は、「混ぜご飯」の意味で、発音は“pi-bim-pap”。
「ビビン麺」は、「混ぜ麺」の意味で、表記は “bi-bim-guk-su”。
だけど、「ピビンパ」とか「ビビン飯」とか変換するとダメだと言われ、
「ビビングスク」とか変換するとダメだと言われる。
「じゃあ、どうすればいいのか?」という話になると、
「それは説明できないが、とにかくそうなんだ」と言われる。
まぁ、そんな連中はいっぱいいるので、べつに「韓国人は」
みたいなことで怒っているわけではないし、
ユーザの要求を聞き取って、具体的な仕様に落とすのが
システムエンジニアの仕事ではあるんだが、
自然言語処理の世界だと、「いやだー! いやだー!
そうじゃないんだー! うわぁぁぁぁぁぁぁ!」みたいな話で
ぶっ壊れる案件が多いというのは知っておくといい。
少なくとも金が自分の懐に入るまでは、油断しないほうがいい。
もっとも、その後で知的所有権がなんだかんだ、で懐から
金が出てゆくこともあるから油断はできないが。
「ビビンバ」は、「混ぜご飯」の意味で、発音は“pi-bim-pap”。
「ビビン麺」は、「混ぜ麺」の意味で、表記は “bi-bim-guk-su”。
だけど、「ピビンパ」とか「ビビン飯」とか変換するとダメだと言われ、
「ビビングスク」とか変換するとダメだと言われる。
「じゃあ、どうすればいいのか?」という話になると、
「それは説明できないが、とにかくそうなんだ」と言われる。
まぁ、そんな連中はいっぱいいるので、べつに「韓国人は」
みたいなことで怒っているわけではないし、
ユーザの要求を聞き取って、具体的な仕様に落とすのが
システムエンジニアの仕事ではあるんだが、
自然言語処理の世界だと、「いやだー! いやだー!
そうじゃないんだー! うわぁぁぁぁぁぁぁ!」みたいな話で
ぶっ壊れる案件が多いというのは知っておくといい。
少なくとも金が自分の懐に入るまでは、油断しないほうがいい。
もっとも、その後で知的所有権がなんだかんだ、で懐から
金が出てゆくこともあるから油断はできないが。
576デフォルトの名無しさん
2018/07/19(木) 20:01:12.43ID:DUpb208V >>564
> どうせ文法なんて人間の都合で勝手に名付けた物だったり
> ルールがあると錯覚してるだけだし
「だから説明できないけどおれが正しい」って言われても、
説得できないのが自然言語処理。
で、説得しようとすると、「あんたは日本語処理とかなんとか
言ってるけど、あんたは日本語がわかってない」と言われる。
それが日本語処理業界の現実。
> どうせ文法なんて人間の都合で勝手に名付けた物だったり
> ルールがあると錯覚してるだけだし
「だから説明できないけどおれが正しい」って言われても、
説得できないのが自然言語処理。
で、説得しようとすると、「あんたは日本語処理とかなんとか
言ってるけど、あんたは日本語がわかってない」と言われる。
それが日本語処理業界の現実。
577デフォルトの名無しさん
2018/07/19(木) 20:29:21.21ID:DUpb208V これは言いたかなかったけど、
「支配者の言語」というのがあって、「被支配者の言語」の
言語表現を規制するのが「規範文法」。で、被支配者の
言語表現に対して、「それは文法に適っていない」と言えるのは、
支配者の権利だとする思想がある。
それがあるんで、左派の言語学者は「文法なんてない」と主張するし、
おれは「すべての言語表現において普遍的な原則」としての
「高精度の記述文法」というのを考えたワケ。
だから、おれが「あんたの表現は文法的に間違ってるぞ?」と
言うときは、「そういう言い方だと、他の奴には通じないぞ?」と
いう意味で使ってる。で、精神科医は、そういう発話を「言葉のサラダ」
と謂うんだ。
「支配者の言語」というのがあって、「被支配者の言語」の
言語表現を規制するのが「規範文法」。で、被支配者の
言語表現に対して、「それは文法に適っていない」と言えるのは、
支配者の権利だとする思想がある。
それがあるんで、左派の言語学者は「文法なんてない」と主張するし、
おれは「すべての言語表現において普遍的な原則」としての
「高精度の記述文法」というのを考えたワケ。
だから、おれが「あんたの表現は文法的に間違ってるぞ?」と
言うときは、「そういう言い方だと、他の奴には通じないぞ?」と
いう意味で使ってる。で、精神科医は、そういう発話を「言葉のサラダ」
と謂うんだ。
578デフォルトの名無しさん
2018/07/19(木) 21:01:52.09ID:zpCf8yuT >言葉のサラダ
お医者さんにそういわれたのか
言われたんだろうな…
お医者さんにそういわれたのか
言われたんだろうな…
579デフォルトの名無しさん
2018/07/20(金) 03:36:24.54ID:1ksMRsUr >>568
それでも研究費が出るからぬくぬくしてるんじゃないの?
それでも研究費が出るからぬくぬくしてるんじゃないの?
580デフォルトの名無しさん
2018/07/20(金) 06:28:12.00ID:GozXxEHN >>579
たぶん、ぬくぬくはしてないと思う。全体のパイが
小さいから、研究費(あるいは科研費)の奪い合いが
熾烈なんだと思う。だから、足の引っ張り合いになるんだろう。
日本語が論理式(モンタギュー文法)にうまく落ちないとか
形態素解析の精度が上がらないとかいうことになると、
「日本語は非・論理的だ」「日本語の文法は不完全だ」みたいな
ことを言いだして、「大規模データを統計的に処理すれば …」
とかいって予算を取ろうとする。
だから、哲学(論理学が絡むとこっちに該当する)とか
記述文法なんかやってる奴が下手に成果なんか上げちゃったら、
そいつらが困る。
たぶん、ぬくぬくはしてないと思う。全体のパイが
小さいから、研究費(あるいは科研費)の奪い合いが
熾烈なんだと思う。だから、足の引っ張り合いになるんだろう。
日本語が論理式(モンタギュー文法)にうまく落ちないとか
形態素解析の精度が上がらないとかいうことになると、
「日本語は非・論理的だ」「日本語の文法は不完全だ」みたいな
ことを言いだして、「大規模データを統計的に処理すれば …」
とかいって予算を取ろうとする。
だから、哲学(論理学が絡むとこっちに該当する)とか
記述文法なんかやってる奴が下手に成果なんか上げちゃったら、
そいつらが困る。
581デフォルトの名無しさん
2018/07/20(金) 10:16:08.42ID:B9AYu9ui >>571
韓国人はピもビも同じ文字を使って区別しないで発音してるけど、日本人が聞くとピビンバに聞こえるんだな。どっちの表記が正しいってこともないけど表記揺れはちょっともやもやするな。
日本語でも「パパ」って発音したとき1個目のパは有気音、2個目のパは無気音で発音するので、韓国人にしてみれば同じカナなのに別の発音してるって感じるはず。
韓国人はピもビも同じ文字を使って区別しないで発音してるけど、日本人が聞くとピビンバに聞こえるんだな。どっちの表記が正しいってこともないけど表記揺れはちょっともやもやするな。
日本語でも「パパ」って発音したとき1個目のパは有気音、2個目のパは無気音で発音するので、韓国人にしてみれば同じカナなのに別の発音してるって感じるはず。
582デフォルトの名無しさん
2018/07/20(金) 13:02:25.01ID:CcJkjASV 別に困んないけど
本当にpracticalならともかく
本当にpracticalならともかく
583デフォルトの名無しさん
2018/07/20(金) 13:26:52.30ID:c77xM4ns 朝鮮人パカするな
584デフォルトの名無しさん
2018/07/20(金) 14:58:22.06ID:GozXxEHN >>581
まぁ、「マンガ」「メガネ」の「ガ」は鼻濁音だし、
「軍歌」の「カ」と「軍靴」の「カ」は違うんだけど
(後者は「クワ(ワは小さく)」)、普通の日本人は
気にせんのだけどな。
>>583
おれは朝鮮人と呼ばれてバカにされても一向に気にしない
(大陸顔なのは理解している。鹿賀 丈史とか米倉 斉加年が
代表的な大陸顔だ)。
必ずしもすべての朝鮮人が馬鹿ではないし
(例を思い浮かべられないのがなさけないが、
呉 善花は入れておいていいかもしれないと思う)、
すべての馬鹿が朝鮮人だという話でもない
(馬鹿な日本人は少なからずいる)。
力道山や大山倍達や大木金太郎については
コメントは控えておきたい。
まぁ、「マンガ」「メガネ」の「ガ」は鼻濁音だし、
「軍歌」の「カ」と「軍靴」の「カ」は違うんだけど
(後者は「クワ(ワは小さく)」)、普通の日本人は
気にせんのだけどな。
>>583
おれは朝鮮人と呼ばれてバカにされても一向に気にしない
(大陸顔なのは理解している。鹿賀 丈史とか米倉 斉加年が
代表的な大陸顔だ)。
必ずしもすべての朝鮮人が馬鹿ではないし
(例を思い浮かべられないのがなさけないが、
呉 善花は入れておいていいかもしれないと思う)、
すべての馬鹿が朝鮮人だという話でもない
(馬鹿な日本人は少なからずいる)。
力道山や大山倍達や大木金太郎については
コメントは控えておきたい。
585デフォルトの名無しさん
2018/07/20(金) 15:05:41.59ID:GozXxEHN 千田是也さんが、関東大震災のときに、「朝鮮人が叛乱を
企てている」というので自警団が検問をしているときに
引っかかって、「『水道局』と言ってみろ」と言われ、
滑舌が悪くて「しゅっ … しゅいどうこく!」と言ったら
「鮮(せん)だ、これは。」と言われたので、「千田是也」という
ペンネームを使っていたというのは有名な話。
企てている」というので自警団が検問をしているときに
引っかかって、「『水道局』と言ってみろ」と言われ、
滑舌が悪くて「しゅっ … しゅいどうこく!」と言ったら
「鮮(せん)だ、これは。」と言われたので、「千田是也」という
ペンネームを使っていたというのは有名な話。
586デフォルトの名無しさん
2018/07/20(金) 15:11:04.74ID:GozXxEHN 「おれは東京生まれの東京育ちで、日本橋の出身だから
訛りなんかない」と豪語していた奴が同僚にいたので、
「だったら『潮干狩り』って言ってみろ」と言ったら、
しばらく絶句してから、「しっ …… しおしがり!」って
言ってから勝手に落ち込んでた。
ちなみに江戸弁だと「ひよしがり」が正。
「鮭」は「しゃけ」、「朝日新聞」は「あさししんぶん」。
かな漢字変換用の辞書には登録しておくのが吉。
訛りなんかない」と豪語していた奴が同僚にいたので、
「だったら『潮干狩り』って言ってみろ」と言ったら、
しばらく絶句してから、「しっ …… しおしがり!」って
言ってから勝手に落ち込んでた。
ちなみに江戸弁だと「ひよしがり」が正。
「鮭」は「しゃけ」、「朝日新聞」は「あさししんぶん」。
かな漢字変換用の辞書には登録しておくのが吉。
587デフォルトの名無しさん
2018/07/20(金) 15:19:37.45ID:GozXxEHN あと、「蠅帳」は、正訓は「はえちょう」。江戸弁では「はいちょう」。
「蚊帳」は、日本中「かや」。
「棟梁」の正訓は「とうりょう」。江戸弁では「とうりゅう」。
「道了尊」は、「どうりょうそん」と「どうりゅうさん」。
形態素解析っていうのは、ここまでやって一丁前。
「蚊帳」は、日本中「かや」。
「棟梁」の正訓は「とうりょう」。江戸弁では「とうりゅう」。
「道了尊」は、「どうりょうそん」と「どうりゅうさん」。
形態素解析っていうのは、ここまでやって一丁前。
588デフォルトの名無しさん
2018/07/20(金) 15:29:07.28ID:GozXxEHN >>582
「義足とか義手とかなくても、別に困んないけど。
おれ健常者だし」
「べつにハングル表記とかなくても、別に困んないけど。
おれに帆人だし」
「本当にpracticalならともかく」。
あーやだやだ、想像力とか共感性のない奴は。
「自然言語処理とかなくても、別に困んないけど。
普通に言葉分かってるし」ってぇ話だろ?
「義足とか義手とかなくても、別に困んないけど。
おれ健常者だし」
「べつにハングル表記とかなくても、別に困んないけど。
おれに帆人だし」
「本当にpracticalならともかく」。
あーやだやだ、想像力とか共感性のない奴は。
「自然言語処理とかなくても、別に困んないけど。
普通に言葉分かってるし」ってぇ話だろ?
589デフォルトの名無しさん
2018/07/20(金) 17:35:58.98ID:GozXxEHN590デフォルトの名無しさん
2018/07/20(金) 17:40:15.50ID:GozXxEHN あと、昔の越後の人は「し」と「す」の区別がつかなくて、
「伸びた“シ”と結んだ“シ”」というんで区別してた。
「お寿司」と「お獅子」とかな。
「伸びた“シ”と結んだ“シ”」というんで区別してた。
「お寿司」と「お獅子」とかな。
591デフォルトの名無しさん
2018/07/20(金) 18:01:44.97ID:GozXxEHN 日本橋の『たいめいけん』の茂出木 心護さんが、
越後の出身者は「えちご」と「いちご」が発音上
区別できなくて、「ストロベリー」と云われて
馬鹿にされたという話を書いている。
越後の出身者は「えちご」と「いちご」が発音上
区別できなくて、「ストロベリー」と云われて
馬鹿にされたという話を書いている。
592デフォルトの名無しさん
2018/07/20(金) 18:34:54.69ID:GozXxEHN 正しい日本語処理。
「やってみてくれ」
⇒金融機関が借入金を引き上げようとしているので、
なんか儲かりそうな話をでっち上げてくれ。
「やってくれ」
⇒「できません」とか言ったらぶっ殺すぞ。とにかく
儲けを出せ。
「上からの GO が出た」
⇒逃げ支度が済むまで引っ張れ。
「君には失望させられたよ」
⇒ぜんぶお前の責任だ。お前が尻拭いをしろ。おれらは
知らない。
そんなもんですよ。
「やってみてくれ」
⇒金融機関が借入金を引き上げようとしているので、
なんか儲かりそうな話をでっち上げてくれ。
「やってくれ」
⇒「できません」とか言ったらぶっ殺すぞ。とにかく
儲けを出せ。
「上からの GO が出た」
⇒逃げ支度が済むまで引っ張れ。
「君には失望させられたよ」
⇒ぜんぶお前の責任だ。お前が尻拭いをしろ。おれらは
知らない。
そんなもんですよ。
593デフォルトの名無しさん
2018/07/20(金) 18:57:49.52ID:TZxtxi0x 連投してる奴いろいろ書いてるけど
他人に対して何か伝える文章じゃないな
結局何が言いたいのかぼんやりしたまま
他人に対して何か伝える文章じゃないな
結局何が言いたいのかぼんやりしたまま
594デフォルトの名無しさん
2018/07/20(金) 19:55:29.19ID:GozXxEHN 人工無脳が なんか言ってますよ。
ところで、「なさい」「ください」「いらっしゃい」とかは、
文法的にいうと、動詞の活用としては何形になるのかねぇ?
ところで、「なさい」「ください」「いらっしゃい」とかは、
文法的にいうと、動詞の活用としては何形になるのかねぇ?
595デフォルトの名無しさん
2018/07/20(金) 20:02:56.67ID:GozXxEHN >>593
> 連投してる奴いろいろ書いてるけど
> 他人に対して何か伝える文章じゃないな
> 結局何が言いたいのかぼんやりしたまま
「 連投して(い)る奴(が)いろいろ(と)書いて(い)る[けど
(=「けれども」)]、他人に対して何か(を)伝え(「ようとしてい」?/
「られ」?)る文章[じゃ(=「では」の口語的に崩れた形)]ないな
結局、何が言いたいのか(が)ぼんやりしたまま(の)(何か)(だ)」 。
こんな屑な人口無脳を作った馬鹿は、どこの大学のどこの研究室の所属だ。
> 連投してる奴いろいろ書いてるけど
> 他人に対して何か伝える文章じゃないな
> 結局何が言いたいのかぼんやりしたまま
「 連投して(い)る奴(が)いろいろ(と)書いて(い)る[けど
(=「けれども」)]、他人に対して何か(を)伝え(「ようとしてい」?/
「られ」?)る文章[じゃ(=「では」の口語的に崩れた形)]ないな
結局、何が言いたいのか(が)ぼんやりしたまま(の)(何か)(だ)」 。
こんな屑な人口無脳を作った馬鹿は、どこの大学のどこの研究室の所属だ。
596デフォルトの名無しさん
2018/07/20(金) 20:05:19.46ID:GozXxEHN597デフォルトの名無しさん
2018/07/20(金) 20:41:02.84ID:TZxtxi0x598デフォルトの名無しさん
2018/07/20(金) 20:53:07.41ID:GozXxEHN >>597
> 自然な省略だろ
自然言語処理をやっているなら、何が自然なのかを説明してくれ。
>>かねぇ?
>ってのは口語的に崩れた形だろうが
そんな甘いツッコミを入れられてもサムいだけだ。
まぁ、ここのところ猛暑が続いているからご愛敬だけどな。
「動詞の活用としては何形になるのかねぇ?」
だったら、
「動詞の活用としては、何形になる(の)(でしょう)かねぇ?」
とツッコんでほしかった。「なる」は連体形だから、その後に何かが
省略していないと文が完結しないので、そのあとに「体言+コピュラ」が
省略されている、と推測するのが正解、くらいのツッコミが入ったら、
おれも素直に頭を下げられるんだが。
ついでながら、「ってのは」は「というのは」の、口語的に崩れた形だ。
> 自然な省略だろ
自然言語処理をやっているなら、何が自然なのかを説明してくれ。
>>かねぇ?
>ってのは口語的に崩れた形だろうが
そんな甘いツッコミを入れられてもサムいだけだ。
まぁ、ここのところ猛暑が続いているからご愛敬だけどな。
「動詞の活用としては何形になるのかねぇ?」
だったら、
「動詞の活用としては、何形になる(の)(でしょう)かねぇ?」
とツッコんでほしかった。「なる」は連体形だから、その後に何かが
省略していないと文が完結しないので、そのあとに「体言+コピュラ」が
省略されている、と推測するのが正解、くらいのツッコミが入ったら、
おれも素直に頭を下げられるんだが。
ついでながら、「ってのは」は「というのは」の、口語的に崩れた形だ。
599デフォルトの名無しさん
2018/07/20(金) 20:58:35.72ID:GozXxEHN >>597
> お前も人工無能な
文脈としては、
×人工無能
〇人工無脳
だと思うが。“も”っていうことは、お前は無能なんだな?
おれが人工無脳だったら、製作者はとっくにチューリング賞を
獲っとるわ。
> お前も人工無能な
文脈としては、
×人工無能
〇人工無脳
だと思うが。“も”っていうことは、お前は無能なんだな?
おれが人工無脳だったら、製作者はとっくにチューリング賞を
獲っとるわ。
600デフォルトの名無しさん
2018/07/20(金) 21:25:48.02ID:GozXxEHN くそう。叱られちゃったい。
> ないな
「ない(体言:省略)(コピュラ:省略)な」
> ぼんやりした
「ぼんやり(と:省略)した」
が正解。
> ないな
「ない(体言:省略)(コピュラ:省略)な」
> ぼんやりした
「ぼんやり(と:省略)した」
が正解。
601デフォルトの名無しさん
2018/07/20(金) 22:01:12.70ID:1ksMRsUr しよはしよじゃないの?
602デフォルトの名無しさん
2018/07/21(土) 06:57:48.94ID:HTyh/4m5603デフォルトの名無しさん
2018/07/21(土) 07:37:00.82ID:c9/IgS/z >>602
事実と意見は区別しないと、論文は通らないぞ?
事実と意見は区別しないと、論文は通らないぞ?
604デフォルトの名無しさん
2018/07/22(日) 06:53:00.75ID:HlH3bx5P >>そんな甘いツッコミ
> お前が自分に甘いだけだろ
> だから馬鹿なんだよ
せっかくだから自然言語処理に関係のある話をしておこう。
形容詞は暗黙の主語として話者を要求する。「>>602 は恥ずかしい奴だ」は
「>>602 は自分を恥じている」を含意しない。「>>602 は(話者である)私を
して“恥ずかしい”と感じせしめる人物である」という意味を内包している。
また、「とりたて詞『が』は強調転置を起こす」ので、
「お前が自分に甘い」は「自分に甘いお前」を含意するが、たいていの奴は
自分に甘い。
「だから馬鹿なんだよ」は、「だから」と「馬鹿」のどちらに強意があるかが
字面からは読み取れない。前者だとすると、「馬鹿」という概念が
すでに所与のものとしてあり、前提から導出が可能だ、と主張している
ことになるが、後者では、「馬鹿」というのは文中にトピックとして
出てきたことになる。
> お前が自分に甘いだけだろ
> だから馬鹿なんだよ
せっかくだから自然言語処理に関係のある話をしておこう。
形容詞は暗黙の主語として話者を要求する。「>>602 は恥ずかしい奴だ」は
「>>602 は自分を恥じている」を含意しない。「>>602 は(話者である)私を
して“恥ずかしい”と感じせしめる人物である」という意味を内包している。
また、「とりたて詞『が』は強調転置を起こす」ので、
「お前が自分に甘い」は「自分に甘いお前」を含意するが、たいていの奴は
自分に甘い。
「だから馬鹿なんだよ」は、「だから」と「馬鹿」のどちらに強意があるかが
字面からは読み取れない。前者だとすると、「馬鹿」という概念が
すでに所与のものとしてあり、前提から導出が可能だ、と主張している
ことになるが、後者では、「馬鹿」というのは文中にトピックとして
出てきたことになる。
605デフォルトの名無しさん
2018/07/22(日) 07:05:30.26ID:HlH3bx5P 日本人動物学者「こいつは馬鹿だ!」
満州アカシカ「いかにも私は馬鹿です」
満州アカシカ「いかにも私は馬鹿です」
606デフォルトの名無しさん
2018/07/22(日) 09:01:24.76ID:HlH3bx5P 日本語には体言の省略が多い(ただし異論はある)。
ただ、「その、省略された対象が何か」を推定するのに、
シソーラスと「その名詞にはどういう性質(内包的な意味)が
付与されているか」というデータが必要になってくる。
仮に百科語を二万語として、それだけのシソーラスを
作るのは並大抵の労力ではない。
そうすると、なにか限定されたジャンル(医学とか、化学とか)を
扱うしかなくなってくるが、それだと一般性が乏しくなる。
中学・高校あたりの理科系分野とかに狙いをつけるのが
いいんだろうか。
素人向けの医学・薬学・栄養学的な知識、というのも
考えたんだけど、厳密な体系にならないんだよね。
ただ、「その、省略された対象が何か」を推定するのに、
シソーラスと「その名詞にはどういう性質(内包的な意味)が
付与されているか」というデータが必要になってくる。
仮に百科語を二万語として、それだけのシソーラスを
作るのは並大抵の労力ではない。
そうすると、なにか限定されたジャンル(医学とか、化学とか)を
扱うしかなくなってくるが、それだと一般性が乏しくなる。
中学・高校あたりの理科系分野とかに狙いをつけるのが
いいんだろうか。
素人向けの医学・薬学・栄養学的な知識、というのも
考えたんだけど、厳密な体系にならないんだよね。
607デフォルトの名無しさん
2018/07/22(日) 12:40:16.29ID:HlH3bx5P >>606
もうひとつ、述語の中心である動詞の場合、要求する
「文法的な格」がどのようなものであるか、が明らかであって、
しかも「かかる」相手がどういうカテゴリーにあるか、というのが
分らないと、体言に附属した助詞が省略された場合に、「述語から
要求される文法格」が何であるかを推定できないんですよね。
「彼、スパゲティ、食べた」が、「彼はスパゲティを食べた」なのか
「スパゲティが彼を食べた」なのかは決定不能なのね。
「コタツが葬儀屋を食べた」は無意味文になりそうだけど、
映画『バトルヒーター』(一九八九)という文脈があったら、
「意味がある」と判断されると思うんだけど。
もうひとつ、述語の中心である動詞の場合、要求する
「文法的な格」がどのようなものであるか、が明らかであって、
しかも「かかる」相手がどういうカテゴリーにあるか、というのが
分らないと、体言に附属した助詞が省略された場合に、「述語から
要求される文法格」が何であるかを推定できないんですよね。
「彼、スパゲティ、食べた」が、「彼はスパゲティを食べた」なのか
「スパゲティが彼を食べた」なのかは決定不能なのね。
「コタツが葬儀屋を食べた」は無意味文になりそうだけど、
映画『バトルヒーター』(一九八九)という文脈があったら、
「意味がある」と判断されると思うんだけど。
608デフォルトの名無しさん
2018/07/23(月) 08:38:44.41ID:8XnpjG9G 一時期「ら抜き」が問題になってたけど、
「可能」と「尊敬」を区別できるという
メリットがあるので、一概に否定はできないと
思っている。だったら「れる」を「ことが可能である」と
入力時に機械的に置き換える(あるいは変換候補として出す)
くらいの芸はできんのか、とは思う。
一行めの「なってた」も「なっていた」が候補に出ていいし、
「あっさりした」も「あっさりとした」が正のはず。
入力時にチェックするのは難しいにしても、
テキストデータをチェックするくらいは簡単なように
思われるんだけどね。
「可能」と「尊敬」を区別できるという
メリットがあるので、一概に否定はできないと
思っている。だったら「れる」を「ことが可能である」と
入力時に機械的に置き換える(あるいは変換候補として出す)
くらいの芸はできんのか、とは思う。
一行めの「なってた」も「なっていた」が候補に出ていいし、
「あっさりした」も「あっさりとした」が正のはず。
入力時にチェックするのは難しいにしても、
テキストデータをチェックするくらいは簡単なように
思われるんだけどね。
609デフォルトの名無しさん
2018/07/23(月) 12:57:40.81ID:8XnpjG9G610デフォルトの名無しさん
2018/07/27(金) 14:22:16.44ID:q3ebuKRa 本番過ぎちゃったので時期遅れですが
You might or more heard a two fishes.
You might or more heard a two fishes.
611デフォルトの名無しさん
2018/07/27(金) 14:25:38.80ID:q3ebuKRa >>610
ダメだ。暑気中りが治ってない。
×You might or more heard a two fishes.
〇You might or more heard today's a two fishes.
冬バージョン
You might or more heard today's some fishes.
ダメだ。暑気中りが治ってない。
×You might or more heard a two fishes.
〇You might or more heard today's a two fishes.
冬バージョン
You might or more heard today's some fishes.
612デフォルトの名無しさん
2018/07/27(金) 20:23:15.22ID:dNDh2QHO■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 橋下徹氏 外務省幹部の訪中受け「口だけ番長」へ痛烈指摘 「喧嘩は日本の完敗…なんとかっこ悪い日本か」 [冬月記者★]
- 【外国人問題】小野田紀美担当相「不法就労や不法滞在は許さない」 [シャチ★]
- 【野球】井端監督 大谷翔平、山本由伸らのWBCへの参加 「1日も早く返事ほしい」「待っててといっても、国内組が遅くなってしまう」★3 [冬月記者★]
- 経団連会長、日中は建設的対話を 経済3団体が高市首相と初会談も日中関係は話題に登らず… [BFU★]
- 中国で「クレしん」公開延期 対日報復、エンタメに波及 [蚤の市★]
- 東京株式市場 インバウンド関連株が下落 中国政府の渡航自粛要請で [バイト歴50年★]
- 有識者「高市総理が発言を撤回したり、辞職するしかないと言っている人は、それで日中関係が今まで通りになると思ってる?」 [834922174]
- 戦争は無くならないし殺人は起きるし女はレイプされるし子供は餓死するし
- 中共は台湾を自分の領土と思ってるから外国が「侵略するな」と警告しても意味ないんだよね
- 🏡
- スマホってスクリーントーンみにくくね?
- ( ´・ω・` )朝ですぞー
