前前スレ 自然言語処理スレッド その2
http://mimizun.com/log/2ch/tech/1173105287/
前スレ 自然言語処理スレッド その3
http://mimizun.com/log/2ch/tech/1235129481/
このスレッドでは、日本語の構文解析、談話理解、情報検索、
文章生成などの技術に関する理論と(おもに)実装を扱います。
あくまでアプリケーションプログラミングの技術的な面に重点をおきたいので、
学術的な話はアリですが、いわゆる人工無能や哲学的AI話、
言語学の話題などは他のスレッドでお願いします。
探検
自然言語処理スレッド その4
■ このスレッドは過去ログ倉庫に格納されています
1デフォルトの名無しさん
2014/06/03(火) 05:40:00.54ID:yefNLumx539Mb
2018/07/16(月) 21:14:19.70ID:RFTF6J3p >>536
“じつは”というか、“ぶっちゃけ”というか、
もう四半世紀(要するに二十五年以上)前から、
そこいらにあるパソコンの(形態素解析レベルの)チェック
能力は、人間を軽く超えているんだよ。
ただ、構文解析に関しては、国語学とか自然言語処理とか
数学とかコンピュータサイエンスとか認知心理学とか、
そのあたりの合意がとれてないわけよ。
だから、そのあたりを整理する必要があるわけなんだけど、
苫米地 英人とかが引っ掻き回しやがってバカヤロウ、
みたいな話があるんだわ。
“じつは”というか、“ぶっちゃけ”というか、
もう四半世紀(要するに二十五年以上)前から、
そこいらにあるパソコンの(形態素解析レベルの)チェック
能力は、人間を軽く超えているんだよ。
ただ、構文解析に関しては、国語学とか自然言語処理とか
数学とかコンピュータサイエンスとか認知心理学とか、
そのあたりの合意がとれてないわけよ。
だから、そのあたりを整理する必要があるわけなんだけど、
苫米地 英人とかが引っ掻き回しやがってバカヤロウ、
みたいな話があるんだわ。
540Mb
2018/07/16(月) 21:24:18.35ID:RFTF6J3p >>538
そもそも先人の業績をないがしろにしてるところが
気にくわんのだよ。
処理はできるんだが、その結果が「気に食わん」という奴が
いるわけだ。
「文法格の一意性」とか「非交差則」とか言うと、
学会で「こいつ GC とか信じてやがる pgr」とか云われるんだよ。
そもそも先人の業績をないがしろにしてるところが
気にくわんのだよ。
処理はできるんだが、その結果が「気に食わん」という奴が
いるわけだ。
「文法格の一意性」とか「非交差則」とか言うと、
学会で「こいつ GC とか信じてやがる pgr」とか云われるんだよ。
541Mb
2018/07/16(月) 21:28:39.50ID:RFTF6J3p >>540
× GC
〇 CG
汎文法(common grammer)な。
「文を構成するのは述語である」とか、
「述語に対する役割が、文法格である」とかいった、
「言語には、基本的な構成要素がある」っていう
構造主義的な立場だ。
× GC
〇 CG
汎文法(common grammer)な。
「文を構成するのは述語である」とか、
「述語に対する役割が、文法格である」とかいった、
「言語には、基本的な構成要素がある」っていう
構造主義的な立場だ。
542デフォルトの名無しさん
2018/07/16(月) 21:48:34.53ID:LulkQD8r 文法よりまずおまえの頭を整理したほうがいいきがする
結局なにゆーてんかわからん
結局なにゆーてんかわからん
543Mb
2018/07/16(月) 22:09:23.58ID:RFTF6J3p >>542
とりあえず、トポロジーとかカタストロフィ理論とかから
勉強してきてくれるとありがたいんだが。
一から説明してると面倒臭いんだわ。
「私はラーメンを餃子を喰う」とは言わんだろ?
「私はラーメンと餃子を喰う」んだわ。
「喰う」という動詞に対して、文法格を
持つ対象は一意なんだよ。だから、「ラーメンと餃子」というふうに、
集合体になってるわけ。これが、「文法格の一意性」。
とりあえず、トポロジーとかカタストロフィ理論とかから
勉強してきてくれるとありがたいんだが。
一から説明してると面倒臭いんだわ。
「私はラーメンを餃子を喰う」とは言わんだろ?
「私はラーメンと餃子を喰う」んだわ。
「喰う」という動詞に対して、文法格を
持つ対象は一意なんだよ。だから、「ラーメンと餃子」というふうに、
集合体になってるわけ。これが、「文法格の一意性」。
544デフォルトの名無しさん
2018/07/16(月) 22:12:55.13ID:LulkQD8r 2行目で頭がフットーした
絶対おれの知識不足じゃなくてお前の話し方に問題がある
絶対おれの知識不足じゃなくてお前の話し方に問題がある
545Mb
2018/07/16(月) 22:12:55.55ID:RFTF6J3p >>542
でもって、昔(文語文法)は形容詞は述語になってたんだが、
いまの文法(いわゆる学校文法)では、形容詞は述語に
ならんのよ。だから、
「象は鼻が長い」
は、「述語がないのに主語が二つもあるのはおかしい!」という
批判が出てるわけ。
おわかりか?
でもって、昔(文語文法)は形容詞は述語になってたんだが、
いまの文法(いわゆる学校文法)では、形容詞は述語に
ならんのよ。だから、
「象は鼻が長い」
は、「述語がないのに主語が二つもあるのはおかしい!」という
批判が出てるわけ。
おわかりか?
546デフォルトの名無しさん
2018/07/16(月) 22:28:36.42ID:LulkQD8r 文法の細かいことはほとんどわからんが
ようはその文法格とかをメインに考えてきたおまいらの方針が
AIとかの漠然とした解析方法に押されて消えちゃいそうで
危機感を感じて発狂してるということなのか?
ようはその文法格とかをメインに考えてきたおまいらの方針が
AIとかの漠然とした解析方法に押されて消えちゃいそうで
危機感を感じて発狂してるということなのか?
547デフォルトの名無しさん
2018/07/16(月) 22:55:46.12ID:LulkQD8r 批判ってつまり
今の文法格の考え方じゃ対処できてないじゃんって
おまいさんが突っ込まれたってことだよね
誰かが日本語の文法批判してるみたいじゃねーかまぎらわしい
それともなにか
本当に教育に干渉して日本語の文法に変更を加えようとしてるのか
今の文法格の考え方じゃ対処できてないじゃんって
おまいさんが突っ込まれたってことだよね
誰かが日本語の文法批判してるみたいじゃねーかまぎらわしい
それともなにか
本当に教育に干渉して日本語の文法に変更を加えようとしてるのか
548Mb
2018/07/17(火) 09:14:36.43ID:iAzNVHws >>547
> 誰かが日本語の文法批判してるみたいじゃねーか
> まぎらわしい
国語学者が中学校の現代国語で教えられている
「いわゆる学校文法」を批判してるんだよ。
「学校文法 批判」でググると五十万件以上
ヒットするから読んでみるといい。
特に、文語文法を教えてる先生は、言葉が通じなくて
頭を抱えてる。
> 誰かが日本語の文法批判してるみたいじゃねーか
> まぎらわしい
国語学者が中学校の現代国語で教えられている
「いわゆる学校文法」を批判してるんだよ。
「学校文法 批判」でググると五十万件以上
ヒットするから読んでみるといい。
特に、文語文法を教えてる先生は、言葉が通じなくて
頭を抱えてる。
549Mb
2018/07/17(火) 09:25:46.63ID:iAzNVHws >>546
つーか、自然言語処理自体が AI の一分野なんだよ。
だけど、事前言語処理をやっている人間の多くは
學校文法の延長でしか日本語の文法を捉えていないので、
日本語処理の技術の進歩が停滞しとるのよ。
つーか、自然言語処理自体が AI の一分野なんだよ。
だけど、事前言語処理をやっている人間の多くは
學校文法の延長でしか日本語の文法を捉えていないので、
日本語処理の技術の進歩が停滞しとるのよ。
550Mb
2018/07/17(火) 09:28:18.11ID:iAzNVHws551Mb
2018/07/17(火) 09:34:38.84ID:iAzNVHws なお、本居春庭が悪いとか、橋本進吉が悪いとかいう話ではない
(大野晋先生は橋本進吉先生の弟子)。
中学校の文法教育が、文法嫌いを六十年以上拡大再生産
しているのが悪い、っちゅー話。
(大野晋先生は橋本進吉先生の弟子)。
中学校の文法教育が、文法嫌いを六十年以上拡大再生産
しているのが悪い、っちゅー話。
552デフォルトの名無しさん
2018/07/17(火) 14:03:22.52ID:ejUOYbm+ いまどきAIの分野でない自然言語処理なんてあるの?
553Mb
2018/07/17(火) 14:40:42.81ID:iAzNVHws >>552
ある。「かな漢字変換」とか「ローマ字かな変換」とかな。
「programwo」は、本来なら「プログラム(program)を」と
変換してほしいところだが、「pろgらmを」と変換される。
これを「AI の限界」とか言ってる奴も多いが、
技術的にはすでに解決されてる。
ある。「かな漢字変換」とか「ローマ字かな変換」とかな。
「programwo」は、本来なら「プログラム(program)を」と
変換してほしいところだが、「pろgらmを」と変換される。
これを「AI の限界」とか言ってる奴も多いが、
技術的にはすでに解決されてる。
554Mb
2018/07/17(火) 14:50:17.21ID:iAzNVHws >>552
かな漢字変換システムの形容詞の辞書登録で、
「i」とか「e」とかで終わる形容詞を登録してみ?
「i」終わりは「みみっちい」「ばっちい(ばばっちい)」
くらいしか存在しないので、登録時のチェックで注意喚起
してくれるのが正しいありかただ。
「e」末尾は、「かそけき」「さやけき」「むくつけき」「猛き」
あたりが該当するが、現代語の連体形が存在しないので、
「かそけい」「さやけい」「むくつけい」「猛い」が
変換候補として出てきたときに腹が立つかどうか、という
話になる。
かな漢字変換システムの形容詞の辞書登録で、
「i」とか「e」とかで終わる形容詞を登録してみ?
「i」終わりは「みみっちい」「ばっちい(ばばっちい)」
くらいしか存在しないので、登録時のチェックで注意喚起
してくれるのが正しいありかただ。
「e」末尾は、「かそけき」「さやけき」「むくつけき」「猛き」
あたりが該当するが、現代語の連体形が存在しないので、
「かそけい」「さやけい」「むくつけい」「猛い」が
変換候補として出てきたときに腹が立つかどうか、という
話になる。
555Mb
2018/07/17(火) 14:55:42.16ID:iAzNVHws でもって、自然言語処理というのは、一般的に
「形態素解析ができて、それを構文解析したときに、
正しい(ちゅーか、実用的な)解析木(ちゅーか、
情報処理するときに扱いやすいデータ構造)に落ちるか
どうか」が勝負なんだよ。
だけど、「そんな解析木は認めない!」ていって
頑張っている奴が業界を押さえていると、日本語処理
っていうもの自体が成り立たなくなるわけだ。
だから、「まず、記述文法から交通整理しよう」っちゅー
話をしとるわけよ。
「形態素解析ができて、それを構文解析したときに、
正しい(ちゅーか、実用的な)解析木(ちゅーか、
情報処理するときに扱いやすいデータ構造)に落ちるか
どうか」が勝負なんだよ。
だけど、「そんな解析木は認めない!」ていって
頑張っている奴が業界を押さえていると、日本語処理
っていうもの自体が成り立たなくなるわけだ。
だから、「まず、記述文法から交通整理しよう」っちゅー
話をしとるわけよ。
556Mb
2018/07/17(火) 15:08:30.84ID:iAzNVHws 「日本人は髪が黒い」という表現は、「黒い」が「髪」を連体修飾
してて、「髪」がとりたてによって強調されているから、「黒い」
の前に出てきて、とりたて詞「が」が用いられる、って言っただけで、
学会で吊るし上げを喰らうんだぞ?
で、まともな反論が返ってくるならともかく、
「くぁwせdrftgyふじこふじこふじこ!」
みたいなコトになるんだぞ?
「いや、ちゃんと動いてるシステムがあるんですが」とか
言っても、「あーあーあーあーあー聞こえない聞こえない聞こえなーい」
みたいな反応しか返ってこないんだぞ?
だけど、普通の研究者は逆らえないんだ。そういう連中は、大っぴらには
言えんけど大きな企業で国の予算を貰っていて、その一部をスポンサーとして
研究機関に流してるところから来た、背広着てネクタイ締めて学会に来てる
ような連中だからだ。
「日本語処理が実用化されたりなんかしたら、研究費が出なくなって
自分らが干上がる」というのを知っている連中が、日本語処理業界に
巣食ってるんだよ。
してて、「髪」がとりたてによって強調されているから、「黒い」
の前に出てきて、とりたて詞「が」が用いられる、って言っただけで、
学会で吊るし上げを喰らうんだぞ?
で、まともな反論が返ってくるならともかく、
「くぁwせdrftgyふじこふじこふじこ!」
みたいなコトになるんだぞ?
「いや、ちゃんと動いてるシステムがあるんですが」とか
言っても、「あーあーあーあーあー聞こえない聞こえない聞こえなーい」
みたいな反応しか返ってこないんだぞ?
だけど、普通の研究者は逆らえないんだ。そういう連中は、大っぴらには
言えんけど大きな企業で国の予算を貰っていて、その一部をスポンサーとして
研究機関に流してるところから来た、背広着てネクタイ締めて学会に来てる
ような連中だからだ。
「日本語処理が実用化されたりなんかしたら、研究費が出なくなって
自分らが干上がる」というのを知っている連中が、日本語処理業界に
巣食ってるんだよ。
557デフォルトの名無しさん
2018/07/17(火) 15:53:21.98ID:EeLIetXI558デフォルトの名無しさん
2018/07/17(火) 16:56:24.01ID:GZ88p15f 原子力学会かよ
560Mb
2018/07/17(火) 17:17:24.52ID:iAzNVHws で、益岡 隆志/田窪 行則『基礎日本語文法』以外の文法は
認められないんだ。
なぜかというと、JUMAN や ChaSen や MeCab とかを
いじくって「日本語処理やってまーす」つってアピールして
予算貰って生きてくしかないからだ。
認められないんだ。
なぜかというと、JUMAN や ChaSen や MeCab とかを
いじくって「日本語処理やってまーす」つってアピールして
予算貰って生きてくしかないからだ。
561デフォルトの名無しさん
2018/07/17(火) 20:17:31.80ID:4Y4cMBMm どうせ構文解析器なんて要らなくなるよ
不毛な議論
不毛な議論
562Mb
2018/07/17(火) 20:31:47.87ID:iAzNVHws でまぁ、本筋に戻るんだが、
現代日本語の動詞と形容詞の終止形(連体形と形は同じ)は、
じつは連体形の終止用法で、その後に体言とコピュラが
省略されていると考えると、処理も楽だし解析木も
ややこしくならない。試してみりゃあすぐ解る。
だけど、これを大声で言うと冷や飯を食わされるやら
煮え湯を飲まされるやら、いろんな目にあう。
現代日本語の動詞と形容詞の終止形(連体形と形は同じ)は、
じつは連体形の終止用法で、その後に体言とコピュラが
省略されていると考えると、処理も楽だし解析木も
ややこしくならない。試してみりゃあすぐ解る。
だけど、これを大声で言うと冷や飯を食わされるやら
煮え湯を飲まされるやら、いろんな目にあう。
563Mb
2018/07/17(火) 20:47:58.86ID:iAzNVHws >>561
まぁ、「データが木構造なんで、図で説明するのに
便利」っちゅー以上の意味はないわな。
「修飾関係が交差しない」から、木の形で
描ける、つーだけの話だし。
フローチャートと同じで、滅んだほうがいい
文化かもしれん。
まぁ、「データが木構造なんで、図で説明するのに
便利」っちゅー以上の意味はないわな。
「修飾関係が交差しない」から、木の形で
描ける、つーだけの話だし。
フローチャートと同じで、滅んだほうがいい
文化かもしれん。
564デフォルトの名無しさん
2018/07/18(水) 17:42:01.84ID:r2tNZQmN565デフォルトの名無しさん
2018/07/18(水) 18:58:52.59ID:nFdzt/yd >>564
ところが、「ハナモゲラ語」とか「言葉のサラダ」とか、
そういうのが、コンピュータで生成しようとしても
面白くならないんだよなぁ。
「ある」のは分ってるんだが、それが「何なのか」っつーのが
わからないのが文法の面白いところなのよ。
ところが、「ハナモゲラ語」とか「言葉のサラダ」とか、
そういうのが、コンピュータで生成しようとしても
面白くならないんだよなぁ。
「ある」のは分ってるんだが、それが「何なのか」っつーのが
わからないのが文法の面白いところなのよ。
566デフォルトの名無しさん
2018/07/19(木) 11:52:00.94ID:ZMW1ym8c ランダムでやってもつまらんだろ
567デフォルトの名無しさん
2018/07/19(木) 13:27:00.87ID:DUpb208V >>566
だな。つまらん。
n-gram 法の単純なやつで、2-gram 法でウケてた時代も
あったんだが(筒井康隆『狂気の沙汰も金次第』参照)、
いまどきはそれで笑いは取れん。
昨今はスパムフィルタを潜り抜けるための
ネタでしかない。
自然言語処理の研究者は何をやってるんだ、という
怒りが消えない。
だな。つまらん。
n-gram 法の単純なやつで、2-gram 法でウケてた時代も
あったんだが(筒井康隆『狂気の沙汰も金次第』参照)、
いまどきはそれで笑いは取れん。
昨今はスパムフィルタを潜り抜けるための
ネタでしかない。
自然言語処理の研究者は何をやってるんだ、という
怒りが消えない。
568デフォルトの名無しさん
2018/07/19(木) 13:31:36.20ID:DUpb208V つーか、東工大とかお茶の水女子大とかは、
「自然言語処理」っつって何をやってるんだ、
という怒りがある。
正直、いっぺん行ってシメてきたほうが
いいような気がする。
「自然言語処理」っつって何をやってるんだ、
という怒りがある。
正直、いっぺん行ってシメてきたほうが
いいような気がする。
569デフォルトの名無しさん
2018/07/19(木) 13:51:07.59ID:yj8RkDmG 日本以外の国ではどうなん?自然言語処理。
570デフォルトの名無しさん
2018/07/19(木) 15:32:56.09ID:DUpb208V >>569
日本語みたいに膠着語の国が少ないので、
もうちょい楽。
ただ、わりと手に負えないのが韓国語と
インド諸語かな?
インドは英語が普及してるんで、あんまり
自国語(つーても方言が多いので、何が
なんやら分らんのだが)の自然言語処理には
熱心じゃないらしい。
韓国は、とにかくハングルの字母の数が多いうえに、
正書法が確立しとらんのだよ。
「子音+母音+子音」でカナ一個の文字なんで、
単純に子音が十個で母音が五個としても、カナが
五百個ある勘定になる。
日本語みたいに膠着語の国が少ないので、
もうちょい楽。
ただ、わりと手に負えないのが韓国語と
インド諸語かな?
インドは英語が普及してるんで、あんまり
自国語(つーても方言が多いので、何が
なんやら分らんのだが)の自然言語処理には
熱心じゃないらしい。
韓国は、とにかくハングルの字母の数が多いうえに、
正書法が確立しとらんのだよ。
「子音+母音+子音」でカナ一個の文字なんで、
単純に子音が十個で母音が五個としても、カナが
五百個ある勘定になる。
571デフォルトの名無しさん
2018/07/19(木) 15:51:30.42ID:DUpb208V ハングルは使い慣れると便利っつーのは
分るんだけど、できればローマ字表記を
確立してほしい。
「ピビン麺」と「ビビンバ」を並べて
見るとイラッとくる。
分るんだけど、できればローマ字表記を
確立してほしい。
「ピビン麺」と「ビビンバ」を並べて
見るとイラッとくる。
572デフォルトの名無しさん
2018/07/19(木) 16:31:30.15ID:OaLdX1mQ 連投してる奴が何に対して怒ってるのか分からん
現状を打破する何かを自分で開発すればいいだけだろ
現状を打破する何かを自分で開発すればいいだけだろ
573デフォルトの名無しさん
2018/07/19(木) 17:56:05.63ID:DUpb208V574デフォルトの名無しさん
2018/07/19(木) 18:24:18.12ID:OaLdX1mQ575デフォルトの名無しさん
2018/07/19(木) 19:54:40.83ID:DUpb208V >>574
「ビビンバ」は、「混ぜご飯」の意味で、発音は“pi-bim-pap”。
「ビビン麺」は、「混ぜ麺」の意味で、表記は “bi-bim-guk-su”。
だけど、「ピビンパ」とか「ビビン飯」とか変換するとダメだと言われ、
「ビビングスク」とか変換するとダメだと言われる。
「じゃあ、どうすればいいのか?」という話になると、
「それは説明できないが、とにかくそうなんだ」と言われる。
まぁ、そんな連中はいっぱいいるので、べつに「韓国人は」
みたいなことで怒っているわけではないし、
ユーザの要求を聞き取って、具体的な仕様に落とすのが
システムエンジニアの仕事ではあるんだが、
自然言語処理の世界だと、「いやだー! いやだー!
そうじゃないんだー! うわぁぁぁぁぁぁぁ!」みたいな話で
ぶっ壊れる案件が多いというのは知っておくといい。
少なくとも金が自分の懐に入るまでは、油断しないほうがいい。
もっとも、その後で知的所有権がなんだかんだ、で懐から
金が出てゆくこともあるから油断はできないが。
「ビビンバ」は、「混ぜご飯」の意味で、発音は“pi-bim-pap”。
「ビビン麺」は、「混ぜ麺」の意味で、表記は “bi-bim-guk-su”。
だけど、「ピビンパ」とか「ビビン飯」とか変換するとダメだと言われ、
「ビビングスク」とか変換するとダメだと言われる。
「じゃあ、どうすればいいのか?」という話になると、
「それは説明できないが、とにかくそうなんだ」と言われる。
まぁ、そんな連中はいっぱいいるので、べつに「韓国人は」
みたいなことで怒っているわけではないし、
ユーザの要求を聞き取って、具体的な仕様に落とすのが
システムエンジニアの仕事ではあるんだが、
自然言語処理の世界だと、「いやだー! いやだー!
そうじゃないんだー! うわぁぁぁぁぁぁぁ!」みたいな話で
ぶっ壊れる案件が多いというのは知っておくといい。
少なくとも金が自分の懐に入るまでは、油断しないほうがいい。
もっとも、その後で知的所有権がなんだかんだ、で懐から
金が出てゆくこともあるから油断はできないが。
576デフォルトの名無しさん
2018/07/19(木) 20:01:12.43ID:DUpb208V >>564
> どうせ文法なんて人間の都合で勝手に名付けた物だったり
> ルールがあると錯覚してるだけだし
「だから説明できないけどおれが正しい」って言われても、
説得できないのが自然言語処理。
で、説得しようとすると、「あんたは日本語処理とかなんとか
言ってるけど、あんたは日本語がわかってない」と言われる。
それが日本語処理業界の現実。
> どうせ文法なんて人間の都合で勝手に名付けた物だったり
> ルールがあると錯覚してるだけだし
「だから説明できないけどおれが正しい」って言われても、
説得できないのが自然言語処理。
で、説得しようとすると、「あんたは日本語処理とかなんとか
言ってるけど、あんたは日本語がわかってない」と言われる。
それが日本語処理業界の現実。
577デフォルトの名無しさん
2018/07/19(木) 20:29:21.21ID:DUpb208V これは言いたかなかったけど、
「支配者の言語」というのがあって、「被支配者の言語」の
言語表現を規制するのが「規範文法」。で、被支配者の
言語表現に対して、「それは文法に適っていない」と言えるのは、
支配者の権利だとする思想がある。
それがあるんで、左派の言語学者は「文法なんてない」と主張するし、
おれは「すべての言語表現において普遍的な原則」としての
「高精度の記述文法」というのを考えたワケ。
だから、おれが「あんたの表現は文法的に間違ってるぞ?」と
言うときは、「そういう言い方だと、他の奴には通じないぞ?」と
いう意味で使ってる。で、精神科医は、そういう発話を「言葉のサラダ」
と謂うんだ。
「支配者の言語」というのがあって、「被支配者の言語」の
言語表現を規制するのが「規範文法」。で、被支配者の
言語表現に対して、「それは文法に適っていない」と言えるのは、
支配者の権利だとする思想がある。
それがあるんで、左派の言語学者は「文法なんてない」と主張するし、
おれは「すべての言語表現において普遍的な原則」としての
「高精度の記述文法」というのを考えたワケ。
だから、おれが「あんたの表現は文法的に間違ってるぞ?」と
言うときは、「そういう言い方だと、他の奴には通じないぞ?」と
いう意味で使ってる。で、精神科医は、そういう発話を「言葉のサラダ」
と謂うんだ。
578デフォルトの名無しさん
2018/07/19(木) 21:01:52.09ID:zpCf8yuT >言葉のサラダ
お医者さんにそういわれたのか
言われたんだろうな…
お医者さんにそういわれたのか
言われたんだろうな…
579デフォルトの名無しさん
2018/07/20(金) 03:36:24.54ID:1ksMRsUr >>568
それでも研究費が出るからぬくぬくしてるんじゃないの?
それでも研究費が出るからぬくぬくしてるんじゃないの?
580デフォルトの名無しさん
2018/07/20(金) 06:28:12.00ID:GozXxEHN >>579
たぶん、ぬくぬくはしてないと思う。全体のパイが
小さいから、研究費(あるいは科研費)の奪い合いが
熾烈なんだと思う。だから、足の引っ張り合いになるんだろう。
日本語が論理式(モンタギュー文法)にうまく落ちないとか
形態素解析の精度が上がらないとかいうことになると、
「日本語は非・論理的だ」「日本語の文法は不完全だ」みたいな
ことを言いだして、「大規模データを統計的に処理すれば …」
とかいって予算を取ろうとする。
だから、哲学(論理学が絡むとこっちに該当する)とか
記述文法なんかやってる奴が下手に成果なんか上げちゃったら、
そいつらが困る。
たぶん、ぬくぬくはしてないと思う。全体のパイが
小さいから、研究費(あるいは科研費)の奪い合いが
熾烈なんだと思う。だから、足の引っ張り合いになるんだろう。
日本語が論理式(モンタギュー文法)にうまく落ちないとか
形態素解析の精度が上がらないとかいうことになると、
「日本語は非・論理的だ」「日本語の文法は不完全だ」みたいな
ことを言いだして、「大規模データを統計的に処理すれば …」
とかいって予算を取ろうとする。
だから、哲学(論理学が絡むとこっちに該当する)とか
記述文法なんかやってる奴が下手に成果なんか上げちゃったら、
そいつらが困る。
581デフォルトの名無しさん
2018/07/20(金) 10:16:08.42ID:B9AYu9ui >>571
韓国人はピもビも同じ文字を使って区別しないで発音してるけど、日本人が聞くとピビンバに聞こえるんだな。どっちの表記が正しいってこともないけど表記揺れはちょっともやもやするな。
日本語でも「パパ」って発音したとき1個目のパは有気音、2個目のパは無気音で発音するので、韓国人にしてみれば同じカナなのに別の発音してるって感じるはず。
韓国人はピもビも同じ文字を使って区別しないで発音してるけど、日本人が聞くとピビンバに聞こえるんだな。どっちの表記が正しいってこともないけど表記揺れはちょっともやもやするな。
日本語でも「パパ」って発音したとき1個目のパは有気音、2個目のパは無気音で発音するので、韓国人にしてみれば同じカナなのに別の発音してるって感じるはず。
582デフォルトの名無しさん
2018/07/20(金) 13:02:25.01ID:CcJkjASV 別に困んないけど
本当にpracticalならともかく
本当にpracticalならともかく
583デフォルトの名無しさん
2018/07/20(金) 13:26:52.30ID:c77xM4ns 朝鮮人パカするな
584デフォルトの名無しさん
2018/07/20(金) 14:58:22.06ID:GozXxEHN >>581
まぁ、「マンガ」「メガネ」の「ガ」は鼻濁音だし、
「軍歌」の「カ」と「軍靴」の「カ」は違うんだけど
(後者は「クワ(ワは小さく)」)、普通の日本人は
気にせんのだけどな。
>>583
おれは朝鮮人と呼ばれてバカにされても一向に気にしない
(大陸顔なのは理解している。鹿賀 丈史とか米倉 斉加年が
代表的な大陸顔だ)。
必ずしもすべての朝鮮人が馬鹿ではないし
(例を思い浮かべられないのがなさけないが、
呉 善花は入れておいていいかもしれないと思う)、
すべての馬鹿が朝鮮人だという話でもない
(馬鹿な日本人は少なからずいる)。
力道山や大山倍達や大木金太郎については
コメントは控えておきたい。
まぁ、「マンガ」「メガネ」の「ガ」は鼻濁音だし、
「軍歌」の「カ」と「軍靴」の「カ」は違うんだけど
(後者は「クワ(ワは小さく)」)、普通の日本人は
気にせんのだけどな。
>>583
おれは朝鮮人と呼ばれてバカにされても一向に気にしない
(大陸顔なのは理解している。鹿賀 丈史とか米倉 斉加年が
代表的な大陸顔だ)。
必ずしもすべての朝鮮人が馬鹿ではないし
(例を思い浮かべられないのがなさけないが、
呉 善花は入れておいていいかもしれないと思う)、
すべての馬鹿が朝鮮人だという話でもない
(馬鹿な日本人は少なからずいる)。
力道山や大山倍達や大木金太郎については
コメントは控えておきたい。
585デフォルトの名無しさん
2018/07/20(金) 15:05:41.59ID:GozXxEHN 千田是也さんが、関東大震災のときに、「朝鮮人が叛乱を
企てている」というので自警団が検問をしているときに
引っかかって、「『水道局』と言ってみろ」と言われ、
滑舌が悪くて「しゅっ … しゅいどうこく!」と言ったら
「鮮(せん)だ、これは。」と言われたので、「千田是也」という
ペンネームを使っていたというのは有名な話。
企てている」というので自警団が検問をしているときに
引っかかって、「『水道局』と言ってみろ」と言われ、
滑舌が悪くて「しゅっ … しゅいどうこく!」と言ったら
「鮮(せん)だ、これは。」と言われたので、「千田是也」という
ペンネームを使っていたというのは有名な話。
586デフォルトの名無しさん
2018/07/20(金) 15:11:04.74ID:GozXxEHN 「おれは東京生まれの東京育ちで、日本橋の出身だから
訛りなんかない」と豪語していた奴が同僚にいたので、
「だったら『潮干狩り』って言ってみろ」と言ったら、
しばらく絶句してから、「しっ …… しおしがり!」って
言ってから勝手に落ち込んでた。
ちなみに江戸弁だと「ひよしがり」が正。
「鮭」は「しゃけ」、「朝日新聞」は「あさししんぶん」。
かな漢字変換用の辞書には登録しておくのが吉。
訛りなんかない」と豪語していた奴が同僚にいたので、
「だったら『潮干狩り』って言ってみろ」と言ったら、
しばらく絶句してから、「しっ …… しおしがり!」って
言ってから勝手に落ち込んでた。
ちなみに江戸弁だと「ひよしがり」が正。
「鮭」は「しゃけ」、「朝日新聞」は「あさししんぶん」。
かな漢字変換用の辞書には登録しておくのが吉。
587デフォルトの名無しさん
2018/07/20(金) 15:19:37.45ID:GozXxEHN あと、「蠅帳」は、正訓は「はえちょう」。江戸弁では「はいちょう」。
「蚊帳」は、日本中「かや」。
「棟梁」の正訓は「とうりょう」。江戸弁では「とうりゅう」。
「道了尊」は、「どうりょうそん」と「どうりゅうさん」。
形態素解析っていうのは、ここまでやって一丁前。
「蚊帳」は、日本中「かや」。
「棟梁」の正訓は「とうりょう」。江戸弁では「とうりゅう」。
「道了尊」は、「どうりょうそん」と「どうりゅうさん」。
形態素解析っていうのは、ここまでやって一丁前。
588デフォルトの名無しさん
2018/07/20(金) 15:29:07.28ID:GozXxEHN >>582
「義足とか義手とかなくても、別に困んないけど。
おれ健常者だし」
「べつにハングル表記とかなくても、別に困んないけど。
おれに帆人だし」
「本当にpracticalならともかく」。
あーやだやだ、想像力とか共感性のない奴は。
「自然言語処理とかなくても、別に困んないけど。
普通に言葉分かってるし」ってぇ話だろ?
「義足とか義手とかなくても、別に困んないけど。
おれ健常者だし」
「べつにハングル表記とかなくても、別に困んないけど。
おれに帆人だし」
「本当にpracticalならともかく」。
あーやだやだ、想像力とか共感性のない奴は。
「自然言語処理とかなくても、別に困んないけど。
普通に言葉分かってるし」ってぇ話だろ?
589デフォルトの名無しさん
2018/07/20(金) 17:35:58.98ID:GozXxEHN590デフォルトの名無しさん
2018/07/20(金) 17:40:15.50ID:GozXxEHN あと、昔の越後の人は「し」と「す」の区別がつかなくて、
「伸びた“シ”と結んだ“シ”」というんで区別してた。
「お寿司」と「お獅子」とかな。
「伸びた“シ”と結んだ“シ”」というんで区別してた。
「お寿司」と「お獅子」とかな。
591デフォルトの名無しさん
2018/07/20(金) 18:01:44.97ID:GozXxEHN 日本橋の『たいめいけん』の茂出木 心護さんが、
越後の出身者は「えちご」と「いちご」が発音上
区別できなくて、「ストロベリー」と云われて
馬鹿にされたという話を書いている。
越後の出身者は「えちご」と「いちご」が発音上
区別できなくて、「ストロベリー」と云われて
馬鹿にされたという話を書いている。
592デフォルトの名無しさん
2018/07/20(金) 18:34:54.69ID:GozXxEHN 正しい日本語処理。
「やってみてくれ」
⇒金融機関が借入金を引き上げようとしているので、
なんか儲かりそうな話をでっち上げてくれ。
「やってくれ」
⇒「できません」とか言ったらぶっ殺すぞ。とにかく
儲けを出せ。
「上からの GO が出た」
⇒逃げ支度が済むまで引っ張れ。
「君には失望させられたよ」
⇒ぜんぶお前の責任だ。お前が尻拭いをしろ。おれらは
知らない。
そんなもんですよ。
「やってみてくれ」
⇒金融機関が借入金を引き上げようとしているので、
なんか儲かりそうな話をでっち上げてくれ。
「やってくれ」
⇒「できません」とか言ったらぶっ殺すぞ。とにかく
儲けを出せ。
「上からの GO が出た」
⇒逃げ支度が済むまで引っ張れ。
「君には失望させられたよ」
⇒ぜんぶお前の責任だ。お前が尻拭いをしろ。おれらは
知らない。
そんなもんですよ。
593デフォルトの名無しさん
2018/07/20(金) 18:57:49.52ID:TZxtxi0x 連投してる奴いろいろ書いてるけど
他人に対して何か伝える文章じゃないな
結局何が言いたいのかぼんやりしたまま
他人に対して何か伝える文章じゃないな
結局何が言いたいのかぼんやりしたまま
594デフォルトの名無しさん
2018/07/20(金) 19:55:29.19ID:GozXxEHN 人工無脳が なんか言ってますよ。
ところで、「なさい」「ください」「いらっしゃい」とかは、
文法的にいうと、動詞の活用としては何形になるのかねぇ?
ところで、「なさい」「ください」「いらっしゃい」とかは、
文法的にいうと、動詞の活用としては何形になるのかねぇ?
595デフォルトの名無しさん
2018/07/20(金) 20:02:56.67ID:GozXxEHN >>593
> 連投してる奴いろいろ書いてるけど
> 他人に対して何か伝える文章じゃないな
> 結局何が言いたいのかぼんやりしたまま
「 連投して(い)る奴(が)いろいろ(と)書いて(い)る[けど
(=「けれども」)]、他人に対して何か(を)伝え(「ようとしてい」?/
「られ」?)る文章[じゃ(=「では」の口語的に崩れた形)]ないな
結局、何が言いたいのか(が)ぼんやりしたまま(の)(何か)(だ)」 。
こんな屑な人口無脳を作った馬鹿は、どこの大学のどこの研究室の所属だ。
> 連投してる奴いろいろ書いてるけど
> 他人に対して何か伝える文章じゃないな
> 結局何が言いたいのかぼんやりしたまま
「 連投して(い)る奴(が)いろいろ(と)書いて(い)る[けど
(=「けれども」)]、他人に対して何か(を)伝え(「ようとしてい」?/
「られ」?)る文章[じゃ(=「では」の口語的に崩れた形)]ないな
結局、何が言いたいのか(が)ぼんやりしたまま(の)(何か)(だ)」 。
こんな屑な人口無脳を作った馬鹿は、どこの大学のどこの研究室の所属だ。
596デフォルトの名無しさん
2018/07/20(金) 20:05:19.46ID:GozXxEHN597デフォルトの名無しさん
2018/07/20(金) 20:41:02.84ID:TZxtxi0x598デフォルトの名無しさん
2018/07/20(金) 20:53:07.41ID:GozXxEHN >>597
> 自然な省略だろ
自然言語処理をやっているなら、何が自然なのかを説明してくれ。
>>かねぇ?
>ってのは口語的に崩れた形だろうが
そんな甘いツッコミを入れられてもサムいだけだ。
まぁ、ここのところ猛暑が続いているからご愛敬だけどな。
「動詞の活用としては何形になるのかねぇ?」
だったら、
「動詞の活用としては、何形になる(の)(でしょう)かねぇ?」
とツッコんでほしかった。「なる」は連体形だから、その後に何かが
省略していないと文が完結しないので、そのあとに「体言+コピュラ」が
省略されている、と推測するのが正解、くらいのツッコミが入ったら、
おれも素直に頭を下げられるんだが。
ついでながら、「ってのは」は「というのは」の、口語的に崩れた形だ。
> 自然な省略だろ
自然言語処理をやっているなら、何が自然なのかを説明してくれ。
>>かねぇ?
>ってのは口語的に崩れた形だろうが
そんな甘いツッコミを入れられてもサムいだけだ。
まぁ、ここのところ猛暑が続いているからご愛敬だけどな。
「動詞の活用としては何形になるのかねぇ?」
だったら、
「動詞の活用としては、何形になる(の)(でしょう)かねぇ?」
とツッコんでほしかった。「なる」は連体形だから、その後に何かが
省略していないと文が完結しないので、そのあとに「体言+コピュラ」が
省略されている、と推測するのが正解、くらいのツッコミが入ったら、
おれも素直に頭を下げられるんだが。
ついでながら、「ってのは」は「というのは」の、口語的に崩れた形だ。
599デフォルトの名無しさん
2018/07/20(金) 20:58:35.72ID:GozXxEHN >>597
> お前も人工無能な
文脈としては、
×人工無能
〇人工無脳
だと思うが。“も”っていうことは、お前は無能なんだな?
おれが人工無脳だったら、製作者はとっくにチューリング賞を
獲っとるわ。
> お前も人工無能な
文脈としては、
×人工無能
〇人工無脳
だと思うが。“も”っていうことは、お前は無能なんだな?
おれが人工無脳だったら、製作者はとっくにチューリング賞を
獲っとるわ。
600デフォルトの名無しさん
2018/07/20(金) 21:25:48.02ID:GozXxEHN くそう。叱られちゃったい。
> ないな
「ない(体言:省略)(コピュラ:省略)な」
> ぼんやりした
「ぼんやり(と:省略)した」
が正解。
> ないな
「ない(体言:省略)(コピュラ:省略)な」
> ぼんやりした
「ぼんやり(と:省略)した」
が正解。
601デフォルトの名無しさん
2018/07/20(金) 22:01:12.70ID:1ksMRsUr しよはしよじゃないの?
602デフォルトの名無しさん
2018/07/21(土) 06:57:48.94ID:HTyh/4m5603デフォルトの名無しさん
2018/07/21(土) 07:37:00.82ID:c9/IgS/z >>602
事実と意見は区別しないと、論文は通らないぞ?
事実と意見は区別しないと、論文は通らないぞ?
604デフォルトの名無しさん
2018/07/22(日) 06:53:00.75ID:HlH3bx5P >>そんな甘いツッコミ
> お前が自分に甘いだけだろ
> だから馬鹿なんだよ
せっかくだから自然言語処理に関係のある話をしておこう。
形容詞は暗黙の主語として話者を要求する。「>>602 は恥ずかしい奴だ」は
「>>602 は自分を恥じている」を含意しない。「>>602 は(話者である)私を
して“恥ずかしい”と感じせしめる人物である」という意味を内包している。
また、「とりたて詞『が』は強調転置を起こす」ので、
「お前が自分に甘い」は「自分に甘いお前」を含意するが、たいていの奴は
自分に甘い。
「だから馬鹿なんだよ」は、「だから」と「馬鹿」のどちらに強意があるかが
字面からは読み取れない。前者だとすると、「馬鹿」という概念が
すでに所与のものとしてあり、前提から導出が可能だ、と主張している
ことになるが、後者では、「馬鹿」というのは文中にトピックとして
出てきたことになる。
> お前が自分に甘いだけだろ
> だから馬鹿なんだよ
せっかくだから自然言語処理に関係のある話をしておこう。
形容詞は暗黙の主語として話者を要求する。「>>602 は恥ずかしい奴だ」は
「>>602 は自分を恥じている」を含意しない。「>>602 は(話者である)私を
して“恥ずかしい”と感じせしめる人物である」という意味を内包している。
また、「とりたて詞『が』は強調転置を起こす」ので、
「お前が自分に甘い」は「自分に甘いお前」を含意するが、たいていの奴は
自分に甘い。
「だから馬鹿なんだよ」は、「だから」と「馬鹿」のどちらに強意があるかが
字面からは読み取れない。前者だとすると、「馬鹿」という概念が
すでに所与のものとしてあり、前提から導出が可能だ、と主張している
ことになるが、後者では、「馬鹿」というのは文中にトピックとして
出てきたことになる。
605デフォルトの名無しさん
2018/07/22(日) 07:05:30.26ID:HlH3bx5P 日本人動物学者「こいつは馬鹿だ!」
満州アカシカ「いかにも私は馬鹿です」
満州アカシカ「いかにも私は馬鹿です」
606デフォルトの名無しさん
2018/07/22(日) 09:01:24.76ID:HlH3bx5P 日本語には体言の省略が多い(ただし異論はある)。
ただ、「その、省略された対象が何か」を推定するのに、
シソーラスと「その名詞にはどういう性質(内包的な意味)が
付与されているか」というデータが必要になってくる。
仮に百科語を二万語として、それだけのシソーラスを
作るのは並大抵の労力ではない。
そうすると、なにか限定されたジャンル(医学とか、化学とか)を
扱うしかなくなってくるが、それだと一般性が乏しくなる。
中学・高校あたりの理科系分野とかに狙いをつけるのが
いいんだろうか。
素人向けの医学・薬学・栄養学的な知識、というのも
考えたんだけど、厳密な体系にならないんだよね。
ただ、「その、省略された対象が何か」を推定するのに、
シソーラスと「その名詞にはどういう性質(内包的な意味)が
付与されているか」というデータが必要になってくる。
仮に百科語を二万語として、それだけのシソーラスを
作るのは並大抵の労力ではない。
そうすると、なにか限定されたジャンル(医学とか、化学とか)を
扱うしかなくなってくるが、それだと一般性が乏しくなる。
中学・高校あたりの理科系分野とかに狙いをつけるのが
いいんだろうか。
素人向けの医学・薬学・栄養学的な知識、というのも
考えたんだけど、厳密な体系にならないんだよね。
607デフォルトの名無しさん
2018/07/22(日) 12:40:16.29ID:HlH3bx5P >>606
もうひとつ、述語の中心である動詞の場合、要求する
「文法的な格」がどのようなものであるか、が明らかであって、
しかも「かかる」相手がどういうカテゴリーにあるか、というのが
分らないと、体言に附属した助詞が省略された場合に、「述語から
要求される文法格」が何であるかを推定できないんですよね。
「彼、スパゲティ、食べた」が、「彼はスパゲティを食べた」なのか
「スパゲティが彼を食べた」なのかは決定不能なのね。
「コタツが葬儀屋を食べた」は無意味文になりそうだけど、
映画『バトルヒーター』(一九八九)という文脈があったら、
「意味がある」と判断されると思うんだけど。
もうひとつ、述語の中心である動詞の場合、要求する
「文法的な格」がどのようなものであるか、が明らかであって、
しかも「かかる」相手がどういうカテゴリーにあるか、というのが
分らないと、体言に附属した助詞が省略された場合に、「述語から
要求される文法格」が何であるかを推定できないんですよね。
「彼、スパゲティ、食べた」が、「彼はスパゲティを食べた」なのか
「スパゲティが彼を食べた」なのかは決定不能なのね。
「コタツが葬儀屋を食べた」は無意味文になりそうだけど、
映画『バトルヒーター』(一九八九)という文脈があったら、
「意味がある」と判断されると思うんだけど。
608デフォルトの名無しさん
2018/07/23(月) 08:38:44.41ID:8XnpjG9G 一時期「ら抜き」が問題になってたけど、
「可能」と「尊敬」を区別できるという
メリットがあるので、一概に否定はできないと
思っている。だったら「れる」を「ことが可能である」と
入力時に機械的に置き換える(あるいは変換候補として出す)
くらいの芸はできんのか、とは思う。
一行めの「なってた」も「なっていた」が候補に出ていいし、
「あっさりした」も「あっさりとした」が正のはず。
入力時にチェックするのは難しいにしても、
テキストデータをチェックするくらいは簡単なように
思われるんだけどね。
「可能」と「尊敬」を区別できるという
メリットがあるので、一概に否定はできないと
思っている。だったら「れる」を「ことが可能である」と
入力時に機械的に置き換える(あるいは変換候補として出す)
くらいの芸はできんのか、とは思う。
一行めの「なってた」も「なっていた」が候補に出ていいし、
「あっさりした」も「あっさりとした」が正のはず。
入力時にチェックするのは難しいにしても、
テキストデータをチェックするくらいは簡単なように
思われるんだけどね。
609デフォルトの名無しさん
2018/07/23(月) 12:57:40.81ID:8XnpjG9G610デフォルトの名無しさん
2018/07/27(金) 14:22:16.44ID:q3ebuKRa 本番過ぎちゃったので時期遅れですが
You might or more heard a two fishes.
You might or more heard a two fishes.
611デフォルトの名無しさん
2018/07/27(金) 14:25:38.80ID:q3ebuKRa >>610
ダメだ。暑気中りが治ってない。
×You might or more heard a two fishes.
〇You might or more heard today's a two fishes.
冬バージョン
You might or more heard today's some fishes.
ダメだ。暑気中りが治ってない。
×You might or more heard a two fishes.
〇You might or more heard today's a two fishes.
冬バージョン
You might or more heard today's some fishes.
612デフォルトの名無しさん
2018/07/27(金) 20:23:15.22ID:dNDh2QHO613デフォルトの名無しさん
2018/07/28(土) 23:43:24.97ID:HVxOC8gw >>612
粋な先生だな。
じゃあ、「“ghoti”と書いて何と発音するか?」とか
習ったクチだな?
おれはすれっからしの自然言語処理屋なんで、
“Time flies like an arrow.”を
「時蠅は矢を好む。」とか「矢のように時を測れ。」とか
訳してしまうクチだ。
粋な先生だな。
じゃあ、「“ghoti”と書いて何と発音するか?」とか
習ったクチだな?
おれはすれっからしの自然言語処理屋なんで、
“Time flies like an arrow.”を
「時蠅は矢を好む。」とか「矢のように時を測れ。」とか
訳してしまうクチだ。
614デフォルトの名無しさん
2018/07/29(日) 00:46:36.29ID:TGkp0btZ >>613
象は鼻が長い、で二、三時間話ができそうだな。
象は鼻が長い、で二、三時間話ができそうだな。
615デフォルトの名無しさん
2018/07/29(日) 11:52:38.73ID:ecsh/nBS616デフォルトの名無しさん
2018/07/29(日) 12:05:56.01ID:ecsh/nBS 「象は鼻が長い」は、「象は鼻が長いのです」を含意し、
準体助詞の「の」の役割を考えると、「象は鼻が長いのです」
は「象は鼻が長い(X)(です)」を含意すると看做せると
解釈可能である。
しかしながら、「長い」は「鼻」を修飾しているので、X は
「哺乳類」「生物」とかいったものであると解釈するのが
妥当であろう。したがって、とりたて詞「が」によって「鼻」が
強調されて転置が怒り、「長い」の連体修飾という役割が、
結果として文構成のなかで引き継がれた、と解釈すると、
構文解析によって自然な解釈であろうと私は主張するのだ。
できればツッコミをよろしく。
準体助詞の「の」の役割を考えると、「象は鼻が長いのです」
は「象は鼻が長い(X)(です)」を含意すると看做せると
解釈可能である。
しかしながら、「長い」は「鼻」を修飾しているので、X は
「哺乳類」「生物」とかいったものであると解釈するのが
妥当であろう。したがって、とりたて詞「が」によって「鼻」が
強調されて転置が怒り、「長い」の連体修飾という役割が、
結果として文構成のなかで引き継がれた、と解釈すると、
構文解析によって自然な解釈であろうと私は主張するのだ。
できればツッコミをよろしく。
617デフォルトの名無しさん
2018/07/29(日) 12:34:29.98ID:2jsBPgao ここは「は」の機能に焦点をあてて説明した方がいいんじゃないのかな。
618デフォルトの名無しさん
2018/07/29(日) 14:10:34.39ID:ecsh/nBS >>617
「は」「が」は「とりたて詞」であって、「主格の格助詞」では
ない、とかいう主張はなかなか通らないんだよね。
そうすると「主格の格助詞が存在しない」ということに
なってしまうから(個人的には、ないと思っている)。
で、「は」「が」がつくと、格助詞が消えるという現象が
あると思っている。「をは」「をが」「にが」って使わないだろう?
「には」はあるし、「へは」「へが」「からは」「からが」「までは」
「までが」等々はあるわけだから、「『は』『が』はとりたて詞であって、
格助詞ではない」というのは強調しておきたいところだ。
「は」「が」は「とりたて詞」であって、「主格の格助詞」では
ない、とかいう主張はなかなか通らないんだよね。
そうすると「主格の格助詞が存在しない」ということに
なってしまうから(個人的には、ないと思っている)。
で、「は」「が」がつくと、格助詞が消えるという現象が
あると思っている。「をは」「をが」「にが」って使わないだろう?
「には」はあるし、「へは」「へが」「からは」「からが」「までは」
「までが」等々はあるわけだから、「『は』『が』はとりたて詞であって、
格助詞ではない」というのは強調しておきたいところだ。
619デフォルトの名無しさん
2018/07/29(日) 16:07:45.71ID:86TZxKJ6 言語学者とか要らなくなるね
620デフォルトの名無しさん
2018/07/29(日) 16:35:02.64ID:TGkp0btZ 文法の存在ってのは幻みたいなもんだと思うけど、言語にはよく分からんけど法則があることだけは確かなんだよなあ。
621デフォルトの名無しさん
2018/07/29(日) 16:59:44.89ID:jmfLAdWz >よく分からんけど法則
結局なんでもそうだし
機械学習やDLに向いてる分野ってことかな
でも法則自体は判らんでも何故かうまくこなすっていうAIっぽいのが生まれるっていう展開
結局なんでもそうだし
機械学習やDLに向いてる分野ってことかな
でも法則自体は判らんでも何故かうまくこなすっていうAIっぽいのが生まれるっていう展開
622デフォルトの名無しさん
2018/07/29(日) 19:07:58.68ID:XATyMGvf とりたて詞って副助詞のこと?
623デフォルトの名無しさん
2018/07/29(日) 20:06:05.33ID:ecsh/nBS >>622
おれらは自然言語屋なんで、むしろ「副助詞」の
定義がわからん。「ね」「さ」「よ」「な」「ぞ」
は、「強調助詞」と呼んでいる。「とりたて詞」は、
トピックであることを示すと同時に、語順の
転換が起きる。それを「強調転置」と呼んでいるので、
「用語の統一ができていない!」と叱られそうに思うが。
「だからね、そのあたりはさ、適当によ、塩梅してな、
欲しいぞ?」みたいなのは強調助詞、という話。
おれらは自然言語屋なんで、むしろ「副助詞」の
定義がわからん。「ね」「さ」「よ」「な」「ぞ」
は、「強調助詞」と呼んでいる。「とりたて詞」は、
トピックであることを示すと同時に、語順の
転換が起きる。それを「強調転置」と呼んでいるので、
「用語の統一ができていない!」と叱られそうに思うが。
「だからね、そのあたりはさ、適当によ、塩梅してな、
欲しいぞ?」みたいなのは強調助詞、という話。
624デフォルトの名無しさん
2018/07/30(月) 03:32:11.29ID:Rd2xs5Db よくわからん。
このスレはプログラム板のスレなんだからコンピュータで自然言語処理するのに有用な話をしてほしい
ぶっちゃけ、MeCabにもKNPにも出てこない品詞の話をされても意味がない。
このスレはプログラム板のスレなんだからコンピュータで自然言語処理するのに有用な話をしてほしい
ぶっちゃけ、MeCabにもKNPにも出てこない品詞の話をされても意味がない。
625デフォルトの名無しさん
2018/07/30(月) 07:03:35.67ID:9nIH/p+f end-to-endの時代なのにね
わざわざnmtに構文解析の結果をぶち込んでくるバカがいて
誰がやってんのかなと思ったら東大だった
わざわざnmtに構文解析の結果をぶち込んでくるバカがいて
誰がやってんのかなと思ったら東大だった
626デフォルトの名無しさん
2018/07/30(月) 08:31:39.90ID:ArBfASRB627デフォルトの名無しさん
2018/07/30(月) 08:45:24.47ID:ArBfASRB ぶっちゃけ形態素解析システムなんて自前で開発しても
たいした手間じゃないぞ? 方針が分かってりゃ
1人月くらいで書ける。
1)まず、形容詞を活用語尾で引っ掛けるルーチンを書く。
2)それを使って形容詞の辞書を作る。
3)それでコツを掴んだら、動詞で同じことをする。
4)受け身だとか尊敬だとか使役だとかの処理と、
各種の形態素の処理を書く。これは数が少ないので
大した手間じゃない。
5)残った奴は名詞句なので、助詞やらなんやらの処理を
考えつつ名詞の辞書を作る。
ただ、これをやると、「もうちょっと抽象化できんかな?」とか
考えてしまい、全部捨てて新しいシステムを書きたくなる。
ただ、ここまで来ると日本語の文法体系が頭に入っていて
必要な辞書はあらかた揃ってるから、勝負は早い。
たいした手間じゃないぞ? 方針が分かってりゃ
1人月くらいで書ける。
1)まず、形容詞を活用語尾で引っ掛けるルーチンを書く。
2)それを使って形容詞の辞書を作る。
3)それでコツを掴んだら、動詞で同じことをする。
4)受け身だとか尊敬だとか使役だとかの処理と、
各種の形態素の処理を書く。これは数が少ないので
大した手間じゃない。
5)残った奴は名詞句なので、助詞やらなんやらの処理を
考えつつ名詞の辞書を作る。
ただ、これをやると、「もうちょっと抽象化できんかな?」とか
考えてしまい、全部捨てて新しいシステムを書きたくなる。
ただ、ここまで来ると日本語の文法体系が頭に入っていて
必要な辞書はあらかた揃ってるから、勝負は早い。
628デフォルトの名無しさん
2018/07/30(月) 09:02:59.59ID:ArBfASRB 形態素解析システムを自前で開発すると、いくつか副作用があって、
「モーニング娘。」とか「藤岡弘、」とか見ると
反射的にイラッとくるようになる。
「モーニング娘。」とか「藤岡弘、」とか見ると
反射的にイラッとくるようになる。
629デフォルトの名無しさん
2018/07/30(月) 09:05:49.92ID:ArBfASRB あと、メモが手放せなくなる。
「さっぱりした」の「さっぱり」と、
「さっぱりわからん」の「さっぱり」は、
別の単語として辞書に登録したほうがいい、とか
その場でメモるからだ。
「さっぱりとした」は言うが、
「さっぱりとわからん」は普通言わない
(いう地方もあるかもしれんが)。
「さっぱりした」の「さっぱり」と、
「さっぱりわからん」の「さっぱり」は、
別の単語として辞書に登録したほうがいい、とか
その場でメモるからだ。
「さっぱりとした」は言うが、
「さっぱりとわからん」は普通言わない
(いう地方もあるかもしれんが)。
630デフォルトの名無しさん
2018/07/30(月) 09:10:43.80ID:z4Mxuxkf 作ったことないでしょ
631デフォルトの名無しさん
2018/07/30(月) 09:15:05.66ID:ArBfASRB いい面での副作用としては、
「文語」「(正体の)口語」「俗語的な口語」の
区別に敏感になる。
「むくつけし」「猛(たけ)し」「かそけし」のような
e 音で終わる形容詞は、文語にはあるが現代語にはない
(「むくつけい」「たけい」「かそけい」はない)。
「し」ではなく i 音で終わる形容詞は、俗語では使うが
正体では使わない。「みみっちい」「ばばっちい」などが
あり、「ずるっちい」を使う人はいる。
文語動詞では「子音終わりは四段」「母音終わりは一段」が
基本。ただし、母音は i, e しかない。
ところが、現代語では五段活用ワ行があり、a/o/u という
母音で終わっているのに五段活用、というややこしい話に
なっている。これは動詞末尾の h 音が消失しまったせいだが、
h 音の前が i/e である動詞は行き場がなくなって、けっこうな
騒動になっていることが形態素解析で判る。
「文語」「(正体の)口語」「俗語的な口語」の
区別に敏感になる。
「むくつけし」「猛(たけ)し」「かそけし」のような
e 音で終わる形容詞は、文語にはあるが現代語にはない
(「むくつけい」「たけい」「かそけい」はない)。
「し」ではなく i 音で終わる形容詞は、俗語では使うが
正体では使わない。「みみっちい」「ばばっちい」などが
あり、「ずるっちい」を使う人はいる。
文語動詞では「子音終わりは四段」「母音終わりは一段」が
基本。ただし、母音は i, e しかない。
ところが、現代語では五段活用ワ行があり、a/o/u という
母音で終わっているのに五段活用、というややこしい話に
なっている。これは動詞末尾の h 音が消失しまったせいだが、
h 音の前が i/e である動詞は行き場がなくなって、けっこうな
騒動になっていることが形態素解析で判る。
632デフォルトの名無しさん
2018/07/30(月) 09:22:41.82ID:ArBfASRB あるよ。新旧とりまぜて三つほどある。
1)C 言語ベタ書きバージョン、
2)C 言語文法分離バージョン、
3)Java で書き直してメモリリークや
ワイルドポインタを防止したバージョン。ただし、
Java の使い方が当時は よくわからなかったので、
多段解析を実装できなかったのが悔やまれる。
(2)のバージョンは、ローマ字英単語交じりの
文字列を漢字かな交じり文に変換する、というのも
可能だった。
あと、(2)と(3)は双方向のシステムで、
漢字かな交じり文の読みびらきと、かな漢字変換の
両方が同じシステムで可能だった。
1)C 言語ベタ書きバージョン、
2)C 言語文法分離バージョン、
3)Java で書き直してメモリリークや
ワイルドポインタを防止したバージョン。ただし、
Java の使い方が当時は よくわからなかったので、
多段解析を実装できなかったのが悔やまれる。
(2)のバージョンは、ローマ字英単語交じりの
文字列を漢字かな交じり文に変換する、というのも
可能だった。
あと、(2)と(3)は双方向のシステムで、
漢字かな交じり文の読みびらきと、かな漢字変換の
両方が同じシステムで可能だった。
633デフォルトの名無しさん
2018/07/30(月) 09:28:45.10ID:ArBfASRB あと、全件辞書引きは Google が使ってるダブル配列法じゃなくて、
その原形であるトリプル配列法を使ってる。
マルチバイト文字の場合、「辞書がコンパクトになる」という
ダブル配列法のメリットが生きなくて、トリプル配列のほうが
コンパクトになったりする。
まぁ、昨今のマシンは作業用のメモリがギガバイト単位なんで、
それほど気にする必要はないんだが。
ほかになんか質問ある?
その原形であるトリプル配列法を使ってる。
マルチバイト文字の場合、「辞書がコンパクトになる」という
ダブル配列法のメリットが生きなくて、トリプル配列のほうが
コンパクトになったりする。
まぁ、昨今のマシンは作業用のメモリがギガバイト単位なんで、
それほど気にする必要はないんだが。
ほかになんか質問ある?
634デフォルトの名無しさん
2018/07/30(月) 09:35:40.86ID:ArBfASRB ところで質問なんだけど、
MeCabとかKNPとかって、文語とか解析できるの?
文法って、どんな形で持ってるの?
品詞分類とか変えられるの?
MeCabとかKNPとかって、文語とか解析できるの?
文法って、どんな形で持ってるの?
品詞分類とか変えられるの?
635デフォルトの名無しさん
2018/07/30(月) 12:28:22.50ID:fs6nfZiK あ、古い人なんだ
636デフォルトの名無しさん
2018/07/30(月) 12:34:35.75ID:fs6nfZiK JAI-Parserとかかな
637デフォルトの名無しさん
2018/07/30(月) 12:41:04.42ID:ArBfASRB >>635
つーか、JUMAN と ほぼ同時期に開発したシステムだから、
茶筅とか MeCab とかは、はなから使ったことがないのよ。
unix 環境なんて、手近になかったからね。初代は PC-98 とかで
動かしてたらしい。
当初、辞書をフロッピーディスクに置いといたら、やたら
カッチャンカッチャンとアクセスするので、「ドライブが
壊れるかと思った」てな話を聞いた。で、その後「RAM
ドライブ」っちゅーのが出て、384 Kb くらいの「マシンから
見るとドライブだけど、じつはメモリ空間」っつーのができて、
そのあたりの心配はなくなった。
で、その後 IBM-PC 互換機ができてメモリ空間が広がったんで
普通に実メモリ空間に置いて、アスキーの出版技術部の
TEX のチームの前でデモしたら、「それで?」と言われたそうだ。
あんまり処理が速かったんで、ただファイルを出力してただけだと
思われていた、というオチがついている。
つーか、JUMAN と ほぼ同時期に開発したシステムだから、
茶筅とか MeCab とかは、はなから使ったことがないのよ。
unix 環境なんて、手近になかったからね。初代は PC-98 とかで
動かしてたらしい。
当初、辞書をフロッピーディスクに置いといたら、やたら
カッチャンカッチャンとアクセスするので、「ドライブが
壊れるかと思った」てな話を聞いた。で、その後「RAM
ドライブ」っちゅーのが出て、384 Kb くらいの「マシンから
見るとドライブだけど、じつはメモリ空間」っつーのができて、
そのあたりの心配はなくなった。
で、その後 IBM-PC 互換機ができてメモリ空間が広がったんで
普通に実メモリ空間に置いて、アスキーの出版技術部の
TEX のチームの前でデモしたら、「それで?」と言われたそうだ。
あんまり処理が速かったんで、ただファイルを出力してただけだと
思われていた、というオチがついている。
638デフォルトの名無しさん
2018/07/30(月) 12:41:58.32ID:ArBfASRB >>636
なんで知ってんだ?
なんで知ってんだ?
■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 橋下徹氏 外務省幹部の訪中受け「口だけ番長」へ痛烈指摘 「喧嘩は日本の完敗…なんとかっこ悪い日本か」 [冬月記者★]
- 【外国人問題】小野田紀美担当相「不法就労や不法滞在は許さない」 [シャチ★]
- 【野球】井端監督 大谷翔平、山本由伸らのWBCへの参加 「1日も早く返事ほしい」「待っててといっても、国内組が遅くなってしまう」★3 [冬月記者★]
- 経団連会長、日中は建設的対話を 経済3団体が高市首相と初会談も日中関係は話題に登らず… [BFU★]
- 中国で「クレしん」公開延期 対日報復、エンタメに波及 [蚤の市★]
- 東京株式市場 インバウンド関連株が下落 中国政府の渡航自粛要請で [バイト歴50年★]
- スーパーが開くまで約4時間何すりゃいいんだ?
- 🏡
- 有識者「高市総理が発言を撤回したり、辞職するしかないと言っている人は、それで日中関係が今まで通りになると思ってる?」 [834922174]
- 【動画】陽キャ、パルクール失敗
- 高市さんに土下座してもらったら一発解決なのに何でやらないんだろ??
- 日経時間外、5万円割れ 垂直落下始まる [402859164]
