前前スレ 自然言語処理スレッド その2
http://mimizun.com/log/2ch/tech/1173105287/
前スレ 自然言語処理スレッド その3
http://mimizun.com/log/2ch/tech/1235129481/
このスレッドでは、日本語の構文解析、談話理解、情報検索、
文章生成などの技術に関する理論と(おもに)実装を扱います。
あくまでアプリケーションプログラミングの技術的な面に重点をおきたいので、
学術的な話はアリですが、いわゆる人工無能や哲学的AI話、
言語学の話題などは他のスレッドでお願いします。
自然言語処理スレッド その4
■ このスレッドは過去ログ倉庫に格納されています
1デフォルトの名無しさん
2014/06/03(火) 05:40:00.54ID:yefNLumx557デフォルトの名無しさん
2018/07/17(火) 15:53:21.98ID:EeLIetXI558デフォルトの名無しさん
2018/07/17(火) 16:56:24.01ID:GZ88p15f 原子力学会かよ
560Mb
2018/07/17(火) 17:17:24.52ID:iAzNVHws で、益岡 隆志/田窪 行則『基礎日本語文法』以外の文法は
認められないんだ。
なぜかというと、JUMAN や ChaSen や MeCab とかを
いじくって「日本語処理やってまーす」つってアピールして
予算貰って生きてくしかないからだ。
認められないんだ。
なぜかというと、JUMAN や ChaSen や MeCab とかを
いじくって「日本語処理やってまーす」つってアピールして
予算貰って生きてくしかないからだ。
561デフォルトの名無しさん
2018/07/17(火) 20:17:31.80ID:4Y4cMBMm どうせ構文解析器なんて要らなくなるよ
不毛な議論
不毛な議論
562Mb
2018/07/17(火) 20:31:47.87ID:iAzNVHws でまぁ、本筋に戻るんだが、
現代日本語の動詞と形容詞の終止形(連体形と形は同じ)は、
じつは連体形の終止用法で、その後に体言とコピュラが
省略されていると考えると、処理も楽だし解析木も
ややこしくならない。試してみりゃあすぐ解る。
だけど、これを大声で言うと冷や飯を食わされるやら
煮え湯を飲まされるやら、いろんな目にあう。
現代日本語の動詞と形容詞の終止形(連体形と形は同じ)は、
じつは連体形の終止用法で、その後に体言とコピュラが
省略されていると考えると、処理も楽だし解析木も
ややこしくならない。試してみりゃあすぐ解る。
だけど、これを大声で言うと冷や飯を食わされるやら
煮え湯を飲まされるやら、いろんな目にあう。
563Mb
2018/07/17(火) 20:47:58.86ID:iAzNVHws >>561
まぁ、「データが木構造なんで、図で説明するのに
便利」っちゅー以上の意味はないわな。
「修飾関係が交差しない」から、木の形で
描ける、つーだけの話だし。
フローチャートと同じで、滅んだほうがいい
文化かもしれん。
まぁ、「データが木構造なんで、図で説明するのに
便利」っちゅー以上の意味はないわな。
「修飾関係が交差しない」から、木の形で
描ける、つーだけの話だし。
フローチャートと同じで、滅んだほうがいい
文化かもしれん。
564デフォルトの名無しさん
2018/07/18(水) 17:42:01.84ID:r2tNZQmN565デフォルトの名無しさん
2018/07/18(水) 18:58:52.59ID:nFdzt/yd >>564
ところが、「ハナモゲラ語」とか「言葉のサラダ」とか、
そういうのが、コンピュータで生成しようとしても
面白くならないんだよなぁ。
「ある」のは分ってるんだが、それが「何なのか」っつーのが
わからないのが文法の面白いところなのよ。
ところが、「ハナモゲラ語」とか「言葉のサラダ」とか、
そういうのが、コンピュータで生成しようとしても
面白くならないんだよなぁ。
「ある」のは分ってるんだが、それが「何なのか」っつーのが
わからないのが文法の面白いところなのよ。
566デフォルトの名無しさん
2018/07/19(木) 11:52:00.94ID:ZMW1ym8c ランダムでやってもつまらんだろ
567デフォルトの名無しさん
2018/07/19(木) 13:27:00.87ID:DUpb208V >>566
だな。つまらん。
n-gram 法の単純なやつで、2-gram 法でウケてた時代も
あったんだが(筒井康隆『狂気の沙汰も金次第』参照)、
いまどきはそれで笑いは取れん。
昨今はスパムフィルタを潜り抜けるための
ネタでしかない。
自然言語処理の研究者は何をやってるんだ、という
怒りが消えない。
だな。つまらん。
n-gram 法の単純なやつで、2-gram 法でウケてた時代も
あったんだが(筒井康隆『狂気の沙汰も金次第』参照)、
いまどきはそれで笑いは取れん。
昨今はスパムフィルタを潜り抜けるための
ネタでしかない。
自然言語処理の研究者は何をやってるんだ、という
怒りが消えない。
568デフォルトの名無しさん
2018/07/19(木) 13:31:36.20ID:DUpb208V つーか、東工大とかお茶の水女子大とかは、
「自然言語処理」っつって何をやってるんだ、
という怒りがある。
正直、いっぺん行ってシメてきたほうが
いいような気がする。
「自然言語処理」っつって何をやってるんだ、
という怒りがある。
正直、いっぺん行ってシメてきたほうが
いいような気がする。
569デフォルトの名無しさん
2018/07/19(木) 13:51:07.59ID:yj8RkDmG 日本以外の国ではどうなん?自然言語処理。
570デフォルトの名無しさん
2018/07/19(木) 15:32:56.09ID:DUpb208V >>569
日本語みたいに膠着語の国が少ないので、
もうちょい楽。
ただ、わりと手に負えないのが韓国語と
インド諸語かな?
インドは英語が普及してるんで、あんまり
自国語(つーても方言が多いので、何が
なんやら分らんのだが)の自然言語処理には
熱心じゃないらしい。
韓国は、とにかくハングルの字母の数が多いうえに、
正書法が確立しとらんのだよ。
「子音+母音+子音」でカナ一個の文字なんで、
単純に子音が十個で母音が五個としても、カナが
五百個ある勘定になる。
日本語みたいに膠着語の国が少ないので、
もうちょい楽。
ただ、わりと手に負えないのが韓国語と
インド諸語かな?
インドは英語が普及してるんで、あんまり
自国語(つーても方言が多いので、何が
なんやら分らんのだが)の自然言語処理には
熱心じゃないらしい。
韓国は、とにかくハングルの字母の数が多いうえに、
正書法が確立しとらんのだよ。
「子音+母音+子音」でカナ一個の文字なんで、
単純に子音が十個で母音が五個としても、カナが
五百個ある勘定になる。
571デフォルトの名無しさん
2018/07/19(木) 15:51:30.42ID:DUpb208V ハングルは使い慣れると便利っつーのは
分るんだけど、できればローマ字表記を
確立してほしい。
「ピビン麺」と「ビビンバ」を並べて
見るとイラッとくる。
分るんだけど、できればローマ字表記を
確立してほしい。
「ピビン麺」と「ビビンバ」を並べて
見るとイラッとくる。
572デフォルトの名無しさん
2018/07/19(木) 16:31:30.15ID:OaLdX1mQ 連投してる奴が何に対して怒ってるのか分からん
現状を打破する何かを自分で開発すればいいだけだろ
現状を打破する何かを自分で開発すればいいだけだろ
573デフォルトの名無しさん
2018/07/19(木) 17:56:05.63ID:DUpb208V574デフォルトの名無しさん
2018/07/19(木) 18:24:18.12ID:OaLdX1mQ575デフォルトの名無しさん
2018/07/19(木) 19:54:40.83ID:DUpb208V >>574
「ビビンバ」は、「混ぜご飯」の意味で、発音は“pi-bim-pap”。
「ビビン麺」は、「混ぜ麺」の意味で、表記は “bi-bim-guk-su”。
だけど、「ピビンパ」とか「ビビン飯」とか変換するとダメだと言われ、
「ビビングスク」とか変換するとダメだと言われる。
「じゃあ、どうすればいいのか?」という話になると、
「それは説明できないが、とにかくそうなんだ」と言われる。
まぁ、そんな連中はいっぱいいるので、べつに「韓国人は」
みたいなことで怒っているわけではないし、
ユーザの要求を聞き取って、具体的な仕様に落とすのが
システムエンジニアの仕事ではあるんだが、
自然言語処理の世界だと、「いやだー! いやだー!
そうじゃないんだー! うわぁぁぁぁぁぁぁ!」みたいな話で
ぶっ壊れる案件が多いというのは知っておくといい。
少なくとも金が自分の懐に入るまでは、油断しないほうがいい。
もっとも、その後で知的所有権がなんだかんだ、で懐から
金が出てゆくこともあるから油断はできないが。
「ビビンバ」は、「混ぜご飯」の意味で、発音は“pi-bim-pap”。
「ビビン麺」は、「混ぜ麺」の意味で、表記は “bi-bim-guk-su”。
だけど、「ピビンパ」とか「ビビン飯」とか変換するとダメだと言われ、
「ビビングスク」とか変換するとダメだと言われる。
「じゃあ、どうすればいいのか?」という話になると、
「それは説明できないが、とにかくそうなんだ」と言われる。
まぁ、そんな連中はいっぱいいるので、べつに「韓国人は」
みたいなことで怒っているわけではないし、
ユーザの要求を聞き取って、具体的な仕様に落とすのが
システムエンジニアの仕事ではあるんだが、
自然言語処理の世界だと、「いやだー! いやだー!
そうじゃないんだー! うわぁぁぁぁぁぁぁ!」みたいな話で
ぶっ壊れる案件が多いというのは知っておくといい。
少なくとも金が自分の懐に入るまでは、油断しないほうがいい。
もっとも、その後で知的所有権がなんだかんだ、で懐から
金が出てゆくこともあるから油断はできないが。
576デフォルトの名無しさん
2018/07/19(木) 20:01:12.43ID:DUpb208V >>564
> どうせ文法なんて人間の都合で勝手に名付けた物だったり
> ルールがあると錯覚してるだけだし
「だから説明できないけどおれが正しい」って言われても、
説得できないのが自然言語処理。
で、説得しようとすると、「あんたは日本語処理とかなんとか
言ってるけど、あんたは日本語がわかってない」と言われる。
それが日本語処理業界の現実。
> どうせ文法なんて人間の都合で勝手に名付けた物だったり
> ルールがあると錯覚してるだけだし
「だから説明できないけどおれが正しい」って言われても、
説得できないのが自然言語処理。
で、説得しようとすると、「あんたは日本語処理とかなんとか
言ってるけど、あんたは日本語がわかってない」と言われる。
それが日本語処理業界の現実。
577デフォルトの名無しさん
2018/07/19(木) 20:29:21.21ID:DUpb208V これは言いたかなかったけど、
「支配者の言語」というのがあって、「被支配者の言語」の
言語表現を規制するのが「規範文法」。で、被支配者の
言語表現に対して、「それは文法に適っていない」と言えるのは、
支配者の権利だとする思想がある。
それがあるんで、左派の言語学者は「文法なんてない」と主張するし、
おれは「すべての言語表現において普遍的な原則」としての
「高精度の記述文法」というのを考えたワケ。
だから、おれが「あんたの表現は文法的に間違ってるぞ?」と
言うときは、「そういう言い方だと、他の奴には通じないぞ?」と
いう意味で使ってる。で、精神科医は、そういう発話を「言葉のサラダ」
と謂うんだ。
「支配者の言語」というのがあって、「被支配者の言語」の
言語表現を規制するのが「規範文法」。で、被支配者の
言語表現に対して、「それは文法に適っていない」と言えるのは、
支配者の権利だとする思想がある。
それがあるんで、左派の言語学者は「文法なんてない」と主張するし、
おれは「すべての言語表現において普遍的な原則」としての
「高精度の記述文法」というのを考えたワケ。
だから、おれが「あんたの表現は文法的に間違ってるぞ?」と
言うときは、「そういう言い方だと、他の奴には通じないぞ?」と
いう意味で使ってる。で、精神科医は、そういう発話を「言葉のサラダ」
と謂うんだ。
578デフォルトの名無しさん
2018/07/19(木) 21:01:52.09ID:zpCf8yuT >言葉のサラダ
お医者さんにそういわれたのか
言われたんだろうな…
お医者さんにそういわれたのか
言われたんだろうな…
579デフォルトの名無しさん
2018/07/20(金) 03:36:24.54ID:1ksMRsUr >>568
それでも研究費が出るからぬくぬくしてるんじゃないの?
それでも研究費が出るからぬくぬくしてるんじゃないの?
580デフォルトの名無しさん
2018/07/20(金) 06:28:12.00ID:GozXxEHN >>579
たぶん、ぬくぬくはしてないと思う。全体のパイが
小さいから、研究費(あるいは科研費)の奪い合いが
熾烈なんだと思う。だから、足の引っ張り合いになるんだろう。
日本語が論理式(モンタギュー文法)にうまく落ちないとか
形態素解析の精度が上がらないとかいうことになると、
「日本語は非・論理的だ」「日本語の文法は不完全だ」みたいな
ことを言いだして、「大規模データを統計的に処理すれば …」
とかいって予算を取ろうとする。
だから、哲学(論理学が絡むとこっちに該当する)とか
記述文法なんかやってる奴が下手に成果なんか上げちゃったら、
そいつらが困る。
たぶん、ぬくぬくはしてないと思う。全体のパイが
小さいから、研究費(あるいは科研費)の奪い合いが
熾烈なんだと思う。だから、足の引っ張り合いになるんだろう。
日本語が論理式(モンタギュー文法)にうまく落ちないとか
形態素解析の精度が上がらないとかいうことになると、
「日本語は非・論理的だ」「日本語の文法は不完全だ」みたいな
ことを言いだして、「大規模データを統計的に処理すれば …」
とかいって予算を取ろうとする。
だから、哲学(論理学が絡むとこっちに該当する)とか
記述文法なんかやってる奴が下手に成果なんか上げちゃったら、
そいつらが困る。
581デフォルトの名無しさん
2018/07/20(金) 10:16:08.42ID:B9AYu9ui >>571
韓国人はピもビも同じ文字を使って区別しないで発音してるけど、日本人が聞くとピビンバに聞こえるんだな。どっちの表記が正しいってこともないけど表記揺れはちょっともやもやするな。
日本語でも「パパ」って発音したとき1個目のパは有気音、2個目のパは無気音で発音するので、韓国人にしてみれば同じカナなのに別の発音してるって感じるはず。
韓国人はピもビも同じ文字を使って区別しないで発音してるけど、日本人が聞くとピビンバに聞こえるんだな。どっちの表記が正しいってこともないけど表記揺れはちょっともやもやするな。
日本語でも「パパ」って発音したとき1個目のパは有気音、2個目のパは無気音で発音するので、韓国人にしてみれば同じカナなのに別の発音してるって感じるはず。
582デフォルトの名無しさん
2018/07/20(金) 13:02:25.01ID:CcJkjASV 別に困んないけど
本当にpracticalならともかく
本当にpracticalならともかく
583デフォルトの名無しさん
2018/07/20(金) 13:26:52.30ID:c77xM4ns 朝鮮人パカするな
584デフォルトの名無しさん
2018/07/20(金) 14:58:22.06ID:GozXxEHN >>581
まぁ、「マンガ」「メガネ」の「ガ」は鼻濁音だし、
「軍歌」の「カ」と「軍靴」の「カ」は違うんだけど
(後者は「クワ(ワは小さく)」)、普通の日本人は
気にせんのだけどな。
>>583
おれは朝鮮人と呼ばれてバカにされても一向に気にしない
(大陸顔なのは理解している。鹿賀 丈史とか米倉 斉加年が
代表的な大陸顔だ)。
必ずしもすべての朝鮮人が馬鹿ではないし
(例を思い浮かべられないのがなさけないが、
呉 善花は入れておいていいかもしれないと思う)、
すべての馬鹿が朝鮮人だという話でもない
(馬鹿な日本人は少なからずいる)。
力道山や大山倍達や大木金太郎については
コメントは控えておきたい。
まぁ、「マンガ」「メガネ」の「ガ」は鼻濁音だし、
「軍歌」の「カ」と「軍靴」の「カ」は違うんだけど
(後者は「クワ(ワは小さく)」)、普通の日本人は
気にせんのだけどな。
>>583
おれは朝鮮人と呼ばれてバカにされても一向に気にしない
(大陸顔なのは理解している。鹿賀 丈史とか米倉 斉加年が
代表的な大陸顔だ)。
必ずしもすべての朝鮮人が馬鹿ではないし
(例を思い浮かべられないのがなさけないが、
呉 善花は入れておいていいかもしれないと思う)、
すべての馬鹿が朝鮮人だという話でもない
(馬鹿な日本人は少なからずいる)。
力道山や大山倍達や大木金太郎については
コメントは控えておきたい。
585デフォルトの名無しさん
2018/07/20(金) 15:05:41.59ID:GozXxEHN 千田是也さんが、関東大震災のときに、「朝鮮人が叛乱を
企てている」というので自警団が検問をしているときに
引っかかって、「『水道局』と言ってみろ」と言われ、
滑舌が悪くて「しゅっ … しゅいどうこく!」と言ったら
「鮮(せん)だ、これは。」と言われたので、「千田是也」という
ペンネームを使っていたというのは有名な話。
企てている」というので自警団が検問をしているときに
引っかかって、「『水道局』と言ってみろ」と言われ、
滑舌が悪くて「しゅっ … しゅいどうこく!」と言ったら
「鮮(せん)だ、これは。」と言われたので、「千田是也」という
ペンネームを使っていたというのは有名な話。
586デフォルトの名無しさん
2018/07/20(金) 15:11:04.74ID:GozXxEHN 「おれは東京生まれの東京育ちで、日本橋の出身だから
訛りなんかない」と豪語していた奴が同僚にいたので、
「だったら『潮干狩り』って言ってみろ」と言ったら、
しばらく絶句してから、「しっ …… しおしがり!」って
言ってから勝手に落ち込んでた。
ちなみに江戸弁だと「ひよしがり」が正。
「鮭」は「しゃけ」、「朝日新聞」は「あさししんぶん」。
かな漢字変換用の辞書には登録しておくのが吉。
訛りなんかない」と豪語していた奴が同僚にいたので、
「だったら『潮干狩り』って言ってみろ」と言ったら、
しばらく絶句してから、「しっ …… しおしがり!」って
言ってから勝手に落ち込んでた。
ちなみに江戸弁だと「ひよしがり」が正。
「鮭」は「しゃけ」、「朝日新聞」は「あさししんぶん」。
かな漢字変換用の辞書には登録しておくのが吉。
587デフォルトの名無しさん
2018/07/20(金) 15:19:37.45ID:GozXxEHN あと、「蠅帳」は、正訓は「はえちょう」。江戸弁では「はいちょう」。
「蚊帳」は、日本中「かや」。
「棟梁」の正訓は「とうりょう」。江戸弁では「とうりゅう」。
「道了尊」は、「どうりょうそん」と「どうりゅうさん」。
形態素解析っていうのは、ここまでやって一丁前。
「蚊帳」は、日本中「かや」。
「棟梁」の正訓は「とうりょう」。江戸弁では「とうりゅう」。
「道了尊」は、「どうりょうそん」と「どうりゅうさん」。
形態素解析っていうのは、ここまでやって一丁前。
588デフォルトの名無しさん
2018/07/20(金) 15:29:07.28ID:GozXxEHN >>582
「義足とか義手とかなくても、別に困んないけど。
おれ健常者だし」
「べつにハングル表記とかなくても、別に困んないけど。
おれに帆人だし」
「本当にpracticalならともかく」。
あーやだやだ、想像力とか共感性のない奴は。
「自然言語処理とかなくても、別に困んないけど。
普通に言葉分かってるし」ってぇ話だろ?
「義足とか義手とかなくても、別に困んないけど。
おれ健常者だし」
「べつにハングル表記とかなくても、別に困んないけど。
おれに帆人だし」
「本当にpracticalならともかく」。
あーやだやだ、想像力とか共感性のない奴は。
「自然言語処理とかなくても、別に困んないけど。
普通に言葉分かってるし」ってぇ話だろ?
589デフォルトの名無しさん
2018/07/20(金) 17:35:58.98ID:GozXxEHN590デフォルトの名無しさん
2018/07/20(金) 17:40:15.50ID:GozXxEHN あと、昔の越後の人は「し」と「す」の区別がつかなくて、
「伸びた“シ”と結んだ“シ”」というんで区別してた。
「お寿司」と「お獅子」とかな。
「伸びた“シ”と結んだ“シ”」というんで区別してた。
「お寿司」と「お獅子」とかな。
591デフォルトの名無しさん
2018/07/20(金) 18:01:44.97ID:GozXxEHN 日本橋の『たいめいけん』の茂出木 心護さんが、
越後の出身者は「えちご」と「いちご」が発音上
区別できなくて、「ストロベリー」と云われて
馬鹿にされたという話を書いている。
越後の出身者は「えちご」と「いちご」が発音上
区別できなくて、「ストロベリー」と云われて
馬鹿にされたという話を書いている。
592デフォルトの名無しさん
2018/07/20(金) 18:34:54.69ID:GozXxEHN 正しい日本語処理。
「やってみてくれ」
⇒金融機関が借入金を引き上げようとしているので、
なんか儲かりそうな話をでっち上げてくれ。
「やってくれ」
⇒「できません」とか言ったらぶっ殺すぞ。とにかく
儲けを出せ。
「上からの GO が出た」
⇒逃げ支度が済むまで引っ張れ。
「君には失望させられたよ」
⇒ぜんぶお前の責任だ。お前が尻拭いをしろ。おれらは
知らない。
そんなもんですよ。
「やってみてくれ」
⇒金融機関が借入金を引き上げようとしているので、
なんか儲かりそうな話をでっち上げてくれ。
「やってくれ」
⇒「できません」とか言ったらぶっ殺すぞ。とにかく
儲けを出せ。
「上からの GO が出た」
⇒逃げ支度が済むまで引っ張れ。
「君には失望させられたよ」
⇒ぜんぶお前の責任だ。お前が尻拭いをしろ。おれらは
知らない。
そんなもんですよ。
593デフォルトの名無しさん
2018/07/20(金) 18:57:49.52ID:TZxtxi0x 連投してる奴いろいろ書いてるけど
他人に対して何か伝える文章じゃないな
結局何が言いたいのかぼんやりしたまま
他人に対して何か伝える文章じゃないな
結局何が言いたいのかぼんやりしたまま
594デフォルトの名無しさん
2018/07/20(金) 19:55:29.19ID:GozXxEHN 人工無脳が なんか言ってますよ。
ところで、「なさい」「ください」「いらっしゃい」とかは、
文法的にいうと、動詞の活用としては何形になるのかねぇ?
ところで、「なさい」「ください」「いらっしゃい」とかは、
文法的にいうと、動詞の活用としては何形になるのかねぇ?
595デフォルトの名無しさん
2018/07/20(金) 20:02:56.67ID:GozXxEHN >>593
> 連投してる奴いろいろ書いてるけど
> 他人に対して何か伝える文章じゃないな
> 結局何が言いたいのかぼんやりしたまま
「 連投して(い)る奴(が)いろいろ(と)書いて(い)る[けど
(=「けれども」)]、他人に対して何か(を)伝え(「ようとしてい」?/
「られ」?)る文章[じゃ(=「では」の口語的に崩れた形)]ないな
結局、何が言いたいのか(が)ぼんやりしたまま(の)(何か)(だ)」 。
こんな屑な人口無脳を作った馬鹿は、どこの大学のどこの研究室の所属だ。
> 連投してる奴いろいろ書いてるけど
> 他人に対して何か伝える文章じゃないな
> 結局何が言いたいのかぼんやりしたまま
「 連投して(い)る奴(が)いろいろ(と)書いて(い)る[けど
(=「けれども」)]、他人に対して何か(を)伝え(「ようとしてい」?/
「られ」?)る文章[じゃ(=「では」の口語的に崩れた形)]ないな
結局、何が言いたいのか(が)ぼんやりしたまま(の)(何か)(だ)」 。
こんな屑な人口無脳を作った馬鹿は、どこの大学のどこの研究室の所属だ。
596デフォルトの名無しさん
2018/07/20(金) 20:05:19.46ID:GozXxEHN597デフォルトの名無しさん
2018/07/20(金) 20:41:02.84ID:TZxtxi0x598デフォルトの名無しさん
2018/07/20(金) 20:53:07.41ID:GozXxEHN >>597
> 自然な省略だろ
自然言語処理をやっているなら、何が自然なのかを説明してくれ。
>>かねぇ?
>ってのは口語的に崩れた形だろうが
そんな甘いツッコミを入れられてもサムいだけだ。
まぁ、ここのところ猛暑が続いているからご愛敬だけどな。
「動詞の活用としては何形になるのかねぇ?」
だったら、
「動詞の活用としては、何形になる(の)(でしょう)かねぇ?」
とツッコんでほしかった。「なる」は連体形だから、その後に何かが
省略していないと文が完結しないので、そのあとに「体言+コピュラ」が
省略されている、と推測するのが正解、くらいのツッコミが入ったら、
おれも素直に頭を下げられるんだが。
ついでながら、「ってのは」は「というのは」の、口語的に崩れた形だ。
> 自然な省略だろ
自然言語処理をやっているなら、何が自然なのかを説明してくれ。
>>かねぇ?
>ってのは口語的に崩れた形だろうが
そんな甘いツッコミを入れられてもサムいだけだ。
まぁ、ここのところ猛暑が続いているからご愛敬だけどな。
「動詞の活用としては何形になるのかねぇ?」
だったら、
「動詞の活用としては、何形になる(の)(でしょう)かねぇ?」
とツッコんでほしかった。「なる」は連体形だから、その後に何かが
省略していないと文が完結しないので、そのあとに「体言+コピュラ」が
省略されている、と推測するのが正解、くらいのツッコミが入ったら、
おれも素直に頭を下げられるんだが。
ついでながら、「ってのは」は「というのは」の、口語的に崩れた形だ。
599デフォルトの名無しさん
2018/07/20(金) 20:58:35.72ID:GozXxEHN >>597
> お前も人工無能な
文脈としては、
×人工無能
〇人工無脳
だと思うが。“も”っていうことは、お前は無能なんだな?
おれが人工無脳だったら、製作者はとっくにチューリング賞を
獲っとるわ。
> お前も人工無能な
文脈としては、
×人工無能
〇人工無脳
だと思うが。“も”っていうことは、お前は無能なんだな?
おれが人工無脳だったら、製作者はとっくにチューリング賞を
獲っとるわ。
600デフォルトの名無しさん
2018/07/20(金) 21:25:48.02ID:GozXxEHN くそう。叱られちゃったい。
> ないな
「ない(体言:省略)(コピュラ:省略)な」
> ぼんやりした
「ぼんやり(と:省略)した」
が正解。
> ないな
「ない(体言:省略)(コピュラ:省略)な」
> ぼんやりした
「ぼんやり(と:省略)した」
が正解。
601デフォルトの名無しさん
2018/07/20(金) 22:01:12.70ID:1ksMRsUr しよはしよじゃないの?
602デフォルトの名無しさん
2018/07/21(土) 06:57:48.94ID:HTyh/4m5603デフォルトの名無しさん
2018/07/21(土) 07:37:00.82ID:c9/IgS/z >>602
事実と意見は区別しないと、論文は通らないぞ?
事実と意見は区別しないと、論文は通らないぞ?
604デフォルトの名無しさん
2018/07/22(日) 06:53:00.75ID:HlH3bx5P >>そんな甘いツッコミ
> お前が自分に甘いだけだろ
> だから馬鹿なんだよ
せっかくだから自然言語処理に関係のある話をしておこう。
形容詞は暗黙の主語として話者を要求する。「>>602 は恥ずかしい奴だ」は
「>>602 は自分を恥じている」を含意しない。「>>602 は(話者である)私を
して“恥ずかしい”と感じせしめる人物である」という意味を内包している。
また、「とりたて詞『が』は強調転置を起こす」ので、
「お前が自分に甘い」は「自分に甘いお前」を含意するが、たいていの奴は
自分に甘い。
「だから馬鹿なんだよ」は、「だから」と「馬鹿」のどちらに強意があるかが
字面からは読み取れない。前者だとすると、「馬鹿」という概念が
すでに所与のものとしてあり、前提から導出が可能だ、と主張している
ことになるが、後者では、「馬鹿」というのは文中にトピックとして
出てきたことになる。
> お前が自分に甘いだけだろ
> だから馬鹿なんだよ
せっかくだから自然言語処理に関係のある話をしておこう。
形容詞は暗黙の主語として話者を要求する。「>>602 は恥ずかしい奴だ」は
「>>602 は自分を恥じている」を含意しない。「>>602 は(話者である)私を
して“恥ずかしい”と感じせしめる人物である」という意味を内包している。
また、「とりたて詞『が』は強調転置を起こす」ので、
「お前が自分に甘い」は「自分に甘いお前」を含意するが、たいていの奴は
自分に甘い。
「だから馬鹿なんだよ」は、「だから」と「馬鹿」のどちらに強意があるかが
字面からは読み取れない。前者だとすると、「馬鹿」という概念が
すでに所与のものとしてあり、前提から導出が可能だ、と主張している
ことになるが、後者では、「馬鹿」というのは文中にトピックとして
出てきたことになる。
605デフォルトの名無しさん
2018/07/22(日) 07:05:30.26ID:HlH3bx5P 日本人動物学者「こいつは馬鹿だ!」
満州アカシカ「いかにも私は馬鹿です」
満州アカシカ「いかにも私は馬鹿です」
606デフォルトの名無しさん
2018/07/22(日) 09:01:24.76ID:HlH3bx5P 日本語には体言の省略が多い(ただし異論はある)。
ただ、「その、省略された対象が何か」を推定するのに、
シソーラスと「その名詞にはどういう性質(内包的な意味)が
付与されているか」というデータが必要になってくる。
仮に百科語を二万語として、それだけのシソーラスを
作るのは並大抵の労力ではない。
そうすると、なにか限定されたジャンル(医学とか、化学とか)を
扱うしかなくなってくるが、それだと一般性が乏しくなる。
中学・高校あたりの理科系分野とかに狙いをつけるのが
いいんだろうか。
素人向けの医学・薬学・栄養学的な知識、というのも
考えたんだけど、厳密な体系にならないんだよね。
ただ、「その、省略された対象が何か」を推定するのに、
シソーラスと「その名詞にはどういう性質(内包的な意味)が
付与されているか」というデータが必要になってくる。
仮に百科語を二万語として、それだけのシソーラスを
作るのは並大抵の労力ではない。
そうすると、なにか限定されたジャンル(医学とか、化学とか)を
扱うしかなくなってくるが、それだと一般性が乏しくなる。
中学・高校あたりの理科系分野とかに狙いをつけるのが
いいんだろうか。
素人向けの医学・薬学・栄養学的な知識、というのも
考えたんだけど、厳密な体系にならないんだよね。
607デフォルトの名無しさん
2018/07/22(日) 12:40:16.29ID:HlH3bx5P >>606
もうひとつ、述語の中心である動詞の場合、要求する
「文法的な格」がどのようなものであるか、が明らかであって、
しかも「かかる」相手がどういうカテゴリーにあるか、というのが
分らないと、体言に附属した助詞が省略された場合に、「述語から
要求される文法格」が何であるかを推定できないんですよね。
「彼、スパゲティ、食べた」が、「彼はスパゲティを食べた」なのか
「スパゲティが彼を食べた」なのかは決定不能なのね。
「コタツが葬儀屋を食べた」は無意味文になりそうだけど、
映画『バトルヒーター』(一九八九)という文脈があったら、
「意味がある」と判断されると思うんだけど。
もうひとつ、述語の中心である動詞の場合、要求する
「文法的な格」がどのようなものであるか、が明らかであって、
しかも「かかる」相手がどういうカテゴリーにあるか、というのが
分らないと、体言に附属した助詞が省略された場合に、「述語から
要求される文法格」が何であるかを推定できないんですよね。
「彼、スパゲティ、食べた」が、「彼はスパゲティを食べた」なのか
「スパゲティが彼を食べた」なのかは決定不能なのね。
「コタツが葬儀屋を食べた」は無意味文になりそうだけど、
映画『バトルヒーター』(一九八九)という文脈があったら、
「意味がある」と判断されると思うんだけど。
608デフォルトの名無しさん
2018/07/23(月) 08:38:44.41ID:8XnpjG9G 一時期「ら抜き」が問題になってたけど、
「可能」と「尊敬」を区別できるという
メリットがあるので、一概に否定はできないと
思っている。だったら「れる」を「ことが可能である」と
入力時に機械的に置き換える(あるいは変換候補として出す)
くらいの芸はできんのか、とは思う。
一行めの「なってた」も「なっていた」が候補に出ていいし、
「あっさりした」も「あっさりとした」が正のはず。
入力時にチェックするのは難しいにしても、
テキストデータをチェックするくらいは簡単なように
思われるんだけどね。
「可能」と「尊敬」を区別できるという
メリットがあるので、一概に否定はできないと
思っている。だったら「れる」を「ことが可能である」と
入力時に機械的に置き換える(あるいは変換候補として出す)
くらいの芸はできんのか、とは思う。
一行めの「なってた」も「なっていた」が候補に出ていいし、
「あっさりした」も「あっさりとした」が正のはず。
入力時にチェックするのは難しいにしても、
テキストデータをチェックするくらいは簡単なように
思われるんだけどね。
609デフォルトの名無しさん
2018/07/23(月) 12:57:40.81ID:8XnpjG9G610デフォルトの名無しさん
2018/07/27(金) 14:22:16.44ID:q3ebuKRa 本番過ぎちゃったので時期遅れですが
You might or more heard a two fishes.
You might or more heard a two fishes.
611デフォルトの名無しさん
2018/07/27(金) 14:25:38.80ID:q3ebuKRa >>610
ダメだ。暑気中りが治ってない。
×You might or more heard a two fishes.
〇You might or more heard today's a two fishes.
冬バージョン
You might or more heard today's some fishes.
ダメだ。暑気中りが治ってない。
×You might or more heard a two fishes.
〇You might or more heard today's a two fishes.
冬バージョン
You might or more heard today's some fishes.
612デフォルトの名無しさん
2018/07/27(金) 20:23:15.22ID:dNDh2QHO613デフォルトの名無しさん
2018/07/28(土) 23:43:24.97ID:HVxOC8gw >>612
粋な先生だな。
じゃあ、「“ghoti”と書いて何と発音するか?」とか
習ったクチだな?
おれはすれっからしの自然言語処理屋なんで、
“Time flies like an arrow.”を
「時蠅は矢を好む。」とか「矢のように時を測れ。」とか
訳してしまうクチだ。
粋な先生だな。
じゃあ、「“ghoti”と書いて何と発音するか?」とか
習ったクチだな?
おれはすれっからしの自然言語処理屋なんで、
“Time flies like an arrow.”を
「時蠅は矢を好む。」とか「矢のように時を測れ。」とか
訳してしまうクチだ。
614デフォルトの名無しさん
2018/07/29(日) 00:46:36.29ID:TGkp0btZ >>613
象は鼻が長い、で二、三時間話ができそうだな。
象は鼻が長い、で二、三時間話ができそうだな。
615デフォルトの名無しさん
2018/07/29(日) 11:52:38.73ID:ecsh/nBS616デフォルトの名無しさん
2018/07/29(日) 12:05:56.01ID:ecsh/nBS 「象は鼻が長い」は、「象は鼻が長いのです」を含意し、
準体助詞の「の」の役割を考えると、「象は鼻が長いのです」
は「象は鼻が長い(X)(です)」を含意すると看做せると
解釈可能である。
しかしながら、「長い」は「鼻」を修飾しているので、X は
「哺乳類」「生物」とかいったものであると解釈するのが
妥当であろう。したがって、とりたて詞「が」によって「鼻」が
強調されて転置が怒り、「長い」の連体修飾という役割が、
結果として文構成のなかで引き継がれた、と解釈すると、
構文解析によって自然な解釈であろうと私は主張するのだ。
できればツッコミをよろしく。
準体助詞の「の」の役割を考えると、「象は鼻が長いのです」
は「象は鼻が長い(X)(です)」を含意すると看做せると
解釈可能である。
しかしながら、「長い」は「鼻」を修飾しているので、X は
「哺乳類」「生物」とかいったものであると解釈するのが
妥当であろう。したがって、とりたて詞「が」によって「鼻」が
強調されて転置が怒り、「長い」の連体修飾という役割が、
結果として文構成のなかで引き継がれた、と解釈すると、
構文解析によって自然な解釈であろうと私は主張するのだ。
できればツッコミをよろしく。
617デフォルトの名無しさん
2018/07/29(日) 12:34:29.98ID:2jsBPgao ここは「は」の機能に焦点をあてて説明した方がいいんじゃないのかな。
618デフォルトの名無しさん
2018/07/29(日) 14:10:34.39ID:ecsh/nBS >>617
「は」「が」は「とりたて詞」であって、「主格の格助詞」では
ない、とかいう主張はなかなか通らないんだよね。
そうすると「主格の格助詞が存在しない」ということに
なってしまうから(個人的には、ないと思っている)。
で、「は」「が」がつくと、格助詞が消えるという現象が
あると思っている。「をは」「をが」「にが」って使わないだろう?
「には」はあるし、「へは」「へが」「からは」「からが」「までは」
「までが」等々はあるわけだから、「『は』『が』はとりたて詞であって、
格助詞ではない」というのは強調しておきたいところだ。
「は」「が」は「とりたて詞」であって、「主格の格助詞」では
ない、とかいう主張はなかなか通らないんだよね。
そうすると「主格の格助詞が存在しない」ということに
なってしまうから(個人的には、ないと思っている)。
で、「は」「が」がつくと、格助詞が消えるという現象が
あると思っている。「をは」「をが」「にが」って使わないだろう?
「には」はあるし、「へは」「へが」「からは」「からが」「までは」
「までが」等々はあるわけだから、「『は』『が』はとりたて詞であって、
格助詞ではない」というのは強調しておきたいところだ。
619デフォルトの名無しさん
2018/07/29(日) 16:07:45.71ID:86TZxKJ6 言語学者とか要らなくなるね
620デフォルトの名無しさん
2018/07/29(日) 16:35:02.64ID:TGkp0btZ 文法の存在ってのは幻みたいなもんだと思うけど、言語にはよく分からんけど法則があることだけは確かなんだよなあ。
621デフォルトの名無しさん
2018/07/29(日) 16:59:44.89ID:jmfLAdWz >よく分からんけど法則
結局なんでもそうだし
機械学習やDLに向いてる分野ってことかな
でも法則自体は判らんでも何故かうまくこなすっていうAIっぽいのが生まれるっていう展開
結局なんでもそうだし
機械学習やDLに向いてる分野ってことかな
でも法則自体は判らんでも何故かうまくこなすっていうAIっぽいのが生まれるっていう展開
622デフォルトの名無しさん
2018/07/29(日) 19:07:58.68ID:XATyMGvf とりたて詞って副助詞のこと?
623デフォルトの名無しさん
2018/07/29(日) 20:06:05.33ID:ecsh/nBS >>622
おれらは自然言語屋なんで、むしろ「副助詞」の
定義がわからん。「ね」「さ」「よ」「な」「ぞ」
は、「強調助詞」と呼んでいる。「とりたて詞」は、
トピックであることを示すと同時に、語順の
転換が起きる。それを「強調転置」と呼んでいるので、
「用語の統一ができていない!」と叱られそうに思うが。
「だからね、そのあたりはさ、適当によ、塩梅してな、
欲しいぞ?」みたいなのは強調助詞、という話。
おれらは自然言語屋なんで、むしろ「副助詞」の
定義がわからん。「ね」「さ」「よ」「な」「ぞ」
は、「強調助詞」と呼んでいる。「とりたて詞」は、
トピックであることを示すと同時に、語順の
転換が起きる。それを「強調転置」と呼んでいるので、
「用語の統一ができていない!」と叱られそうに思うが。
「だからね、そのあたりはさ、適当によ、塩梅してな、
欲しいぞ?」みたいなのは強調助詞、という話。
624デフォルトの名無しさん
2018/07/30(月) 03:32:11.29ID:Rd2xs5Db よくわからん。
このスレはプログラム板のスレなんだからコンピュータで自然言語処理するのに有用な話をしてほしい
ぶっちゃけ、MeCabにもKNPにも出てこない品詞の話をされても意味がない。
このスレはプログラム板のスレなんだからコンピュータで自然言語処理するのに有用な話をしてほしい
ぶっちゃけ、MeCabにもKNPにも出てこない品詞の話をされても意味がない。
625デフォルトの名無しさん
2018/07/30(月) 07:03:35.67ID:9nIH/p+f end-to-endの時代なのにね
わざわざnmtに構文解析の結果をぶち込んでくるバカがいて
誰がやってんのかなと思ったら東大だった
わざわざnmtに構文解析の結果をぶち込んでくるバカがいて
誰がやってんのかなと思ったら東大だった
626デフォルトの名無しさん
2018/07/30(月) 08:31:39.90ID:ArBfASRB627デフォルトの名無しさん
2018/07/30(月) 08:45:24.47ID:ArBfASRB ぶっちゃけ形態素解析システムなんて自前で開発しても
たいした手間じゃないぞ? 方針が分かってりゃ
1人月くらいで書ける。
1)まず、形容詞を活用語尾で引っ掛けるルーチンを書く。
2)それを使って形容詞の辞書を作る。
3)それでコツを掴んだら、動詞で同じことをする。
4)受け身だとか尊敬だとか使役だとかの処理と、
各種の形態素の処理を書く。これは数が少ないので
大した手間じゃない。
5)残った奴は名詞句なので、助詞やらなんやらの処理を
考えつつ名詞の辞書を作る。
ただ、これをやると、「もうちょっと抽象化できんかな?」とか
考えてしまい、全部捨てて新しいシステムを書きたくなる。
ただ、ここまで来ると日本語の文法体系が頭に入っていて
必要な辞書はあらかた揃ってるから、勝負は早い。
たいした手間じゃないぞ? 方針が分かってりゃ
1人月くらいで書ける。
1)まず、形容詞を活用語尾で引っ掛けるルーチンを書く。
2)それを使って形容詞の辞書を作る。
3)それでコツを掴んだら、動詞で同じことをする。
4)受け身だとか尊敬だとか使役だとかの処理と、
各種の形態素の処理を書く。これは数が少ないので
大した手間じゃない。
5)残った奴は名詞句なので、助詞やらなんやらの処理を
考えつつ名詞の辞書を作る。
ただ、これをやると、「もうちょっと抽象化できんかな?」とか
考えてしまい、全部捨てて新しいシステムを書きたくなる。
ただ、ここまで来ると日本語の文法体系が頭に入っていて
必要な辞書はあらかた揃ってるから、勝負は早い。
628デフォルトの名無しさん
2018/07/30(月) 09:02:59.59ID:ArBfASRB 形態素解析システムを自前で開発すると、いくつか副作用があって、
「モーニング娘。」とか「藤岡弘、」とか見ると
反射的にイラッとくるようになる。
「モーニング娘。」とか「藤岡弘、」とか見ると
反射的にイラッとくるようになる。
629デフォルトの名無しさん
2018/07/30(月) 09:05:49.92ID:ArBfASRB あと、メモが手放せなくなる。
「さっぱりした」の「さっぱり」と、
「さっぱりわからん」の「さっぱり」は、
別の単語として辞書に登録したほうがいい、とか
その場でメモるからだ。
「さっぱりとした」は言うが、
「さっぱりとわからん」は普通言わない
(いう地方もあるかもしれんが)。
「さっぱりした」の「さっぱり」と、
「さっぱりわからん」の「さっぱり」は、
別の単語として辞書に登録したほうがいい、とか
その場でメモるからだ。
「さっぱりとした」は言うが、
「さっぱりとわからん」は普通言わない
(いう地方もあるかもしれんが)。
630デフォルトの名無しさん
2018/07/30(月) 09:10:43.80ID:z4Mxuxkf 作ったことないでしょ
631デフォルトの名無しさん
2018/07/30(月) 09:15:05.66ID:ArBfASRB いい面での副作用としては、
「文語」「(正体の)口語」「俗語的な口語」の
区別に敏感になる。
「むくつけし」「猛(たけ)し」「かそけし」のような
e 音で終わる形容詞は、文語にはあるが現代語にはない
(「むくつけい」「たけい」「かそけい」はない)。
「し」ではなく i 音で終わる形容詞は、俗語では使うが
正体では使わない。「みみっちい」「ばばっちい」などが
あり、「ずるっちい」を使う人はいる。
文語動詞では「子音終わりは四段」「母音終わりは一段」が
基本。ただし、母音は i, e しかない。
ところが、現代語では五段活用ワ行があり、a/o/u という
母音で終わっているのに五段活用、というややこしい話に
なっている。これは動詞末尾の h 音が消失しまったせいだが、
h 音の前が i/e である動詞は行き場がなくなって、けっこうな
騒動になっていることが形態素解析で判る。
「文語」「(正体の)口語」「俗語的な口語」の
区別に敏感になる。
「むくつけし」「猛(たけ)し」「かそけし」のような
e 音で終わる形容詞は、文語にはあるが現代語にはない
(「むくつけい」「たけい」「かそけい」はない)。
「し」ではなく i 音で終わる形容詞は、俗語では使うが
正体では使わない。「みみっちい」「ばばっちい」などが
あり、「ずるっちい」を使う人はいる。
文語動詞では「子音終わりは四段」「母音終わりは一段」が
基本。ただし、母音は i, e しかない。
ところが、現代語では五段活用ワ行があり、a/o/u という
母音で終わっているのに五段活用、というややこしい話に
なっている。これは動詞末尾の h 音が消失しまったせいだが、
h 音の前が i/e である動詞は行き場がなくなって、けっこうな
騒動になっていることが形態素解析で判る。
632デフォルトの名無しさん
2018/07/30(月) 09:22:41.82ID:ArBfASRB あるよ。新旧とりまぜて三つほどある。
1)C 言語ベタ書きバージョン、
2)C 言語文法分離バージョン、
3)Java で書き直してメモリリークや
ワイルドポインタを防止したバージョン。ただし、
Java の使い方が当時は よくわからなかったので、
多段解析を実装できなかったのが悔やまれる。
(2)のバージョンは、ローマ字英単語交じりの
文字列を漢字かな交じり文に変換する、というのも
可能だった。
あと、(2)と(3)は双方向のシステムで、
漢字かな交じり文の読みびらきと、かな漢字変換の
両方が同じシステムで可能だった。
1)C 言語ベタ書きバージョン、
2)C 言語文法分離バージョン、
3)Java で書き直してメモリリークや
ワイルドポインタを防止したバージョン。ただし、
Java の使い方が当時は よくわからなかったので、
多段解析を実装できなかったのが悔やまれる。
(2)のバージョンは、ローマ字英単語交じりの
文字列を漢字かな交じり文に変換する、というのも
可能だった。
あと、(2)と(3)は双方向のシステムで、
漢字かな交じり文の読みびらきと、かな漢字変換の
両方が同じシステムで可能だった。
633デフォルトの名無しさん
2018/07/30(月) 09:28:45.10ID:ArBfASRB あと、全件辞書引きは Google が使ってるダブル配列法じゃなくて、
その原形であるトリプル配列法を使ってる。
マルチバイト文字の場合、「辞書がコンパクトになる」という
ダブル配列法のメリットが生きなくて、トリプル配列のほうが
コンパクトになったりする。
まぁ、昨今のマシンは作業用のメモリがギガバイト単位なんで、
それほど気にする必要はないんだが。
ほかになんか質問ある?
その原形であるトリプル配列法を使ってる。
マルチバイト文字の場合、「辞書がコンパクトになる」という
ダブル配列法のメリットが生きなくて、トリプル配列のほうが
コンパクトになったりする。
まぁ、昨今のマシンは作業用のメモリがギガバイト単位なんで、
それほど気にする必要はないんだが。
ほかになんか質問ある?
634デフォルトの名無しさん
2018/07/30(月) 09:35:40.86ID:ArBfASRB ところで質問なんだけど、
MeCabとかKNPとかって、文語とか解析できるの?
文法って、どんな形で持ってるの?
品詞分類とか変えられるの?
MeCabとかKNPとかって、文語とか解析できるの?
文法って、どんな形で持ってるの?
品詞分類とか変えられるの?
635デフォルトの名無しさん
2018/07/30(月) 12:28:22.50ID:fs6nfZiK あ、古い人なんだ
636デフォルトの名無しさん
2018/07/30(月) 12:34:35.75ID:fs6nfZiK JAI-Parserとかかな
637デフォルトの名無しさん
2018/07/30(月) 12:41:04.42ID:ArBfASRB >>635
つーか、JUMAN と ほぼ同時期に開発したシステムだから、
茶筅とか MeCab とかは、はなから使ったことがないのよ。
unix 環境なんて、手近になかったからね。初代は PC-98 とかで
動かしてたらしい。
当初、辞書をフロッピーディスクに置いといたら、やたら
カッチャンカッチャンとアクセスするので、「ドライブが
壊れるかと思った」てな話を聞いた。で、その後「RAM
ドライブ」っちゅーのが出て、384 Kb くらいの「マシンから
見るとドライブだけど、じつはメモリ空間」っつーのができて、
そのあたりの心配はなくなった。
で、その後 IBM-PC 互換機ができてメモリ空間が広がったんで
普通に実メモリ空間に置いて、アスキーの出版技術部の
TEX のチームの前でデモしたら、「それで?」と言われたそうだ。
あんまり処理が速かったんで、ただファイルを出力してただけだと
思われていた、というオチがついている。
つーか、JUMAN と ほぼ同時期に開発したシステムだから、
茶筅とか MeCab とかは、はなから使ったことがないのよ。
unix 環境なんて、手近になかったからね。初代は PC-98 とかで
動かしてたらしい。
当初、辞書をフロッピーディスクに置いといたら、やたら
カッチャンカッチャンとアクセスするので、「ドライブが
壊れるかと思った」てな話を聞いた。で、その後「RAM
ドライブ」っちゅーのが出て、384 Kb くらいの「マシンから
見るとドライブだけど、じつはメモリ空間」っつーのができて、
そのあたりの心配はなくなった。
で、その後 IBM-PC 互換機ができてメモリ空間が広がったんで
普通に実メモリ空間に置いて、アスキーの出版技術部の
TEX のチームの前でデモしたら、「それで?」と言われたそうだ。
あんまり処理が速かったんで、ただファイルを出力してただけだと
思われていた、というオチがついている。
638デフォルトの名無しさん
2018/07/30(月) 12:41:58.32ID:ArBfASRB >>636
なんで知ってんだ?
なんで知ってんだ?
639デフォルトの名無しさん
2018/07/30(月) 12:42:57.61ID:fs6nfZiK 文体と興味が特徴的すぎる
640デフォルトの名無しさん
2018/07/30(月) 12:49:03.23ID:ArBfASRB641デフォルトの名無しさん
2018/07/30(月) 18:23:05.86ID:fs6nfZiK たまごとかの世代ですが何か?
642Mr.Moto
2018/07/30(月) 19:38:47.79ID:ArBfASRB643Mr.Moto
2018/07/30(月) 21:22:57.38ID:ArBfASRB たいへん・またせて・ごめんなさい
644Mr.Moto
2018/07/30(月) 21:25:45.64ID:ArBfASRB 「くるまでまつ」
「はくさいやだいこんなどのやさいが」
「やまのうえにはながさきました」
懐かしいのぅ。
「はくさいやだいこんなどのやさいが」
「やまのうえにはながさきました」
懐かしいのぅ。
645Mr.Moto
2018/07/30(月) 21:29:31.72ID:ArBfASRB 今は、
「長く庄内平野を転々としながらも私は肘折の渓谷に分け入るまで
月山がなぜ月の山と云われるのかを知りませんでした」
を、一発で構文解析できるシステムをインプリメントしようと
思案中。
「長く庄内平野を転々としながらも私は肘折の渓谷に分け入るまで
月山がなぜ月の山と云われるのかを知りませんでした」
を、一発で構文解析できるシステムをインプリメントしようと
思案中。
646Mr.Moto
2018/08/02(木) 17:06:15.29ID:qDXNPl4s スレが止まってるのが気にくわんなぁ。
せっかくの夏休みなのに、
喧嘩売ってくるとか、
質問してくるとか、
なんかスレを伸ばすような話題はないのか?
自然言語処理をやってる研究室は何をやっとるんだ?
せっかくの夏休みなのに、
喧嘩売ってくるとか、
質問してくるとか、
なんかスレを伸ばすような話題はないのか?
自然言語処理をやってる研究室は何をやっとるんだ?
647デフォルトの名無しさん
2018/08/03(金) 10:26:42.91ID:G5/K3zuO 昔のソースを発掘したのはいいが、
なにせ量が多すぎて頭を抱えている。
辞書管理とかとツールが多いんだよなぁ ……
やっぱり日本語処理システムの開発は、
ある程度頭数が揃ってないとしんどいわ。
なにせ量が多すぎて頭を抱えている。
辞書管理とかとツールが多いんだよなぁ ……
やっぱり日本語処理システムの開発は、
ある程度頭数が揃ってないとしんどいわ。
648デフォルトの名無しさん
2018/08/03(金) 12:24:06.18ID:zviFVEVF githubで公開すれば?
649デフォルトの名無しさん
2018/08/03(金) 15:27:48.96ID:G5/K3zuO650デフォルトの名無しさん
2018/08/03(金) 21:12:14.93ID:7Jwc2PzI 自分から閉ざしちゃいかん
652Mr.Moto
2018/08/06(月) 06:44:57.20ID:C/D04uYr スキーマと辞書の扱いを、どうすりゃいいのかな?
A)田中は台所でカップ焼きそばを作っている。
B)田中は工場でカップ焼きそばを作っている。
があって、
C)田中は栃木でカップ焼きそばを作っている。
は、どう解釈するか、っちゅーのが問題なんだが。
A)田中は台所でカップ焼きそばを作っている。
B)田中は工場でカップ焼きそばを作っている。
があって、
C)田中は栃木でカップ焼きそばを作っている。
は、どう解釈するか、っちゅーのが問題なんだが。
653Mr.Moto
2018/08/06(月) 13:59:40.47ID:C/D04uYr 漢字二字熟語で置きかえるというのはひとつの手段ではあるのだが、
A)田中は台所でカップ焼きそばを作っている。
→田中は台所でカップ焼きそばを調理している。
B)田中は工場でカップ焼きそばを作っている。
→製造している/開発している。
くらいはOKとして、
「子供を作っている」とか「家庭を作っている」とか
いうのは、なかなか説明しづらいものがあるように思う。
A)田中は台所でカップ焼きそばを作っている。
→田中は台所でカップ焼きそばを調理している。
B)田中は工場でカップ焼きそばを作っている。
→製造している/開発している。
くらいはOKとして、
「子供を作っている」とか「家庭を作っている」とか
いうのは、なかなか説明しづらいものがあるように思う。
654デフォルトの名無しさん
2018/08/07(火) 09:52:26.98ID:kx2eUWnl 昔ながらの方法だな
いずれ収拾がつかなくなるだろう
いずれ収拾がつかなくなるだろう
655デフォルトの名無しさん
2018/08/07(火) 12:45:26.68ID:DcjP7j/S656Mr.Moto
2018/08/07(火) 19:12:08.68ID:DcjP7j/S かなり昔の話だが、
『ぼんさんがへをこいた』というパソコンの
ソフトがあった。
今日、近所のローソンへ行ったら、なんかしら
レジのところに『おいしいおでんのつくり方』という
のが置いてあって、「これって書籍ですか? それとも
店内のマニュアルですか?」と訊いたら、「あ、これは
店内用のマニュアルです」という返答だった。
「おいしいおでんのつくり方」をコンピュータに説明できるか、
というのは、けっこうテーマになりそうに思う。
『ぼんさんがへをこいた』というパソコンの
ソフトがあった。
今日、近所のローソンへ行ったら、なんかしら
レジのところに『おいしいおでんのつくり方』という
のが置いてあって、「これって書籍ですか? それとも
店内のマニュアルですか?」と訊いたら、「あ、これは
店内用のマニュアルです」という返答だった。
「おいしいおでんのつくり方」をコンピュータに説明できるか、
というのは、けっこうテーマになりそうに思う。
■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 橋下徹氏 外務省幹部の訪中受け「口だけ番長」へ痛烈指摘 「喧嘩は日本の完敗…なんとかっこ悪い日本か」 [冬月記者★]
- 【外国人問題】小野田紀美担当相「不法就労や不法滞在は許さない」 [シャチ★]
- 【野球】井端監督 大谷翔平、山本由伸らのWBCへの参加 「1日も早く返事ほしい」「待っててといっても、国内組が遅くなってしまう」★3 [冬月記者★]
- 経団連会長、日中は建設的対話を 経済3団体が高市首相と初会談も日中関係は話題に登らず… [BFU★]
- 東京株式市場 インバウンド関連株が下落 中国政府の渡航自粛要請で [バイト歴50年★]
- 中国で「クレしん」公開延期 対日報復、エンタメに波及 [蚤の市★]
- 【高市早苗】習近平激怒か [115996789]
- 中国「高市が頭を下げて謝罪しない限り、絶対に許さない」 [329329848]
- 🏡
- 一人で行かないほうがいい板
- 有識者「高市総理が発言を撤回したり、辞職するしかないと言っている人は、それで日中関係が今まで通りになると思ってる?」 [834922174]
- 減税は低所得者差別
