X



自然言語処理スレッド その4
レス数が1000を超えています。これ以上書き込みはできません。
0504デフォルトの名無しさん
垢版 |
2018/06/26(火) 00:19:49.53ID:suPxm0NB
冒険者の広場では提案広場・あしあと伝言板にて言論規制がしかれている。
提案広場では主にスクエニに対して不利になるような発言
WiiUで発売してすぐ、ウィンドウズ版では出さないといっておきながら
発売を発表、それにより広場は荒れたものの、超速で削除。
両手剣スレイプニールのチート問題、これもチート行為は絶対にないと
いいきってからの問題発覚、これも荒れて超速削除。
他全年齢対象のためちょっとでも卑猥と感じる内容は削除
ネタバレと書かなければ、ネタバレと思われるものは削除
これについては運営側がネタバレと加筆すればいいだけの話だと思うけど。
あしあと伝言板は悪口と思われる内容の言葉が含まれていれば
自動で削除される。
この装備イカす→カス
ちょっとバカンスに行ってきます→バカ
パチンコばっかりいってた→チンコ
どう考えても冤罪削除。しかも累積すると冒険者の広場利用停止。
横暴。
ちなみに冤罪削除を訴えた発言も削除される。
異議申し立ても悪だというらしい。
サポートセンターに問い合わせたところ、調べてもくれなかった。
https://ameblo.jp/cinnamon-rilakkuma/entry-12317442377.html
0505デフォルトの名無しさん
垢版 |
2018/07/04(水) 22:07:34.62ID:gFgZc5FG
5UX
0508Mb
垢版 |
2018/07/16(月) 06:02:54.03ID:RFTF6J3p
省略のある文を構文解析するときに、
あらかじめ「省略がある」と解っている場合は
いいんだが、文法が間違ってて「ないはずの省略が
あることになってしまっている」場合は
ややこしい話になりそうに思う。
「すごく面白い」は「省略なし」で「すごく」が
「面白い」にかかるんだが、「すごい面白い」だと、
構文解析木自体が変わってきてしまう。
それとも、「解析木自体が違う」と認識して、
もっと上位の意味解析とかで処理するほうが
いいのかね?
0509Mb
垢版 |
2018/07/16(月) 06:18:39.78ID:RFTF6J3p
逆に、誤用とか慣用として、辞書レベルで処理しちゃったほうが
実用上は便利なのかね?
「そうすべきだ」なんていうのは、構造としては、
「そうするべきことだ」のはずなんだが、
「××する」みたいな附属語的な用法や、「漢字一字+s」
の形の五段活用動詞の連体形の変化形とは違って、単独の
「する」の連体形が「す」として使われる例はあんまりない
(文語じゃねぇんだから)。
で、「べき」は連体形だから、助動詞「だ/です/である」に
接続する場合は、本来は間に体言が入らないとおかしい。
でなかったら、「べし」と命令形にしちゃうのが文法的には
正だろう。
こういうのは、処理の観点からいうと、どう扱ったらいいのかね?
0511Mb
垢版 |
2018/07/16(月) 08:41:11.73ID:RFTF6J3p
>>510
それは、「おれは好きにするからユーザは文句言うな」
なのか、「ユーザが好きに処理できるように、アプリに
自由度を持たせろ」なのか。
0512Mb
垢版 |
2018/07/16(月) 08:48:33.94ID:RFTF6J3p
そもそも、「人間のチェックには漏れがある」から
「コンピュータにチェックさせる」のが本筋なのに、
「コンピュータの解析精度が低いから、人間が
処理結果をチェックしないといけない」というのが
本末転倒だ。
標準表記外音は『常用漢字表』(昭和56内閣告示)によれば、
「時」には「と」の音はないため、「時計」を「とけい」と読むと
表記外になるとか、「日」には「に」の音はないため、「日本」を
「にほん」と読むと表記外となるとか、そんなの人間がチェックしたら
見落とすに決まってるだろ。
「じゃあ、他にはそういう例があるのか?」とかいったデータくらい、
ちゃんと用意してどっかに公開しておけというのだ。
0513Mb
垢版 |
2018/07/16(月) 11:05:42.72ID:RFTF6J3p
だいたい、中学校で
「活用するのが『用言』で、活用しないのが『体言』」とか
教えてるくせに、
天(あめ→あま)
天日嗣(あまつひつぎ)・天津日嗣(あまつひつぎ)・天照大神(あまてらすおおみかみ)・天の川(あまのがわ)・天水(あまみず)
雨(あめ→あま)
雨足(あまあし)・雨脚(あまあし)・雨蛙(あまがえる)・雨傘(あまがさ)
・雨具(あまぐ)・雨乞い(あまごい)・雨水(あまみず)・雨漏り(あまもり)
雨(あめ→さめ)
秋雨(あきさめ)・霧雨(きりさめ)・小雨(こさめ)・細雨(ささめ)
・春雨(はるさめ)・氷雨(ひさめ)・村雨(むらさめ)
とかいうのはどう説明したらいいんだよ。
「日本語処理の技術者は、中学校レベルの文法知識も持っていない」って、
中学校で教えるのかよ。
で、高校受験や大学受験で、「本当のこと」を主張したら減点されて
不合格のリスクを負うのか?
それっておかしいとは、おまいら自然言語処理をやっている人間は思わんのか。
0514デフォルトの名無しさん
垢版 |
2018/07/16(月) 11:21:56.62ID:Tl1DHPio
>「活用するのが『用言』で、活用しないのが『体言』」とか
>教えてるくせに、

ええぇぇぇっ
0515Mb
垢版 |
2018/07/16(月) 11:36:38.15ID:RFTF6J3p
>>514
> ええぇぇぇっ
いや、ここは驚くとこじゃねぇだろう。
中学二年で習う「文法」だと、
まず「自立語」と「附属語」の区別があって、
自立語のうち「その役割によって形を変える語」を
「用言」といい、「形を変えない語」を「体言」というと、
しっかり教科書に書いてある。
だもんだから、教師はそれを信じてテストの問題を作り、
それに「教師が正しいと思った解答」を書かなかった
児童・生徒は成績評価が低くなる。
で、「それはおかしいんじゃないですか?」とかいって
文句をつける保護者は、「モンスター・ペアレント」として
扱われる。

めでてぇな。
0516デフォルトの名無しさん
垢版 |
2018/07/16(月) 11:36:41.25ID:1RDPQ2ba
最近少し興味を持った初心者なのですが、
2ch用語やギャル語、話し言葉や文法的な違いはどのような手順で処理されるのですか?

例えば、

>それっておかしいとは、おまいら自然言語処理をやっている人間は思わんのか。

おまいら自然言語処理をやっている人間は、それっておかしいとは思わんのか。

あなた方の様に自然言語の処理を行う人達は、「それはおかしい」と思わないのですか?
0517デフォルトの名無しさん
垢版 |
2018/07/16(月) 11:54:52.76ID:KKQqxuup
>>515
その「教え方(ほんとなら)」に驚いてるんじゃなくて

>>513 の認識に驚いてる
0518デフォルトの名無しさん
垢版 |
2018/07/16(月) 12:10:49.45ID:LulkQD8r
しょせんは人が決めた分類なんで従うしかない

って書こうとしたけど
漢字って単語のさらに一部分で雨水はいつだってあまみずだから
雨水を単語として分類するとき体言にするのはべつに間違ってないような

https://kotobank.jp/word/%E4%BD%93%E8%A8%80-91058
定義もっとこまかかった最初の前提からちがう
0519Mb
垢版 |
2018/07/16(月) 12:54:56.73ID:RFTF6J3p
>>518
> 漢字って単語のさらに一部分で雨水はいつだって「あまみず」だから
 開く(あく/ひらく)
 開ける(あける/ひらける)
 温める(あたためる/あっためる/ぬくめる)
 暖める(あたためる/あっためる)
 温まる(あたたまる/ぬくまる)
 言う・謂う・云う(いう/ゆう)
 怒る(いかる/おこる)
 行く・逝く・往く(いく/ゆく)
 射殺した(いころした/しゃさつした)
 抱く(いだく/だく)
 行った(いった/おこなった)
 出し((文)いでし/(現)だし/(文)でし)
 居る(いる/×おる)
 入る(いる/はいる)・入れない(いれない/はいれない)
 得る(うる/える)
(以下、規制に引っかかるので省略)
「雨水溝」は、「うすいこう」なのよ。
0520Mb
垢版 |
2018/07/16(月) 13:03:08.07ID:RFTF6J3p
>>516
> 2ch用語やギャル語、話し言葉や文法的な違いはどのような手順で
> 処理されるのですか?
いや、普通に処理してるけど?
「文法格の一意性」とか「非交差則」とかで説明できるんだけど。
ただ、「処理の結果が気にくわない!」って言ってる、自然言語処理
分野のヒトが邪魔してるだけだし。文語文法とかの研究者は、
「使えるツールがあれば欲しい」っていう要望があるんだけど。
そのあたりは早稲田大学の文理学部の筧先生とかに嘆願してね。
0521Mb
垢版 |
2018/07/16(月) 13:08:49.98ID:RFTF6J3p
>>518
「の」とか「ん」で表される、いわゆる「準体助詞」は
主語にならないから体言じゃないんだな?
0522Mb
垢版 |
2018/07/16(月) 13:12:52.10ID:RFTF6J3p
>>516
そのあたりは運用上の意味論がある。
わりと有名な例だが、
「てめぇは馬鹿か?」は通るが、
「あなたは知恵遅れではありませんか?」と
言ったら、血の雨が降る。
0523Mb
垢版 |
2018/07/16(月) 13:16:06.01ID:RFTF6J3p
慣用・誤用、あるいはいわゆる“百姓読み”

口腔外科
「こうくうげか」ではなく「こうこうげか」。
清拭
「せいしき」ではなく「せいしょく」。
独壇場
正しくは「独擅場」と表記して、「どくせんじょう」。
疾病
「しつびょう」ではなく「しっぺい」。
偏執狂
「へんしつきょう」ではなく「へんしゅうきょう」。
情緒
慣用は「じょうちょ」。正式には「じょうしょ」。
膏肓
「病、膏肓に入る」は「やまいこうもうにいる」ではなく「やまいこうこうにいる」。
捏造
慣用は「ねつぞう」。正式には「でつぞう」。「捏ち上げる」は「でっちあげる」。
0524Mb
垢版 |
2018/07/16(月) 13:17:32.40ID:RFTF6J3p
>>523
あ、ごめん。うっかり送信しちゃった。
0525Mb
垢版 |
2018/07/16(月) 13:22:00.06ID:RFTF6J3p
>>519
続き。
 脅かす(おどかす/おびやかす)
 下り(おり/くだり)
 降り(おり/ふり)
 解す(かいす/ほぐす)
 通った(かよった/とおった)
 来る(きたる/くる)
 汚す(けがす/よごす)
 汚れる(けがれる/よごれる)
 煙る(けぶる/けむる)
 扱く(こく/しごく)
 栄える(さかえる/はえる)
 誘う(さそう/いざなう)
 認める(したためる/みとめる)
 狭まる(せばまる/はさまる)
 狭める(せばめる/はさめる)
 初めて(そめて/はじめて)
 逸らす(そらす/はやらす)
 逸れる(それる/はぐれる/はやれる)
 違う(たがう/ちがう)
 尊ぶ(たっとぶ/とうとぶ)
 貴ぶ(たっとぶ/とうとぶ)
 違える(たがえる/ちがえる)
 吐く(つく/はく)
 留める(とめる/とどめる)
 留まる(とまる/とどまる)
 叩く(たたく/はたく)
 弾く(はじく/ひく)
 瞬く(またたく/まばたく)
0526Mb
垢版 |
2018/07/16(月) 13:25:35.64ID:RFTF6J3p
せっかくだから、最後までやっとこうか。
 (文)悪し(あし/わろし)
 良い・善い・好い(いい/よい)
 鈍い(にぶい/のろい)
 辛い(からい/つらい)
 難い(かたい/にくい)
 臭い(くさい/におい)
 尊い(たっとい/とうとい)
 貴い(たっとい/とうとい)
 難しい(むずかしい/むつかしい)
 (文)良し(よし/よろし)

(まだ続く)
0527Mb
垢版 |
2018/07/16(月) 13:26:51.56ID:RFTF6J3p
 (文)悪し(あし/わろし)
 良い・善い・好い(いい/よい)
 鈍い(にぶい/のろい)
 辛い(からい/つらい)
 難い(かたい/にくい)
 臭い(くさい/におい)
 尊い(たっとい/とうとい)
 貴い(たっとい/とうとい)
 難しい(むずかしい/むつかしい)
 (文)良し(よし/よろし)

抜けてる例があったら知らせてくれ。
0528Mb
垢版 |
2018/07/16(月) 13:29:11.05ID:RFTF6J3p
で、質問があったらカモーン! 歓迎するぜぇ!
0529Mb
垢版 |
2018/07/16(月) 13:49:08.35ID:RFTF6J3p
>>517
> その「教え方(ほんとなら)」に驚いてるんじゃなくて
中学校の国語教科書なら神保町の三省堂書店で
売ってるから確かめてみたらどうだ。
0530Mb
垢版 |
2018/07/16(月) 15:36:36.28ID:RFTF6J3p
ところで、
「ところで」を漢字で表記する場合、
「処で」「所で」「處で」のどれが正しいのか、
知っているヒトがいるんだったら教えてほしい。
本当に。
0531デフォルトの名無しさん
垢版 |
2018/07/16(月) 16:15:34.93ID:Od4s/iux
>>523
確執は?
0532Mb
垢版 |
2018/07/16(月) 16:59:58.75ID:RFTF6J3p
>>531
それは別板の話題だと思うが …
「固執」「執事」「偏執狂」との絡みで解決してくれい。
0534Mb
垢版 |
2018/07/16(月) 17:22:46.07ID:RFTF6J3p
>>533
べつにおれの知ったこっちゃないんだが、
あっちゃこっちゃの板でヒトに嫌われるようなコトを
ホザいてたからだろう。
0535Mb
垢版 |
2018/07/16(月) 17:30:44.70ID:RFTF6J3p
>>533
なんか知らんが、数学板とかプログラマ板とか、
あっちゃこっちゃで粘着してくる香具師がいるんだよ。
どうしたもんかなぁ …
0536デフォルトの名無しさん
垢版 |
2018/07/16(月) 18:49:32.10ID:Weu21Vcy
国文法の細かい話題に参加する気はないが
人間が文法を間違えたときにどう処理するかは
自然言語処理で昔から問題になってる
0537Mb
垢版 |
2018/07/16(月) 21:00:28.41ID:RFTF6J3p
>>536
> 昔から問題になってる
っつーのはよく解る。
清少納言が「べきにもあらず」とか
書いてるけど、文法的には「べからず」が
正しいと思う。

「慣用形」として認めるのはアリだと思うが、
しょっちゅう使うから「慣用」なんであって、
そこを網羅するのがコンピュータの出番だと
思うんだがどうだろう。

つーか、記述文法の精度が低すぎるのが
本来の問題なんだが、

おまいら記述文法を舐めてねぇか?

という連中が自然言語処理業界に多すぎるのが
問題だと思うが。
0538デフォルトの名無しさん
垢版 |
2018/07/16(月) 21:05:53.77ID:LulkQD8r
憤慨ポイントがよくわからない

自分のアプリで処理できないから怒ってるのか?
0539Mb
垢版 |
2018/07/16(月) 21:14:19.70ID:RFTF6J3p
>>536
“じつは”というか、“ぶっちゃけ”というか、
もう四半世紀(要するに二十五年以上)前から、
そこいらにあるパソコンの(形態素解析レベルの)チェック
能力は、人間を軽く超えているんだよ。
ただ、構文解析に関しては、国語学とか自然言語処理とか
数学とかコンピュータサイエンスとか認知心理学とか、
そのあたりの合意がとれてないわけよ。
だから、そのあたりを整理する必要があるわけなんだけど、
苫米地 英人とかが引っ掻き回しやがってバカヤロウ、
みたいな話があるんだわ。
0540Mb
垢版 |
2018/07/16(月) 21:24:18.35ID:RFTF6J3p
>>538
そもそも先人の業績をないがしろにしてるところが
気にくわんのだよ。
処理はできるんだが、その結果が「気に食わん」という奴が
いるわけだ。
「文法格の一意性」とか「非交差則」とか言うと、
学会で「こいつ GC とか信じてやがる pgr」とか云われるんだよ。
0541Mb
垢版 |
2018/07/16(月) 21:28:39.50ID:RFTF6J3p
>>540
× GC
〇 CG
汎文法(common grammer)な。
「文を構成するのは述語である」とか、
「述語に対する役割が、文法格である」とかいった、
「言語には、基本的な構成要素がある」っていう
構造主義的な立場だ。
0542デフォルトの名無しさん
垢版 |
2018/07/16(月) 21:48:34.53ID:LulkQD8r
文法よりまずおまえの頭を整理したほうがいいきがする
結局なにゆーてんかわからん
0543Mb
垢版 |
2018/07/16(月) 22:09:23.58ID:RFTF6J3p
>>542
とりあえず、トポロジーとかカタストロフィ理論とかから
勉強してきてくれるとありがたいんだが。
一から説明してると面倒臭いんだわ。

「私はラーメンを餃子を喰う」とは言わんだろ?
「私はラーメンと餃子を喰う」んだわ。
「喰う」という動詞に対して、文法格を
持つ対象は一意なんだよ。だから、「ラーメンと餃子」というふうに、
集合体になってるわけ。これが、「文法格の一意性」。
0544デフォルトの名無しさん
垢版 |
2018/07/16(月) 22:12:55.13ID:LulkQD8r
2行目で頭がフットーした
絶対おれの知識不足じゃなくてお前の話し方に問題がある
0545Mb
垢版 |
2018/07/16(月) 22:12:55.55ID:RFTF6J3p
>>542
でもって、昔(文語文法)は形容詞は述語になってたんだが、
いまの文法(いわゆる学校文法)では、形容詞は述語に
ならんのよ。だから、

「象は鼻が長い」

は、「述語がないのに主語が二つもあるのはおかしい!」という
批判が出てるわけ。

おわかりか?
0546デフォルトの名無しさん
垢版 |
2018/07/16(月) 22:28:36.42ID:LulkQD8r
文法の細かいことはほとんどわからんが

ようはその文法格とかをメインに考えてきたおまいらの方針が
AIとかの漠然とした解析方法に押されて消えちゃいそうで
危機感を感じて発狂してるということなのか?
0547デフォルトの名無しさん
垢版 |
2018/07/16(月) 22:55:46.12ID:LulkQD8r
批判ってつまり
今の文法格の考え方じゃ対処できてないじゃんって
おまいさんが突っ込まれたってことだよね

誰かが日本語の文法批判してるみたいじゃねーかまぎらわしい


それともなにか
本当に教育に干渉して日本語の文法に変更を加えようとしてるのか
0548Mb
垢版 |
2018/07/17(火) 09:14:36.43ID:iAzNVHws
>>547
> 誰かが日本語の文法批判してるみたいじゃねーか
> まぎらわしい
国語学者が中学校の現代国語で教えられている
「いわゆる学校文法」を批判してるんだよ。
「学校文法 批判」でググると五十万件以上
ヒットするから読んでみるといい。
特に、文語文法を教えてる先生は、言葉が通じなくて
頭を抱えてる。
0549Mb
垢版 |
2018/07/17(火) 09:25:46.63ID:iAzNVHws
>>546
つーか、自然言語処理自体が AI の一分野なんだよ。
だけど、事前言語処理をやっている人間の多くは
學校文法の延長でしか日本語の文法を捉えていないので、
日本語処理の技術の進歩が停滞しとるのよ。
0550Mb
垢版 |
2018/07/17(火) 09:28:18.11ID:iAzNVHws
>>547
これなんか、よくまとまってる。
ttps://ci.nii.ac.jp/els/contentscinii_20180717092612.pdf?id=ART0001102905
0551Mb
垢版 |
2018/07/17(火) 09:34:38.84ID:iAzNVHws
なお、本居春庭が悪いとか、橋本進吉が悪いとかいう話ではない
(大野晋先生は橋本進吉先生の弟子)。
中学校の文法教育が、文法嫌いを六十年以上拡大再生産
しているのが悪い、っちゅー話。
0553Mb
垢版 |
2018/07/17(火) 14:40:42.81ID:iAzNVHws
>>552
ある。「かな漢字変換」とか「ローマ字かな変換」とかな。
「programwo」は、本来なら「プログラム(program)を」と
変換してほしいところだが、「pろgらmを」と変換される。
これを「AI の限界」とか言ってる奴も多いが、
技術的にはすでに解決されてる。
0554Mb
垢版 |
2018/07/17(火) 14:50:17.21ID:iAzNVHws
>>552
かな漢字変換システムの形容詞の辞書登録で、
「i」とか「e」とかで終わる形容詞を登録してみ?
「i」終わりは「みみっちい」「ばっちい(ばばっちい)」
くらいしか存在しないので、登録時のチェックで注意喚起
してくれるのが正しいありかただ。
「e」末尾は、「かそけき」「さやけき」「むくつけき」「猛き」
あたりが該当するが、現代語の連体形が存在しないので、
「かそけい」「さやけい」「むくつけい」「猛い」が
変換候補として出てきたときに腹が立つかどうか、という
話になる。
0555Mb
垢版 |
2018/07/17(火) 14:55:42.16ID:iAzNVHws
でもって、自然言語処理というのは、一般的に
「形態素解析ができて、それを構文解析したときに、
正しい(ちゅーか、実用的な)解析木(ちゅーか、
情報処理するときに扱いやすいデータ構造)に落ちるか
どうか」が勝負なんだよ。
だけど、「そんな解析木は認めない!」ていって
頑張っている奴が業界を押さえていると、日本語処理
っていうもの自体が成り立たなくなるわけだ。
だから、「まず、記述文法から交通整理しよう」っちゅー
話をしとるわけよ。
0556Mb
垢版 |
2018/07/17(火) 15:08:30.84ID:iAzNVHws
「日本人は髪が黒い」という表現は、「黒い」が「髪」を連体修飾
してて、「髪」がとりたてによって強調されているから、「黒い」
の前に出てきて、とりたて詞「が」が用いられる、って言っただけで、
学会で吊るし上げを喰らうんだぞ?
で、まともな反論が返ってくるならともかく、
「くぁwせdrftgyふじこふじこふじこ!」
みたいなコトになるんだぞ?
「いや、ちゃんと動いてるシステムがあるんですが」とか
言っても、「あーあーあーあーあー聞こえない聞こえない聞こえなーい」
みたいな反応しか返ってこないんだぞ?
だけど、普通の研究者は逆らえないんだ。そういう連中は、大っぴらには
言えんけど大きな企業で国の予算を貰っていて、その一部をスポンサーとして
研究機関に流してるところから来た、背広着てネクタイ締めて学会に来てる
ような連中だからだ。
「日本語処理が実用化されたりなんかしたら、研究費が出なくなって
自分らが干上がる」というのを知っている連中が、日本語処理業界に
巣食ってるんだよ。
0558デフォルトの名無しさん
垢版 |
2018/07/17(火) 16:56:24.01ID:GZ88p15f
原子力学会かよ
0559Mb
垢版 |
2018/07/17(火) 17:08:28.25ID:iAzNVHws
>>557 >>558
自然言語処理に関係してる学会なんて、
だいたい想像つくだろうに。
0560Mb
垢版 |
2018/07/17(火) 17:17:24.52ID:iAzNVHws
で、益岡 隆志/田窪 行則『基礎日本語文法』以外の文法は
認められないんだ。
なぜかというと、JUMAN や ChaSen や MeCab とかを
いじくって「日本語処理やってまーす」つってアピールして
予算貰って生きてくしかないからだ。
0562Mb
垢版 |
2018/07/17(火) 20:31:47.87ID:iAzNVHws
でまぁ、本筋に戻るんだが、
現代日本語の動詞と形容詞の終止形(連体形と形は同じ)は、
じつは連体形の終止用法で、その後に体言とコピュラが
省略されていると考えると、処理も楽だし解析木も
ややこしくならない。試してみりゃあすぐ解る。
だけど、これを大声で言うと冷や飯を食わされるやら
煮え湯を飲まされるやら、いろんな目にあう。
0563Mb
垢版 |
2018/07/17(火) 20:47:58.86ID:iAzNVHws
>>561
まぁ、「データが木構造なんで、図で説明するのに
便利」っちゅー以上の意味はないわな。
「修飾関係が交差しない」から、木の形で
描ける、つーだけの話だし。
フローチャートと同じで、滅んだほうがいい
文化かもしれん。
0564デフォルトの名無しさん
垢版 |
2018/07/18(水) 17:42:01.84ID:r2tNZQmN
>>561
それな

どうせ文法なんて人間の都合で勝手に名付けた物だったりルールがあると錯覚してるだけだし
0565デフォルトの名無しさん
垢版 |
2018/07/18(水) 18:58:52.59ID:nFdzt/yd
>>564
ところが、「ハナモゲラ語」とか「言葉のサラダ」とか、
そういうのが、コンピュータで生成しようとしても
面白くならないんだよなぁ。
「ある」のは分ってるんだが、それが「何なのか」っつーのが
わからないのが文法の面白いところなのよ。
0566デフォルトの名無しさん
垢版 |
2018/07/19(木) 11:52:00.94ID:ZMW1ym8c
ランダムでやってもつまらんだろ
0567デフォルトの名無しさん
垢版 |
2018/07/19(木) 13:27:00.87ID:DUpb208V
>>566
だな。つまらん。
n-gram 法の単純なやつで、2-gram 法でウケてた時代も
あったんだが(筒井康隆『狂気の沙汰も金次第』参照)、
いまどきはそれで笑いは取れん。
昨今はスパムフィルタを潜り抜けるための
ネタでしかない。
自然言語処理の研究者は何をやってるんだ、という
怒りが消えない。
0568デフォルトの名無しさん
垢版 |
2018/07/19(木) 13:31:36.20ID:DUpb208V
つーか、東工大とかお茶の水女子大とかは、
「自然言語処理」っつって何をやってるんだ、
という怒りがある。
正直、いっぺん行ってシメてきたほうが
いいような気がする。
0569デフォルトの名無しさん
垢版 |
2018/07/19(木) 13:51:07.59ID:yj8RkDmG
日本以外の国ではどうなん?自然言語処理。
0570デフォルトの名無しさん
垢版 |
2018/07/19(木) 15:32:56.09ID:DUpb208V
>>569
日本語みたいに膠着語の国が少ないので、
もうちょい楽。
ただ、わりと手に負えないのが韓国語と
インド諸語かな?
インドは英語が普及してるんで、あんまり
自国語(つーても方言が多いので、何が
なんやら分らんのだが)の自然言語処理には
熱心じゃないらしい。
韓国は、とにかくハングルの字母の数が多いうえに、
正書法が確立しとらんのだよ。
「子音+母音+子音」でカナ一個の文字なんで、
単純に子音が十個で母音が五個としても、カナが
五百個ある勘定になる。
0571デフォルトの名無しさん
垢版 |
2018/07/19(木) 15:51:30.42ID:DUpb208V
ハングルは使い慣れると便利っつーのは
分るんだけど、できればローマ字表記を
確立してほしい。
「ピビン麺」と「ビビンバ」を並べて
見るとイラッとくる。
0572デフォルトの名無しさん
垢版 |
2018/07/19(木) 16:31:30.15ID:OaLdX1mQ
連投してる奴が何に対して怒ってるのか分からん
現状を打破する何かを自分で開発すればいいだけだろ
0573デフォルトの名無しさん
垢版 |
2018/07/19(木) 17:56:05.63ID:DUpb208V
>>572
開発したからイラついてんだよ。
だったらおまいは何を開発したか
言ってみろ。
0575デフォルトの名無しさん
垢版 |
2018/07/19(木) 19:54:40.83ID:DUpb208V
>>574
「ビビンバ」は、「混ぜご飯」の意味で、発音は“pi-bim-pap”。
「ビビン麺」は、「混ぜ麺」の意味で、表記は “bi-bim-guk-su”。
だけど、「ピビンパ」とか「ビビン飯」とか変換するとダメだと言われ、
「ビビングスク」とか変換するとダメだと言われる。
「じゃあ、どうすればいいのか?」という話になると、
「それは説明できないが、とにかくそうなんだ」と言われる。

まぁ、そんな連中はいっぱいいるので、べつに「韓国人は」
みたいなことで怒っているわけではないし、
ユーザの要求を聞き取って、具体的な仕様に落とすのが
システムエンジニアの仕事ではあるんだが、
自然言語処理の世界だと、「いやだー! いやだー!
そうじゃないんだー! うわぁぁぁぁぁぁぁ!」みたいな話で
ぶっ壊れる案件が多いというのは知っておくといい。
少なくとも金が自分の懐に入るまでは、油断しないほうがいい。
もっとも、その後で知的所有権がなんだかんだ、で懐から
金が出てゆくこともあるから油断はできないが。
0576デフォルトの名無しさん
垢版 |
2018/07/19(木) 20:01:12.43ID:DUpb208V
>>564
> どうせ文法なんて人間の都合で勝手に名付けた物だったり
> ルールがあると錯覚してるだけだし
「だから説明できないけどおれが正しい」って言われても、
説得できないのが自然言語処理。
で、説得しようとすると、「あんたは日本語処理とかなんとか
言ってるけど、あんたは日本語がわかってない」と言われる。
それが日本語処理業界の現実。
0577デフォルトの名無しさん
垢版 |
2018/07/19(木) 20:29:21.21ID:DUpb208V
これは言いたかなかったけど、
「支配者の言語」というのがあって、「被支配者の言語」の
言語表現を規制するのが「規範文法」。で、被支配者の
言語表現に対して、「それは文法に適っていない」と言えるのは、
支配者の権利だとする思想がある。
それがあるんで、左派の言語学者は「文法なんてない」と主張するし、
おれは「すべての言語表現において普遍的な原則」としての
「高精度の記述文法」というのを考えたワケ。
だから、おれが「あんたの表現は文法的に間違ってるぞ?」と
言うときは、「そういう言い方だと、他の奴には通じないぞ?」と
いう意味で使ってる。で、精神科医は、そういう発話を「言葉のサラダ」
と謂うんだ。
0580デフォルトの名無しさん
垢版 |
2018/07/20(金) 06:28:12.00ID:GozXxEHN
>>579
たぶん、ぬくぬくはしてないと思う。全体のパイが
小さいから、研究費(あるいは科研費)の奪い合いが
熾烈なんだと思う。だから、足の引っ張り合いになるんだろう。
日本語が論理式(モンタギュー文法)にうまく落ちないとか
形態素解析の精度が上がらないとかいうことになると、
「日本語は非・論理的だ」「日本語の文法は不完全だ」みたいな
ことを言いだして、「大規模データを統計的に処理すれば …」
とかいって予算を取ろうとする。
だから、哲学(論理学が絡むとこっちに該当する)とか
記述文法なんかやってる奴が下手に成果なんか上げちゃったら、
そいつらが困る。
0581デフォルトの名無しさん
垢版 |
2018/07/20(金) 10:16:08.42ID:B9AYu9ui
>>571
韓国人はピもビも同じ文字を使って区別しないで発音してるけど、日本人が聞くとピビンバに聞こえるんだな。どっちの表記が正しいってこともないけど表記揺れはちょっともやもやするな。

日本語でも「パパ」って発音したとき1個目のパは有気音、2個目のパは無気音で発音するので、韓国人にしてみれば同じカナなのに別の発音してるって感じるはず。
0582デフォルトの名無しさん
垢版 |
2018/07/20(金) 13:02:25.01ID:CcJkjASV
別に困んないけど

本当にpracticalならともかく
0583デフォルトの名無しさん
垢版 |
2018/07/20(金) 13:26:52.30ID:c77xM4ns
朝鮮人パカするな
0584デフォルトの名無しさん
垢版 |
2018/07/20(金) 14:58:22.06ID:GozXxEHN
>>581
まぁ、「マンガ」「メガネ」の「ガ」は鼻濁音だし、
「軍歌」の「カ」と「軍靴」の「カ」は違うんだけど
(後者は「クワ(ワは小さく)」)、普通の日本人は
気にせんのだけどな。

>>583
おれは朝鮮人と呼ばれてバカにされても一向に気にしない
(大陸顔なのは理解している。鹿賀 丈史とか米倉 斉加年が
代表的な大陸顔だ)。
必ずしもすべての朝鮮人が馬鹿ではないし
(例を思い浮かべられないのがなさけないが、
呉 善花は入れておいていいかもしれないと思う)、
すべての馬鹿が朝鮮人だという話でもない
(馬鹿な日本人は少なからずいる)。

力道山や大山倍達や大木金太郎については
コメントは控えておきたい。
0585デフォルトの名無しさん
垢版 |
2018/07/20(金) 15:05:41.59ID:GozXxEHN
千田是也さんが、関東大震災のときに、「朝鮮人が叛乱を
企てている」というので自警団が検問をしているときに
引っかかって、「『水道局』と言ってみろ」と言われ、
滑舌が悪くて「しゅっ … しゅいどうこく!」と言ったら
「鮮(せん)だ、これは。」と言われたので、「千田是也」という
ペンネームを使っていたというのは有名な話。
0586デフォルトの名無しさん
垢版 |
2018/07/20(金) 15:11:04.74ID:GozXxEHN
「おれは東京生まれの東京育ちで、日本橋の出身だから
訛りなんかない」と豪語していた奴が同僚にいたので、
「だったら『潮干狩り』って言ってみろ」と言ったら、
しばらく絶句してから、「しっ …… しおしがり!」って
言ってから勝手に落ち込んでた。
ちなみに江戸弁だと「ひよしがり」が正。

「鮭」は「しゃけ」、「朝日新聞」は「あさししんぶん」。
かな漢字変換用の辞書には登録しておくのが吉。
0587デフォルトの名無しさん
垢版 |
2018/07/20(金) 15:19:37.45ID:GozXxEHN
あと、「蠅帳」は、正訓は「はえちょう」。江戸弁では「はいちょう」。
「蚊帳」は、日本中「かや」。
「棟梁」の正訓は「とうりょう」。江戸弁では「とうりゅう」。
「道了尊」は、「どうりょうそん」と「どうりゅうさん」。
形態素解析っていうのは、ここまでやって一丁前。
0588デフォルトの名無しさん
垢版 |
2018/07/20(金) 15:29:07.28ID:GozXxEHN
>>582
「義足とか義手とかなくても、別に困んないけど。
おれ健常者だし」
「べつにハングル表記とかなくても、別に困んないけど。
おれに帆人だし」

「本当にpracticalならともかく」。
あーやだやだ、想像力とか共感性のない奴は。

「自然言語処理とかなくても、別に困んないけど。
普通に言葉分かってるし」ってぇ話だろ?
0589デフォルトの名無しさん
垢版 |
2018/07/20(金) 17:35:58.98ID:GozXxEHN
>>588
×に帆人
〇日本人
0590デフォルトの名無しさん
垢版 |
2018/07/20(金) 17:40:15.50ID:GozXxEHN
あと、昔の越後の人は「し」と「す」の区別がつかなくて、
「伸びた“シ”と結んだ“シ”」というんで区別してた。
「お寿司」と「お獅子」とかな。
0591デフォルトの名無しさん
垢版 |
2018/07/20(金) 18:01:44.97ID:GozXxEHN
日本橋の『たいめいけん』の茂出木 心護さんが、
越後の出身者は「えちご」と「いちご」が発音上
区別できなくて、「ストロベリー」と云われて
馬鹿にされたという話を書いている。
0592デフォルトの名無しさん
垢版 |
2018/07/20(金) 18:34:54.69ID:GozXxEHN
正しい日本語処理。

「やってみてくれ」
 ⇒金融機関が借入金を引き上げようとしているので、
なんか儲かりそうな話をでっち上げてくれ。
「やってくれ」
 ⇒「できません」とか言ったらぶっ殺すぞ。とにかく
儲けを出せ。
「上からの GO が出た」
 ⇒逃げ支度が済むまで引っ張れ。
「君には失望させられたよ」
 ⇒ぜんぶお前の責任だ。お前が尻拭いをしろ。おれらは
知らない。

そんなもんですよ。
0593デフォルトの名無しさん
垢版 |
2018/07/20(金) 18:57:49.52ID:TZxtxi0x
連投してる奴いろいろ書いてるけど
他人に対して何か伝える文章じゃないな
結局何が言いたいのかぼんやりしたまま
0594デフォルトの名無しさん
垢版 |
2018/07/20(金) 19:55:29.19ID:GozXxEHN
人工無脳が なんか言ってますよ。

ところで、「なさい」「ください」「いらっしゃい」とかは、
文法的にいうと、動詞の活用としては何形になるのかねぇ?
0595デフォルトの名無しさん
垢版 |
2018/07/20(金) 20:02:56.67ID:GozXxEHN
>>593
> 連投してる奴いろいろ書いてるけど
> 他人に対して何か伝える文章じゃないな
> 結局何が言いたいのかぼんやりしたまま

「 連投して(い)る奴(が)いろいろ(と)書いて(い)る[けど
(=「けれども」)]、他人に対して何か(を)伝え(「ようとしてい」?/
「られ」?)る文章[じゃ(=「では」の口語的に崩れた形)]ないな
結局、何が言いたいのか(が)ぼんやりしたまま(の)(何か)(だ)」 。

こんな屑な人口無脳を作った馬鹿は、どこの大学のどこの研究室の所属だ。
0597デフォルトの名無しさん
垢版 |
2018/07/20(金) 20:41:02.84ID:TZxtxi0x
>>595
馬鹿はお前だよ
自然な省略だろ

>>594
>かねぇ?
ってのは口語的に崩れた形だろうが
分かったらお前も人工無能な
0598デフォルトの名無しさん
垢版 |
2018/07/20(金) 20:53:07.41ID:GozXxEHN
>>597
> 自然な省略だろ
自然言語処理をやっているなら、何が自然なのかを説明してくれ。

>>かねぇ?
>ってのは口語的に崩れた形だろうが
そんな甘いツッコミを入れられてもサムいだけだ。
まぁ、ここのところ猛暑が続いているからご愛敬だけどな。
「動詞の活用としては何形になるのかねぇ?」
だったら、
「動詞の活用としては、何形になる(の)(でしょう)かねぇ?」
とツッコんでほしかった。「なる」は連体形だから、その後に何かが
省略していないと文が完結しないので、そのあとに「体言+コピュラ」が
省略されている、と推測するのが正解、くらいのツッコミが入ったら、
おれも素直に頭を下げられるんだが。

ついでながら、「ってのは」は「というのは」の、口語的に崩れた形だ。
0599デフォルトの名無しさん
垢版 |
2018/07/20(金) 20:58:35.72ID:GozXxEHN
>>597
> お前も人工無能な
文脈としては、
×人工無能
〇人工無脳
だと思うが。“も”っていうことは、お前は無能なんだな?
おれが人工無脳だったら、製作者はとっくにチューリング賞を
獲っとるわ。
0600デフォルトの名無しさん
垢版 |
2018/07/20(金) 21:25:48.02ID:GozXxEHN
くそう。叱られちゃったい。
> ないな
「ない(体言:省略)(コピュラ:省略)な」
> ぼんやりした
「ぼんやり(と:省略)した」
が正解。
0604デフォルトの名無しさん
垢版 |
2018/07/22(日) 06:53:00.75ID:HlH3bx5P
>>そんな甘いツッコミ
> お前が自分に甘いだけだろ
> だから馬鹿なんだよ
せっかくだから自然言語処理に関係のある話をしておこう。
形容詞は暗黙の主語として話者を要求する。「>>602 は恥ずかしい奴だ」は
>>602 は自分を恥じている」を含意しない。「>>602 は(話者である)私を
して“恥ずかしい”と感じせしめる人物である」という意味を内包している。
また、「とりたて詞『が』は強調転置を起こす」ので、
「お前が自分に甘い」は「自分に甘いお前」を含意するが、たいていの奴は
自分に甘い。
「だから馬鹿なんだよ」は、「だから」と「馬鹿」のどちらに強意があるかが
字面からは読み取れない。前者だとすると、「馬鹿」という概念が
すでに所与のものとしてあり、前提から導出が可能だ、と主張している
ことになるが、後者では、「馬鹿」というのは文中にトピックとして
出てきたことになる。
0605デフォルトの名無しさん
垢版 |
2018/07/22(日) 07:05:30.26ID:HlH3bx5P
日本人動物学者「こいつは馬鹿だ!」
満州アカシカ「いかにも私は馬鹿です」
0606デフォルトの名無しさん
垢版 |
2018/07/22(日) 09:01:24.76ID:HlH3bx5P
日本語には体言の省略が多い(ただし異論はある)。
ただ、「その、省略された対象が何か」を推定するのに、
シソーラスと「その名詞にはどういう性質(内包的な意味)が
付与されているか」というデータが必要になってくる。
仮に百科語を二万語として、それだけのシソーラスを
作るのは並大抵の労力ではない。
そうすると、なにか限定されたジャンル(医学とか、化学とか)を
扱うしかなくなってくるが、それだと一般性が乏しくなる。
中学・高校あたりの理科系分野とかに狙いをつけるのが
いいんだろうか。
素人向けの医学・薬学・栄養学的な知識、というのも
考えたんだけど、厳密な体系にならないんだよね。
0607デフォルトの名無しさん
垢版 |
2018/07/22(日) 12:40:16.29ID:HlH3bx5P
>>606
もうひとつ、述語の中心である動詞の場合、要求する
「文法的な格」がどのようなものであるか、が明らかであって、
しかも「かかる」相手がどういうカテゴリーにあるか、というのが
分らないと、体言に附属した助詞が省略された場合に、「述語から
要求される文法格」が何であるかを推定できないんですよね。
「彼、スパゲティ、食べた」が、「彼はスパゲティを食べた」なのか
「スパゲティが彼を食べた」なのかは決定不能なのね。
「コタツが葬儀屋を食べた」は無意味文になりそうだけど、
映画『バトルヒーター』(一九八九)という文脈があったら、
「意味がある」と判断されると思うんだけど。
0608デフォルトの名無しさん
垢版 |
2018/07/23(月) 08:38:44.41ID:8XnpjG9G
一時期「ら抜き」が問題になってたけど、
「可能」と「尊敬」を区別できるという
メリットがあるので、一概に否定はできないと
思っている。だったら「れる」を「ことが可能である」と
入力時に機械的に置き換える(あるいは変換候補として出す)
くらいの芸はできんのか、とは思う。
一行めの「なってた」も「なっていた」が候補に出ていいし、
「あっさりした」も「あっさりとした」が正のはず。
入力時にチェックするのは難しいにしても、
テキストデータをチェックするくらいは簡単なように
思われるんだけどね。
0609デフォルトの名無しさん
垢版 |
2018/07/23(月) 12:57:40.81ID:8XnpjG9G
>>601
> しよはしよじゃないの?
そこんとこ kwsk
0611デフォルトの名無しさん
垢版 |
2018/07/27(金) 14:25:38.80ID:q3ebuKRa
>>610
ダメだ。暑気中りが治ってない。

×You might or more heard a two fishes.
〇You might or more heard today's a two fishes.

冬バージョン
You might or more heard today's some fishes.
0613デフォルトの名無しさん
垢版 |
2018/07/28(土) 23:43:24.97ID:HVxOC8gw
>>612
粋な先生だな。
じゃあ、「“ghoti”と書いて何と発音するか?」とか
習ったクチだな?
おれはすれっからしの自然言語処理屋なんで、
“Time flies like an arrow.”を
「時蠅は矢を好む。」とか「矢のように時を測れ。」とか
訳してしまうクチだ。
0614デフォルトの名無しさん
垢版 |
2018/07/29(日) 00:46:36.29ID:TGkp0btZ
>>613
象は鼻が長い、で二、三時間話ができそうだな。
0615デフォルトの名無しさん
垢版 |
2018/07/29(日) 11:52:38.73ID:ecsh/nBS
>>614
どっかの国語学者は何十年とかそういう話をやってるので、
二三時間で片がつくならいつでもやるんだが(^_^;)。
ついでながら、>>613
「enough」の "gh"、「women」の "o"、「nation」の "ti" で
「フィッシュ(fish)」だそうだ。

電算業界では「jail(牢獄)」というテクニックがあるのだが、
「本当は『geol』」とか思ってしまうおれはへそまがりだ。
0616デフォルトの名無しさん
垢版 |
2018/07/29(日) 12:05:56.01ID:ecsh/nBS
「象は鼻が長い」は、「象は鼻が長いのです」を含意し、
準体助詞の「の」の役割を考えると、「象は鼻が長いのです」
は「象は鼻が長い(X)(です)」を含意すると看做せると
解釈可能である。
しかしながら、「長い」は「鼻」を修飾しているので、X は
「哺乳類」「生物」とかいったものであると解釈するのが
妥当であろう。したがって、とりたて詞「が」によって「鼻」が
強調されて転置が怒り、「長い」の連体修飾という役割が、
結果として文構成のなかで引き継がれた、と解釈すると、
構文解析によって自然な解釈であろうと私は主張するのだ。

できればツッコミをよろしく。
0617デフォルトの名無しさん
垢版 |
2018/07/29(日) 12:34:29.98ID:2jsBPgao
ここは「は」の機能に焦点をあてて説明した方がいいんじゃないのかな。
0618デフォルトの名無しさん
垢版 |
2018/07/29(日) 14:10:34.39ID:ecsh/nBS
>>617
「は」「が」は「とりたて詞」であって、「主格の格助詞」では
ない、とかいう主張はなかなか通らないんだよね。
そうすると「主格の格助詞が存在しない」ということに
なってしまうから(個人的には、ないと思っている)。
で、「は」「が」がつくと、格助詞が消えるという現象が
あると思っている。「をは」「をが」「にが」って使わないだろう?
「には」はあるし、「へは」「へが」「からは」「からが」「までは」
「までが」等々はあるわけだから、「『は』『が』はとりたて詞であって、
格助詞ではない」というのは強調しておきたいところだ。
0620デフォルトの名無しさん
垢版 |
2018/07/29(日) 16:35:02.64ID:TGkp0btZ
文法の存在ってのは幻みたいなもんだと思うけど、言語にはよく分からんけど法則があることだけは確かなんだよなあ。
0621デフォルトの名無しさん
垢版 |
2018/07/29(日) 16:59:44.89ID:jmfLAdWz
>よく分からんけど法則

結局なんでもそうだし
機械学習やDLに向いてる分野ってことかな

でも法則自体は判らんでも何故かうまくこなすっていうAIっぽいのが生まれるっていう展開
0623デフォルトの名無しさん
垢版 |
2018/07/29(日) 20:06:05.33ID:ecsh/nBS
>>622
おれらは自然言語屋なんで、むしろ「副助詞」の
定義がわからん。「ね」「さ」「よ」「な」「ぞ」
は、「強調助詞」と呼んでいる。「とりたて詞」は、
トピックであることを示すと同時に、語順の
転換が起きる。それを「強調転置」と呼んでいるので、
「用語の統一ができていない!」と叱られそうに思うが。
「だからね、そのあたりはさ、適当によ、塩梅してな、
欲しいぞ?」みたいなのは強調助詞、という話。
0624デフォルトの名無しさん
垢版 |
2018/07/30(月) 03:32:11.29ID:Rd2xs5Db
よくわからん。
このスレはプログラム板のスレなんだからコンピュータで自然言語処理するのに有用な話をしてほしい
ぶっちゃけ、MeCabにもKNPにも出てこない品詞の話をされても意味がない。
0625デフォルトの名無しさん
垢版 |
2018/07/30(月) 07:03:35.67ID:9nIH/p+f
end-to-endの時代なのにね

わざわざnmtに構文解析の結果をぶち込んでくるバカがいて
誰がやってんのかなと思ったら東大だった
0627デフォルトの名無しさん
垢版 |
2018/07/30(月) 08:45:24.47ID:ArBfASRB
ぶっちゃけ形態素解析システムなんて自前で開発しても
たいした手間じゃないぞ? 方針が分かってりゃ
1人月くらいで書ける。
1)まず、形容詞を活用語尾で引っ掛けるルーチンを書く。
2)それを使って形容詞の辞書を作る。
3)それでコツを掴んだら、動詞で同じことをする。
4)受け身だとか尊敬だとか使役だとかの処理と、
各種の形態素の処理を書く。これは数が少ないので
大した手間じゃない。
5)残った奴は名詞句なので、助詞やらなんやらの処理を
考えつつ名詞の辞書を作る。
ただ、これをやると、「もうちょっと抽象化できんかな?」とか
考えてしまい、全部捨てて新しいシステムを書きたくなる。
ただ、ここまで来ると日本語の文法体系が頭に入っていて
必要な辞書はあらかた揃ってるから、勝負は早い。
0628デフォルトの名無しさん
垢版 |
2018/07/30(月) 09:02:59.59ID:ArBfASRB
形態素解析システムを自前で開発すると、いくつか副作用があって、
「モーニング娘。」とか「藤岡弘、」とか見ると
反射的にイラッとくるようになる。
0629デフォルトの名無しさん
垢版 |
2018/07/30(月) 09:05:49.92ID:ArBfASRB
あと、メモが手放せなくなる。
「さっぱりした」の「さっぱり」と、
「さっぱりわからん」の「さっぱり」は、
別の単語として辞書に登録したほうがいい、とか
その場でメモるからだ。
「さっぱりとした」は言うが、
「さっぱりとわからん」は普通言わない
(いう地方もあるかもしれんが)。
0631デフォルトの名無しさん
垢版 |
2018/07/30(月) 09:15:05.66ID:ArBfASRB
いい面での副作用としては、
「文語」「(正体の)口語」「俗語的な口語」の
区別に敏感になる。
「むくつけし」「猛(たけ)し」「かそけし」のような
e 音で終わる形容詞は、文語にはあるが現代語にはない
(「むくつけい」「たけい」「かそけい」はない)。
「し」ではなく i 音で終わる形容詞は、俗語では使うが
正体では使わない。「みみっちい」「ばばっちい」などが
あり、「ずるっちい」を使う人はいる。
文語動詞では「子音終わりは四段」「母音終わりは一段」が
基本。ただし、母音は i, e しかない。
ところが、現代語では五段活用ワ行があり、a/o/u という
母音で終わっているのに五段活用、というややこしい話に
なっている。これは動詞末尾の h 音が消失しまったせいだが、
h 音の前が i/e である動詞は行き場がなくなって、けっこうな
騒動になっていることが形態素解析で判る。
0632デフォルトの名無しさん
垢版 |
2018/07/30(月) 09:22:41.82ID:ArBfASRB
あるよ。新旧とりまぜて三つほどある。
1)C 言語ベタ書きバージョン、
2)C 言語文法分離バージョン、
3)Java で書き直してメモリリークや
ワイルドポインタを防止したバージョン。ただし、
Java の使い方が当時は よくわからなかったので、
多段解析を実装できなかったのが悔やまれる。
(2)のバージョンは、ローマ字英単語交じりの
文字列を漢字かな交じり文に変換する、というのも
可能だった。
あと、(2)と(3)は双方向のシステムで、
漢字かな交じり文の読みびらきと、かな漢字変換の
両方が同じシステムで可能だった。
0633デフォルトの名無しさん
垢版 |
2018/07/30(月) 09:28:45.10ID:ArBfASRB
あと、全件辞書引きは Google が使ってるダブル配列法じゃなくて、
その原形であるトリプル配列法を使ってる。
マルチバイト文字の場合、「辞書がコンパクトになる」という
ダブル配列法のメリットが生きなくて、トリプル配列のほうが
コンパクトになったりする。
まぁ、昨今のマシンは作業用のメモリがギガバイト単位なんで、
それほど気にする必要はないんだが。
ほかになんか質問ある?
0634デフォルトの名無しさん
垢版 |
2018/07/30(月) 09:35:40.86ID:ArBfASRB
ところで質問なんだけど、
MeCabとかKNPとかって、文語とか解析できるの?
文法って、どんな形で持ってるの?
品詞分類とか変えられるの?
0635デフォルトの名無しさん
垢版 |
2018/07/30(月) 12:28:22.50ID:fs6nfZiK
あ、古い人なんだ
0636デフォルトの名無しさん
垢版 |
2018/07/30(月) 12:34:35.75ID:fs6nfZiK
JAI-Parserとかかな
0637デフォルトの名無しさん
垢版 |
2018/07/30(月) 12:41:04.42ID:ArBfASRB
>>635
つーか、JUMAN と ほぼ同時期に開発したシステムだから、
茶筅とか MeCab とかは、はなから使ったことがないのよ。
unix 環境なんて、手近になかったからね。初代は PC-98 とかで
動かしてたらしい。
当初、辞書をフロッピーディスクに置いといたら、やたら
カッチャンカッチャンとアクセスするので、「ドライブが
壊れるかと思った」てな話を聞いた。で、その後「RAM
ドライブ」っちゅーのが出て、384 Kb くらいの「マシンから
見るとドライブだけど、じつはメモリ空間」っつーのができて、
そのあたりの心配はなくなった。
で、その後 IBM-PC 互換機ができてメモリ空間が広がったんで
普通に実メモリ空間に置いて、アスキーの出版技術部の
TEX のチームの前でデモしたら、「それで?」と言われたそうだ。
あんまり処理が速かったんで、ただファイルを出力してただけだと
思われていた、というオチがついている。
0639デフォルトの名無しさん
垢版 |
2018/07/30(月) 12:42:57.61ID:fs6nfZiK
文体と興味が特徴的すぎる
0641デフォルトの名無しさん
垢版 |
2018/07/30(月) 18:23:05.86ID:fs6nfZiK
たまごとかの世代ですが何か?
0642Mr.Moto
垢版 |
2018/07/30(月) 19:38:47.79ID:ArBfASRB
>>641
じゃあ、Wnn(「私の名前は中野です」) あたりは知ってるんだ。
おれらは VJE-Pen(VJE-β)とか「ことえり」とか Wnn とか
よりちょっと遅れた時代だ。rStone-JE は、JAI-Perser の、
>>632 の(1)を実装してる。
(2)は、自動ルビ振り/自動点訳システム「紅玉(Ruby)」に実装
したんだが、まつもとゆきひろさんの「Ruby」が流行っちゃったので
あんまり有名にならなかった。
0643Mr.Moto
垢版 |
2018/07/30(月) 21:22:57.38ID:ArBfASRB
たいへん・またせて・ごめんなさい
0644Mr.Moto
垢版 |
2018/07/30(月) 21:25:45.64ID:ArBfASRB
「くるまでまつ」
「はくさいやだいこんなどのやさいが」
「やまのうえにはながさきました」

懐かしいのぅ。
0645Mr.Moto
垢版 |
2018/07/30(月) 21:29:31.72ID:ArBfASRB
今は、
「長く庄内平野を転々としながらも私は肘折の渓谷に分け入るまで
月山がなぜ月の山と云われるのかを知りませんでした」
を、一発で構文解析できるシステムをインプリメントしようと
思案中。
0646Mr.Moto
垢版 |
2018/08/02(木) 17:06:15.29ID:qDXNPl4s
スレが止まってるのが気にくわんなぁ。
せっかくの夏休みなのに、
喧嘩売ってくるとか、
質問してくるとか、
なんかスレを伸ばすような話題はないのか?
自然言語処理をやってる研究室は何をやっとるんだ?
0647デフォルトの名無しさん
垢版 |
2018/08/03(金) 10:26:42.91ID:G5/K3zuO
昔のソースを発掘したのはいいが、
なにせ量が多すぎて頭を抱えている。
辞書管理とかとツールが多いんだよなぁ ……
やっぱり日本語処理システムの開発は、
ある程度頭数が揃ってないとしんどいわ。
0648デフォルトの名無しさん
垢版 |
2018/08/03(金) 12:24:06.18ID:zviFVEVF
githubで公開すれば?
0649デフォルトの名無しさん
垢版 |
2018/08/03(金) 15:27:48.96ID:G5/K3zuO
>>648
昔のソースなんで、恥ずいからやだ。
だいたい、Tomcat 上で SubVirsion 使ってソースは公開してたのに、
ずっと無視されてたから知ったこっちゃない。
0651Mr.Moto
垢版 |
2018/08/04(土) 09:55:56.28ID:Ply8bxep
>>650
わかった。努力する。
0652Mr.Moto
垢版 |
2018/08/06(月) 06:44:57.20ID:C/D04uYr
スキーマと辞書の扱いを、どうすりゃいいのかな?
A)田中は台所でカップ焼きそばを作っている。
B)田中は工場でカップ焼きそばを作っている。
があって、
C)田中は栃木でカップ焼きそばを作っている。
は、どう解釈するか、っちゅーのが問題なんだが。
0653Mr.Moto
垢版 |
2018/08/06(月) 13:59:40.47ID:C/D04uYr
漢字二字熟語で置きかえるというのはひとつの手段ではあるのだが、
A)田中は台所でカップ焼きそばを作っている。
→田中は台所でカップ焼きそばを調理している。
B)田中は工場でカップ焼きそばを作っている。
→製造している/開発している。
くらいはOKとして、
「子供を作っている」とか「家庭を作っている」とか
いうのは、なかなか説明しづらいものがあるように思う。
0656Mr.Moto
垢版 |
2018/08/07(火) 19:12:08.68ID:DcjP7j/S
かなり昔の話だが、
『ぼんさんがへをこいた』というパソコンの
ソフトがあった。

今日、近所のローソンへ行ったら、なんかしら
レジのところに『おいしいおでんのつくり方』という
のが置いてあって、「これって書籍ですか? それとも
店内のマニュアルですか?」と訊いたら、「あ、これは
店内用のマニュアルです」という返答だった。

「おいしいおでんのつくり方」をコンピュータに説明できるか、
というのは、けっこうテーマになりそうに思う。
0658Mr.Moto
垢版 |
2018/08/07(火) 20:07:35.64ID:DcjP7j/S
>>657
と、いうことは、おまえは「田楽芋」が「おでん」になった経緯を
説明できる自然言語インターフェースを備えた知識ベースシステムを
すでに実装して運用してるということだな?
0660Mr.Moto
垢版 |
2018/08/08(水) 13:13:47.75ID:l+OzLrq9
>>659
知識ベース=プロダクション・システムという
昨今の決めつけには疑問を持ってる。
とはいえ、様相論理とかフレーム理論とか、
そのあたりを取り込みゃあうまくいくかというと、
そうでもなさそうな気はする。
なんか、そこいらを統合するコンセプトが
ありそうな気はするんだが、おれには今のところ
思いつかない。
0662Mr.Moto
垢版 |
2018/08/08(水) 21:46:41.52ID:l+OzLrq9
>>661
おまいも上から目線でコメすだけじゃなくて、
なんか具体的な意見出せや
0663デフォルトの名無しさん
垢版 |
2018/08/09(木) 12:51:14.04ID:a88nmHyC
このスレさあ、最近俺とお前しか書き込んでないよ
0664デフォルトの名無しさん
垢版 |
2018/08/09(木) 12:56:18.84ID:NXkdt6vr
ごみん
0665Mr.Moto
垢版 |
2018/08/09(木) 22:08:36.40ID:RMQfHlDH
形態素解析って、流行ってねぇんだなぁ ……
真面目にやると面白いんだけどな。
0666Mr.Moto
垢版 |
2018/08/09(木) 22:15:20.21ID:RMQfHlDH
そういやぁ「三階」を「さんがい」って言う奴はいるけど、
「三回」は「さんかい」なんだよな。
そういうのって自然言語処理の世界で真面目に研究してる
奴っておるんかな?
AI も方言でインタフェースが成立すりゃあ可愛げがあるのに。
0667デフォルトの名無しさん
垢版 |
2018/08/10(金) 10:58:25.21ID:x87YEa9j
>>666
言語学ではそういう感じの論文はよくあるよね。
0668Mr.Moto
垢版 |
2018/08/10(金) 15:24:14.22ID:a1LHeoak
>>667
あるのか!
繰返しになるが、人間って、文法というものを所与のものとして
受入れているので、「形態素解析でイレギュラーなものを拾う」
っていうのは、けっこう困難なんだよ。
だけど、メジャーな形態素解析システムって、そういうのを
スクリーニングするようにできてないので、インターネット
のおかげで言語データが大量にあるのに、そういう例外を
掬うのって、なかなか手段がないんだよ。
昨今のパーソナルコンピュータは、そういうのに使えるだけの
性能を持ってるのに、研究者がそういうツールを使いこなせない、
っていうのは(研究者に対して言ってんじゃなく、サポートする
体制のほうに言ってんだが)イカンと思う。
0670Maria
垢版 |
2018/08/10(金) 15:54:03.82ID:a1LHeoak
>>669
研究者が、あらかた、意味論とかそっちの方に逃げちゃってるので、
記述文法とかの話になると、誰も相手をしてくれないんだよねー。
昔は大修館の『言語』の『言語空間』で、国広哲弥先生とガチのバトルとか
してたんだけどねー。
「相撲好き」っていうのかなぁ? がっぷり四つに組んで、「おまえの
底力を見せてみろ!」みたいなヒトって、最近は見ないでしょう?
0671デフォルトの名無しさん
垢版 |
2018/08/11(土) 20:51:29.75ID:lNetj8kV
ところでだ。「チンボがシコシコする」という日本語表現は、文法的に正しいのか?

チンボ「を」シコシコするのではなくて、チンボ「が」シコシコする。この場合、「チンボ」は主語となる。

オブジェクト指向で言う「集約」は2種類あって、全体(俺)と部分(チンボ)が繋がっている場合と、
全体(俺)と部分(チンボ)が別々になっている場合とが考えられる。けれども「チンボ」はそれ自体
が独立した生き物であり、所有者の意思とは無関係に、勃起して「シコシコする」。
例えば寝てる時にエロい夢みて朝起きてみたらチンコが勃起して射精してたとか。

違うか?

「頭がズキズキする」は良いが、「チンボがシコシコする」はダメな理由を、50字以内で述べろ!>>98
0673Mr.Moto
垢版 |
2018/08/11(土) 21:23:15.94ID:Rp7CVdHg
>>671
それは運用論の話だな。たしか
城生 佰太郎『言語学は科学である ―「象ガ国会デ宿題ヲ忘レル」
不思議への招待』で「なぜ『元祖ゴキブリラーメン』がないのか?」
みたいな話で論考してたと思う。
0674Maria
垢版 |
2018/08/11(土) 21:31:55.39ID:Rp7CVdHg
>>671
あんた、どっかの大学の自然言語処理系の研究室から、鉄砲玉として
送り込まれてきたんだろうけどさぁ、命(タマ)ぁ獲れなかったら、
どういう目に遭うか、覚悟はできてるんだよね?
逃げるんじゃないわよぉ? ほら、こっちはいくらでも
相手になろうって言ってるのよ?
0676Maria
垢版 |
2018/08/11(土) 22:01:16.57ID:Rp7CVdHg
>>675
だから、質問しなさいって言ってるのよ。
仁義切って、啖呵切って、勝負はそれからでしょう?
「お控えなすって」
「早速のお控え、ありがとうござんす。手前、生国は …」
から始めるのが仁義でしょう?
せめて、どんな研究してて、どういう分野に興味があって、
どういう点に疑問やら反論やらがあるのか、
はっきりしなさいよ!
どこの所属とかは訊かないけどさ、
「この分野だったらおれのほうが上だ!
白黒つけてやるから勝負しろ!」くらいの
勢いでかかってきなさいよ。
0677デフォルトの名無しさん
垢版 |
2018/08/11(土) 22:02:45.90ID:8JECWN+f
「シコシコ」は対象と他の物体の摩擦を表す擬音。
「ズキズキ」は対象が発してる状態の擬音。
よって対象そのものについて述べるのに
外部要因がある「シコシコ」を使うのは適切じゃない。





つまり50文字で纏めると

全く自然言語処理をやってないプログラマですが
いつも楽しく拝見しています
ところでスレチじゃないですかね

となる
0678Maria
垢版 |
2018/08/11(土) 22:28:42.02ID:Rp7CVdHg
>>677
あー、こういう方がいらっしゃって下さると、
ありがたいわー。

「背中がヒリヒリする」とか「喉がイガイガする」とかは、
内部なのか外部なのかが判然としないけど、「シコシコ」は
内部化がしにくい、っていうコトですよね?
とはいえ、肩凝りなんかだと、「僧帽筋と菱形筋と最長筋が
“シコシコ”してるんですよ」とかいう表現は、運用上は“あり”だと
思うわけです。

となると、これは自然言語処理というよりも、意味論のほうの
話になると思うんですよ。

「できる」の命令形「できろ」は、文法上は禁止されていませんが、
運用上は「それ、無理でしょ?」っていう話になってしまいます。
それと同じことだと思うんですよ。
0679デフォルトの名無しさん
垢版 |
2018/08/12(日) 02:28:21.41ID:/WZyCUyT
>>671
(´・ω・`)頭は自分の意思とは関係なくズキズキするから「が」
(´・ω・`)ちんぽは自分の意思でシコシコするから「を」
自分の意思かどうかで主語が変わる
0681デフォルトの名無しさん
垢版 |
2018/08/12(日) 09:56:42.76ID:ULAI4zx4
>>680
> 最近気になるのは、DVDが発売する、だな
それは「DVD が発売される」じゃなくってか?
たしかに「DVD が出る」みたいな表現はあるから
なんかしらの説明はあるのかもしれんけど。
強いていえば「DVD を発売する」の「DVD」が
強調されて「DVD “が” 発売する」になった、
あたりかな? そうでなければ「発売する」に
自発の意味がある、という解釈だな。
0682Mr.Moto
垢版 |
2018/08/12(日) 10:29:17.36ID:ULAI4zx4
「おいしいおでんの作り方」と
「おでんをおいしく作る方法」は
意味がほぼ同じであるように見えるのに、
文構造がかなり違う (-_-!)
どこかに「食べる」が省略されているとでも
考えないといかんのか? 食べなかったら
「おいしい」というのが判断できないわけだから。
「(食べて)おいしいおでんの作り方」はともかく、
「おでんをおいしく作る方法」は、ちょっと
珍しい形の転置が起きた結果、文の構造が
見えにくくなっている感じがする。
「おいしく食べられるおでんが作れる方法」を
どうひねくったら「おでんをおいしく作る方法」に
なるのかがわからん。
0683Mr.Moto
垢版 |
2018/08/12(日) 12:47:07.64ID:ULAI4zx4
>>682
ようやく解ってきた。
述語にかかる句には、
「文法格をもつ句」(主語とか目的語とか)と、
「修飾句」(「さっぱり」「あっさり」「粛々と」)と、
「相」(「夏に」「谷川岳で」)があるという分類が
立っているのだが、いわゆる「具格」は、文法格ではなくて
相であり、体言が述語にかかるときに「で」が附属するので
あって、「で」は「具格を表す格助詞」ではないっちゅー
コトなんだな?
文法格がないんで、述語に対する一意性もないわけで、
「〜で〜で」みたいなのもアリ(なかなか実例が
示せないんだが)なんだと思う。
「鶏は鍋でおろし醤油で食うのが好きだ」の場合、
「鍋」と「おろし醤油」が助詞「で」によって
述語「食う」に係っているわけで、これを
「鶏は鍋と おろし醤油で食うのが好きだ」とすると
語感がおかしくなる。そう考えると、
「方法」というのは、「場所」や「時刻」「季節」と
同じように、「相」であると考えたほうが、
動詞の型分けがすっきりしそうだ。
0684デフォルトの名無しさん
垢版 |
2018/08/12(日) 17:57:06.47ID:PIG+WPz5
おいしいおでんの作り方=how to make おいしい おでん
「おいしい」は「おでん」に対する修飾語

おでんをおいしく作る方法=how to make おでん (to be) おいしい
「おいしい」は「おでん」に対する述語

「おいしく作る」は「穴を掘る」と同じように考えればよく
「食べる」が省略されているなどと考える必要はない。
0685Mr.Moto
垢版 |
2018/08/12(日) 18:01:52.82ID:ULAI4zx4
>>684
よし、解った。
「鮟鱇は土鍋で出汁で煮る」はオッケーだが、「土鍋と出汁で煮る」は NG。
「鮟鱇は土鍋でかえしと出汁で煮る」もオッケー。
「鮟鱇は土鍋でかえしと出汁で強火で煮る」もオッケー。

つーことは、具格は文法格ではないから、なんかしら別の呼び名を
立てたほうがいい、っちゅーこっちゃね。するってぇと「具相」とかに
なるのかな。
0686Mr.Moto
垢版 |
2018/08/12(日) 18:18:00.76ID:ULAI4zx4
>>684
> 「おいしい」は「おでん」に対する述語
なるほど。そこへ来たか。
確かに文語では形容詞は述語になる(終止形もある)
よなぁ。
うん。反論を考えてみる。
0687Mr.Moto
垢版 |
2018/08/12(日) 18:35:32.47ID:ULAI4zx4
>>684
> おでんをおいしく作る方法=how to make おでん (to be) おいしい
うん。
ひょっとしたら、The way of make おいしい おでん
みたいな脳内変換が行なわれているかもしれない、という
可能性を考慮する必要はあるだろうな、と思っている。

強調転置は、とりたて詞「は」「が」を “常に” 伴うと、ずっと
思っていたので、「を」がそのまま使われて
強調転置が行なわれる、というケースを考えていなかった。
やっぱり、形態素解析 “だけ” を考えて自然言語処理を
行なおうとすると、どっかしらに無理がくるということか。
0688Mr.Moto
垢版 |
2018/08/12(日) 18:41:17.81ID:ULAI4zx4
>>687
「The way of make」とか書いたらダメだな(^_^;)。
俗語・口語に慣れちゃってるんで、気づかなかった。
「The way of to make」とか「The way of how to make」
とか書かないと、英語教師には叱られそうだ。
0689デフォルトの名無しさん
垢版 |
2018/08/13(月) 16:13:26.37ID:obMX332h
666
読みで揺らいでるけど
「依存」は「いぞん」がいつのまにか「いそん」に変わってしまった
「マスゴミ」は「マスコミュ」
でないといけない
0690684
垢版 |
2018/08/13(月) 17:13:57.48ID:GO6p/lGf
> Mr.Moto

> 「おいしく作る」は「穴を掘る」と同じように考えればよく
と書いたこちらの意図がまったく伝わっていないようだが。
穴を掘る、湯を沸かすなどと同じく、ただの結果を先取りした表現。
「壁を白く塗る」と同じといってもよい。
0691Mr.Moto
垢版 |
2018/08/13(月) 17:28:37.19ID:AihWjEg3
>>690
おれは、形容詞は(暗黙の)主語を要求するという点に着目した。
「おいしいおでん」の「おいしい」の主語は、「そのコンビニの店員」
ではなくて、「そのコンビニの系列の店で、リピーターになってくださる
お客様」だと思うんだよ。
ペットショップでミジンコとかコオロギとかゴキブリとか
冷凍のヌードマウスを買ってくお客さんが、「おいしい」っていうのは
また別な意味だろう?
プロの料理人が言ってたけど、「うまみ調味料は、半分までだったら
バレないけど、肝心な出汁の味がマスクされちゃうので、味がブレた
ときに、しかたなく使う」「塩味は、ギリギリまで強くすりゃあ、
客は『うまい』って言ってくれるんだけど、外で食うなら
ともかく、家で毎日食うんだったら、『ちょっと物足りない』
くらいが普通」だそうだ。
0692Maria
垢版 |
2018/08/13(月) 17:30:28.58ID:AihWjEg3
>>689
それ言ったら、「寄贈」だって「きぞう」じゃなくて「きそう」でしょ?
0693Maria
垢版 |
2018/08/13(月) 17:41:26.57ID:AihWjEg3
>>689
正確にいうと、「いそん」が正で、「いぞん」は “百姓読み” と
呼ばれる俗語の訓なのよねー。
「マスゴミ」も、「マス・コミュネーション」+「ゴミクズ」
の合成語であって、「マス・コミュネーション」=「マスゴミ」では
ないんですよ。「ミニコミ」⇔「マスコミ」っていう対義語関係も
あるしね。
0696Maria
垢版 |
2018/08/15(水) 10:39:21.70ID:vp8/ud0K
>>695
「ぞんさい」と「そんさい」はあるかもしれない。
「無人島」も、「むにんとう」「ぶにんとう」「むじんとう」
の訓があるわけだし。小笠原には「ムニンノボタン」が
生えているし、英語だと「ぶにんとう」→「ボーニン・アイランド」だし。
0697デフォルトの名無しさん
垢版 |
2018/08/15(水) 14:37:14.24ID:ai0gypJB
理屈っぽさと独創的なプログラミングスキルには負の相関がある、
と誰かが言ってたな
理屈こねて長文レスしまくってる人はもうプログラミングやめた方がいいかも
0698Mr.Moto
垢版 |
2018/08/15(水) 16:21:40.83ID:vp8/ud0K
>>697
ご意見はありがたく拝聴しておくが、
「じゃあ、おまえはどんなプログラムを書いたんだ?」と
質問しておこう。
せめて、まともな理屈くらいこねてくれ。
0699デフォルトの名無しさん
垢版 |
2018/08/16(木) 04:30:16.20ID:Wl8UzWlX
>>679
>ちんぽは自分の意思でシコシコするから

ならオシッコを我慢するときは?
0700デフォルトの名無しさん
垢版 |
2018/08/16(木) 04:33:08.06ID:Wl8UzWlX
>>496
>テレビゲームのような仮想世界をインプットして、

人体というのは宇宙のように広大で、コンピューターには入り切らないぞ?

>>485
>CycはFredがひげをそっている間、Fredはそれでも人間なのかと尋ねた。

人間の動作というのはそれだけ複雑だってことだな。
0701デフォルトの名無しさん
垢版 |
2018/08/16(木) 09:58:38.18ID:odc/xF8f
>>700
SF だけど、『未来の二つの顔』でやってたな。
星野之宣さんのマンガでやってたけど、
仮想空間の中でコンピュータに目玉焼を作らせようと
したら、フライパンの中に割らずに卵を載せて
しまうとか …。
で、「これは、やっぱり実際の空間の中でやんなきゃ
ダメだ!」っつーんで、コンピュータ制御の戦闘用ドローンと
武器を持った人間が、宇宙ステーションの中で
ドンパチをやるという話。
0702デフォルトの名無しさん
垢版 |
2018/08/16(木) 10:03:34.87ID:odc/xF8f
自然言語処理と関係なくなっちゃいそうだから、
それっぽいものも足しておこう。
『2001:宇宙のオデッセイ』
『ヴァレンティーナ』
『月は無慈悲な夜の女王』
『ウォー・ゲーム』(映画)
『ノーラの方舟』
『アメリカの黒船』(笑)
0703デフォルトの名無しさん
垢版 |
2018/08/16(木) 13:54:12.85ID:odc/xF8f
>>703
×『アメリカの黒船』
〇『マンハッタンの黒船』
諸星大二郎。「デモクラシー・マシン」という、
国民に端子を埋め込んでおいて、その測定値を
もとに、コンピュータが政策決定をするという話。
あれ読んどくと、幕末史がかなりよくわかる。
ついでに、『ゴースト・バスターズ2』を観ると、
けっこう笑える。

こう、どうしようもなく暑いと「ドンマイ・ダンス」(=ええじゃないか)を
踊りたくなるよなぁ。川原泉も『笑う大天使(ミカエル)』で、
ウルトラマンと鉄腕アトムと超人ロックにドンマイ・ダンスを
踊らせてたし。
0704デフォルトの名無しさん
垢版 |
2018/08/16(木) 18:48:54.08ID:zg++OkBY
>>699
腹筋運動で腹に力を入れるってのと同じ。
0705デフォルトの名無しさん
垢版 |
2018/08/16(木) 18:52:01.50ID:zg++OkBY
>>701
>フライパンの中に割らずに卵を載せてしまうとか …。

ゆでたまごとは違うからなあ。
0706デフォルトの名無しさん
垢版 |
2018/08/16(木) 18:55:36.47ID:y4swezJj
>>704
ゲロ吐くときも腹に力を入れるけどな。
0707デフォルトの名無しさん
垢版 |
2018/08/17(金) 10:03:25.37ID:gqiCzic7
日本語処理をやってて困るのは、
「葱」を「ネギ」と訓むと気持が悪く、
「キ」と訓みたくなることと、
「タマネギ」を漢字で書くときに、
「玉葱」ではなく「玉根葱」と
書きたくなることだな。
0708デフォルトの名無しさん
垢版 |
2018/08/17(金) 10:24:20.58ID:7A6IqWlB
>>699
オシッコの時とオナニーの時とでは、役割が全然違う。
0709デフォルトの名無しさん
垢版 |
2018/08/17(金) 14:08:30.32ID:gqiCzic7
>>708
今はただ 小便だけの 道具かな
0710デフォルトの名無しさん
垢版 |
2018/08/22(水) 18:11:57.81ID:dTPH0Jpn
第13回テキストアナリティクス・シンポジウム
あたりに出てみたら?
0712デフォルトの名無しさん
垢版 |
2018/08/31(金) 12:25:09.97ID:jw7g7wHs
いまのところ思いつきでしかないんだが、
日本語の「文語」「旧漢字」「旧かなづかい」と
いうのは、自然言語処理における暫定的な
ピボット言語として、けっこう実用的なのでは
ないか、と思う。

戦後に教えられている、日本語の現代国語の文法は、
文語文法ほど厳密ではない。
「常用漢字への置き換え」のせいで、本来の字義が
わかりづらい文字がある。
旧かなづかひには、文語文との歴史的な関連があり、
合理性がある。
で、「現代語」「常用漢字」「新かなづかい」への
変換は、わりと標準的辞書とそれなりのアルゴリズム、
そこそこのマシン環境があれば、実用上は不自由な
感じがなく可能だ。

いけそうに思うのだが、どうだろう。
0714デフォルトの名無しさん
垢版 |
2018/09/03(月) 19:36:30.73ID:EdX2r8s2
>>713
どこの?
おれは出席できるのか?
発言権とか議決権とかはあるのか?
どういう影響力があるのか?
0716デフォルトの名無しさん
垢版 |
2018/09/04(火) 19:38:35.15ID:1ahLzDkT
>>715
日本ソフトウェア科学会の自然言語処理の
分科会で、ボロクソに叩かれたのが、いまだに
トラウマになっている。

当時は JUMAN 以外の形態素解析システムは
認められていなかったので、分科会の座長に
「益岡 隆志 ・田窪 行則の『基礎日本語文法』を
読んでから来なさい」と一蹴されてそれっきり。

資料をほじくり返せば、どっかから名前が
出てくるだろうが、それも野暮な話だろうと
思って遠慮している。

形態素解析で、おれらに勝てると思ってる
奴がいたら、喧嘩売ってこい。ぜんぶ
買ってやる。
0717デフォルトの名無しさん
垢版 |
2018/09/04(火) 19:42:49.40ID:1ahLzDkT
ついでながら、大修館の『言語』の
『言語空間』で、国広哲弥先生と
がっぷり四つに組んでバトルをしたのは、
うちらの親玉だ。
0718デフォルトの名無しさん
垢版 |
2018/09/04(火) 20:55:35.67ID:L4gEVvGM
>>714
>発言権とか議決権とかはあるのか?

人工知能研究は何とか大学で何とか言う学位を得たとかいう専門家達の小難しい数式ではなく、
こうした何気ない日常生活の中から何かを発見していくことのほうが大切と思われる。


485 デフォルトの名無しさん 2018/03/24(土) 22:53:15.70 ID:6mZ6T11K
(第1章 はじめに 2頁)
たとえば、CycはFredという名前の男が朝にひげをそるという話が理解できなかった。
Cycの推論エンジンは、この話の中に矛盾を見つけた。Cycは人間には電気の部品がないことは知っているが、
Fredが電気カミソリを持っていたので、エンティティ「Fredがひげそり中(FredWhileShaving)」
には電気の部品が含まれていると考えた。したがって、CycはFredがひげをそっている間、
Fredはそれでも人間なのかと尋ねた。

『深層学習』
著者:
Ian Goodfellow, イアングッドフェロー,
Yoshua Bengio, ヨシュアベンジオ,
Aaron Courville, アーロンカービル
0719デフォルトの名無しさん
垢版 |
2018/09/04(火) 21:19:40.95ID:1ahLzDkT
>>718
「日本語の動詞の活用は、
末尾の音との対応によって決まる」
んだが、しょっちゅう使う動詞に関しては、
この対応関係が崩れることがある、という
話をした。
いわゆる「サ変(する)」「カ変(「来る」)」は
知られているが、それ以外に「言う」「行く」と、
「乞う」「問う」は、その原則から外れていると
いうのを、実際のテキストデータ(コーパス)を
コンピュータによって篩にかけて実証したんだが、
侮辱されただけで終わった。

> こうした何気ない日常生活の中から何かを
> 発見していくことのほうが大切と思われる。
たしかに大切だと思うのだが、それが学会で
評価されると信じるのは、「いつか王子様が」
みたいなファンタジーでしかない。
0720デフォルトの名無しさん
垢版 |
2018/09/04(火) 21:28:33.77ID:1ahLzDkT
「創傷熱や産褥熱は、医者や看護師の手を
介在して感染するので、医療行為を行う人間は
よく手を洗え」と主張したイグナーツ・ゼンメルワイスは、
精神病院に収容されたあげく、看護人に殴られて
死んだ。

世の中はそんなもんだ。過去にではなく、
現在もだ。
0721デフォルトの名無しさん
垢版 |
2018/09/05(水) 08:19:26.23ID:sGefZ1lw
あんたの考えてることが他人に説明できないなら戯言でしかない
それすらできないくせに歴史的英雄に自分を重ねてこんなとこで自慰をするのは無様で恥知らずとしか言いようがない
人工知能学会でも自然言語処理学会でもいいから論文を出せ
日本でダメなら国際会議で訴えろ
甘利ににらまれた金谷は国際会議で訴えた
0722デフォルトの名無しさん
垢版 |
2018/09/05(水) 08:39:26.69ID:TGJHl4wU
>>721
>こんなとこで自慰をするのは

ところでだ。「チンボがシコシコする」という日本語表現は、文法的に正しいのか?

チンボ「を」シコシコするのではなくて、チンボ「が」シコシコする。この場合、「チンボ」は主語となる。

オブジェクト指向で言う「集約」は2種類あって、全体(俺)と部分(チンボ)が繋がっている場合と、
全体(俺)と部分(チンボ)が別々になっている場合とが考えられる。けれども「チンボ」はそれ自体
が独立した生き物であり、所有者の意思とは無関係に、勃起して「シコシコする」。
例えば寝てる時にエロい夢みて朝起きてみたらチンコが勃起して射精してたとか。

違うか?

「頭がズキズキする」は良いが、「チンボがシコシコする」はダメな理由を、50字以内で述べろ!>>98
0723デフォルトの名無しさん
垢版 |
2018/09/05(水) 08:42:52.59ID:TGJHl4wU
人間発見国立情報学研究所教授 新井紀子さん AI時代を生き抜く力(3)
ttps://www.nikkei.com/article/DGKKZO33940070Y8A800C1EAC000/ 
 娘の身を案じ猛反対する両親を押し切って米国へ留学。大学院に進んだが教官のセクハラに遭い、一度は研究者の道をあきらめ
かけた。
 1年後には帰国して就職か結婚をする、と約束し、ようやく両親に留学の許可をもらいました。大学4年の1984年7月に日本を出発、
数学基礎論が盛んだったイリノイ大学に入学しました。イリノイ大は1年で卒業。卒業時に優秀賞をとり、奨学金を得たので大学院に
進学しました。
 ところが大学院では指導教官からのセクハラに遭い、つらい日々を過ごしました。遠距離結婚して間もない夫も心配して米国に来て
くれましたが、セクハラが止むことがなく、学内で訴えを起こしました。当時は米国でもようやくセクハラへの関心が高まり始めたばかり。
当時は米国でもようやくセクハラへの関心が高まり始めたばかり。学内規則が不十分だったこともあり、決着をつけることはできず、
博士号をとれずに失意のまま帰国することになりました。
 帰国後、娘が生まれたこともあり、一度は家庭に入って専業主婦になろうと考えました。今も研究を続けているのは、このとき夫が
「あきらめるな」と励ましてくれたからです。広島市立大学に情報科学部が新設されることを知った夫は、応募してはどうかと勧めて
くれました。「もう一度やってみよう」とタイプライターを買い込んで論文を書き始め、一橋大の先生方のサポートもいただいて完成。
助手に採用されました。
0724デフォルトの名無しさん
垢版 |
2018/09/05(水) 09:40:09.05ID:cB1vOB+w
>>772
構文的には正しいが、運用論的には疑問がある。
【解説】
「目がシパシパする」は構文的に正しいので、
「チンポがシコシコする」も構文的に間違っているとは
いえない。「麺がシコシコしている」は運用論的に
正しいが、語彙的に「シコシコする」が一般的な
用法に含まれているか、には疑問の余地がある。
0726デフォルトの名無しさん
垢版 |
2018/09/05(水) 12:24:18.47ID:cB1vOB+w
>>721
> あんたの考えてることが他人に説明できないなら
説明して理解できる奴が日本中探しても おそらく十人以下だ(笑)
> 歴史的英雄に自分を重ねて
ゼンメルワイスは説が入れられず不遇のうちに生涯を終えた。
看護師でもゼンメルワイスの名前を知らない奴が多い。
> 人工知能学会でも自然言語処理学会でもいいから論文を出せ
記述文法をやってる奴がそもそもいない。
> 日本でダメなら国際会議で訴えろ
膠着語の記述文法は欧米人に理解できるとも思わん。

そんなわけで実装して製品化を試みたが、
ある会社は会社が分裂してプロジェクトが頓挫、
ある会社は業績が悪化してプロジェクトから撤退、
ある会社は不正経理のせいで他の会社に乗っ取られて
プロジェクトが消滅、
ある会社は資金がショートしてチーム解散、
ある会社は別プロジェクトが大手の企画と
バッティングして経営難になり、チームのメンバーが
逃走、
その他もろもろあって、「呪われたシステム」と
謂われている。
0727デフォルトの名無しさん
垢版 |
2018/09/06(木) 04:51:25.22ID:8UoLzWRo
n バイトの文字列に対して、 n バイト以下のコードから
なる単語辞書を用いて、「すべての部分文字列に対する
辞書引き(これを、直積検索:ダイレクト・プロダクション
検索、または全件検索という)」を行なうことを考える。
このとき、最悪の場合でも n^2 + n の手間しかからない
アルゴリズムが存在する。
もちろん、バイト単位で考えれば 256 分木で表現すれば
いいのだが、それをやるとデータがやたらに大きくなる
(スペースファクターが悪い)ので、これを圧縮して
(木の末端部はスパースなので、重ならないように格納
する工夫の余地がある)一次元配列に押しこむことを考える。
有名なものとしては Google が使っているダブル配列法が
あるが、その原形であるトリプル配列法のほうが、マルチ
バイト文字を考えると、かえってスペースファクターが
向上するケースがあることがわかっている。
0728デフォルトの名無しさん
垢版 |
2018/09/06(木) 05:08:43.23ID:8UoLzWRo
一次元配列の要素は、
バイアス、アドレス、データ識別子である。
ここで、添字0を起点としよう。バイアスとアドレスは
添字であるとする。(なお、以下の方法にはバリエーションが
あるが、ここではもっとも素朴な例を示す)
ある添字 X が、文字列のどこか(たとえば、元文字列のどこか
にある “ab”)のどこかを指しているとする。
そのとき、次の文字 c が続く文字列 “abc” が辞書にあるか
どうかを調べるとき、X+c 要素のバイアスが c に等しいかを
見る。これは、X+c が X を指しているということなので、
データ識別子の先に語彙データが存在する(もちろん “abcd” が
辞書にあって "abc" がないこともあるので、そこはチェックが
必要だ)。さらに、その先を探すためには、要素 X+c のアドレス
部を見る。その値がアドレスで無意味だったら、その先に続く
文字列は辞書にない、ということになる。
0729デフォルトの名無しさん
垢版 |
2018/09/06(木) 06:02:39.83ID:8UoLzWRo
辞書引きは一応片付いたことにして、次は形態素解析だ。
語彙の部分には、品詞の分類というものがある。ただ、
これがなかなかの難物なのだ。
たとえば日本人なら、日本語の動詞をそのまんま
書いて「動詞」と書いておけば辞書として役に立つ。
ただ、外国人やコンピュータ様は動詞の語幹部分を
別々の形態素として辞書登録しておいて、辞書引きが
終わった段階でパーツを組み立てて「これはどういう
品詞のナニナニ形だ」と提示しなければならない。
するってぇと、たとえば「書かされたがらなかった」
はどうなるかというと「動詞・書k+使役・as+
受動・aれ+欲求・た+表出・が+否定・なk+
過去または完了・aった」と、別々の品詞として
辞書登録しておかなければならなくなる。
「こんなんやっとれるかぁ!」と怒りだす奴が
いそうだが、これは辞書を「形態素(=名前のない
形態素)」の辞書と「品詞(=名前のある形態素)」に
分けて、前者は「開始点の文法属性+マッチング文字列+
終点の文法属性」として管理し、後者は「品詞+辞書登録形」
で辞書かしておいて、適当なツールで「開始点の文法属性+
マッチング文字列+終点の文法属性」に変換してやる(もちろん、
マッチングに不必要な活用語尾は取り去る)という操作を
行なうわけだ。
これによって、解析開始点から「解析開始点の属性」→
「開始点属性」→「マッチング文字列」→「終点属性」ときて、
ここから次々と「終点属性」を「開始点属性」とみて
探索を行なってゆけば、自動的に形態素解析が行なえてしまう、
ということになる。
なお、単なる「かな漢字変換」レベルの処理だったら、
これだけで市販の IME が吹っ飛ぶくらいの威力のある
変換システムができあがる。もちろん、候補の優先度とかいった
塩梅は必要ではあるのだが。
0730デフォルトの名無しさん
垢版 |
2018/09/06(木) 07:09:53.36ID:8UoLzWRo
この処理系の実装にあたっては、再帰を使って
木探索(ツリー・リトリーブ)で書くのが簡単だが、
それでは面白みに欠ける。
「どの点のどの開始属性から探索する」という
タスクを何らかのデータ構造(C なら構造体、
Java ならオブジェクト)の形で表現しておいて、
データプール(コンテナ)に放り込み、
一個取り出しては探索処理を行なって、
次の探索店をまたデータプールに突っ込む、
ということをする。
これがスタックだと深さ優先探索、
これがキューだと幅優先探索になるので、
プッシュとポップを工夫するだけで、
探索戦略を切り替えることができる。
こういう手法を「チャート法」といい、
構文解析(形態素解析ではなく、だ)の
分野ではよく知られた手法だ。

なお、この手法、ビットマップ上の
領域の塗りつぶしや迷路探索にも
使える。横溝正史の『八つ墓村』に、
金田一耕助がチャート法を使って
巨大洞穴を探索する場面が出てくる。
0731デフォルトの名無しさん
垢版 |
2018/09/06(木) 09:11:04.07ID:8UoLzWRo
>>729 の話は、要するに「文法属性の始めと終わりを
マッチング文字列で橋渡しする」ことで文法定義を
しちゃって、チャート法の解析エンジンだけで処理を
片づけるという、無精ったらしいことをしているわけだ。
このとき、「マッチング文字列がヌルストリングのとき、
うっかり循環参照かなんかを作りこんじゃったら
無限ループに陥っちゃうだろうが!」という
話になる。
文法そのものがそんなに大袈裟なものじゃない(二千行あれば、
充分書ける)ので、あんまり気にしなくていいのだが、
それでもチェックは入れておいたほうがいい。
0732デフォルトの名無しさん
垢版 |
2018/09/06(木) 09:16:30.21ID:8UoLzWRo
>>731
これには二つの方策があって、
1)実行前に、スクリプトから実行形式にコンバートするときに、
チェックして対処する。
2)実行時に、同じ位置に同じ文法属性が来たら、そこでハネる。
のどっちか、という話になって、(1)は実行時のオーバーヘッドが
なく、(2)は実行時のチェックのためのオーバーヘッドが生じる。
これはどっちでもよさそうだが、どのみち「辞書と文法を区別しない」の
で、(1)で工夫はするとして、いちおう(2)の機能も組込んで
おくのが安全。
0733デフォルトの名無しさん
垢版 |
2018/09/06(木) 09:26:43.74ID:8UoLzWRo
>>732 については、一度、大騒ぎしたことがある。
「書いてる」は「書いている」の省略形なので、
「『いる』の語幹『い』の省略」と記述したら、
困ったことに「連用形の現在」が、語幹と一致する
「い」だったのだな。
「お持ち帰り」のように、連用形は連用形に接続するので、
「書いてる」が「書いて(ここに「い」が無限個省略されて
いる)る」と解析されて、いきなりスタックオーバーフロー(笑)。
さんざん解析に手間取ったあげく、「ている」「でいる」の
「てい」「でい」をそれぞれ形態素として登録して逃げた。
このあたり、「どう処理するのが本当か」という話はあるのだが、
>>1
> 言語学の話題などは他のスレッドでお願いします。
と言われているので、このスレでの議論は避けることにする。
0734デフォルトの名無しさん
垢版 |
2018/09/06(木) 12:35:12.17ID:8UoLzWRo
とりあえず、>>1
> このスレッドでは、「日本語の構文解析・談話理解・情報検索・
> 文章生成」などの技術に関する理論と(おもに)実装を扱います。
> あくまで、「アプリケーション・プログラミング」の
> 技術的な面に重点をおきたい
というコトになっているんだが、よく見れば「形態素解析」と
いうのは「自然言語処理スレッド」からは排除されているんだよな。

そのあたりに関する、スレ民の意見は伺いたいと思う。
0736デフォルトの名無しさん
垢版 |
2018/09/06(木) 16:16:39.52ID:8UoLzWRo
>>735
ありがとう。
実装は任せた。
ソースコードは
無償で提供する。

「束(そく。Latteice)から束への建艦」が、
一意に成立するかどうかが疑問だったのと、
それが、その程度効率的なのかについて、
充分なデータが揃っていなかったのだ。
どっかの大学(を含む研究機関)で、
マジメに検証してくれれば、
ありがたいと思う。
0737デフォルトの名無しさん
垢版 |
2018/09/06(木) 16:25:51.53ID:8UoLzWRo
>>736
×「束(そく。Latteice)から束への建艦」が、
〇「束(そく。Lattice)から束への変換」が、

HyperLisp とかいった、ちょっと古い処理系を
知ってるんなら、説明も楽なんだけど、
有限束から説明すると、半順序構造とか、
いろいろ面倒臭い話があるので、
このスレではパスさせていただく。
0738デフォルトの名無しさん
垢版 |
2018/09/07(金) 09:04:25.36ID:9e6p+l40
形態素解析は隣接関係だけで
記述できるからいいのだが、
構文解析となると「係り受けの関係
(の非・交差則)」と「文法格の
一意性」っちゅーのがあるので、
処理がワンランク複雑になる。
そうなると冨田法みたいに
スタックが乱立する(スタックが
分岐するので、「カクタス・スタック」、
直訳すると「サボテンスタック」という)
ので非常にややこしく、プログラムを
書くのがややこしい。
BNF で記述して LALR 法かなんか使って
コードに落としこもうとしても、日本語は
省略が多いうえに語順が不定なんで
うまくいかない。
しかたがないので、「なんか分かりやすいシェーマは
ないのか?」と考えたところ、二次元の表を使うことを
思いついた。そうなると、コンピュータ将棋のプログラムが
応用できそう(他の駒の利き筋を通過できないから、
実際はもっと簡単)な感じがしている。
0740Mr.Moto
垢版 |
2018/09/07(金) 13:54:16.41ID:9e6p+l40
>>739
トリップつけても忘れるんだよな (-_-!)
そもそも、アルゴリズムとかシステム・デザインとかに関する
知的所有権は保護されないし、企業に所属していると
「トレード・シークレット(業務上の秘密)」とか言われて
民事訴訟とか起こされても対抗する手段がない。
原告側(訴えた側)に対抗するには、被告側(訴えられた側)が
証拠を出して反証しないといかんのだが、証拠はたいてい原告側が
握っている。被告側が訴訟に勝てば訴訟費用は取り戻せる
建前にはなっているが、原告側が払ってくれるとは限らないし、
そもそもが「被告側に経済的な負担を与えるために、
金をかけてでも訴訟を起こす(これを SLAPP 訴訟という)」
場合もある。企業は「法人」といって人格権があるので、
企業が原告になることができる。で、倒産しちゃえば「原告が
死亡」したことになるので、けっきょく裁判はチャラになって
しまうので、「計画倒産と SLAPP 訴訟がワンセットで
襲ってくる」みたいなコトも往々にしてある。
で、日本の司法機関は、知的所有権にかかわる訴訟を、あまり
扱ったことがないので、最高裁まで争ってもマトモな判決が
出る可能性は乏しく(企業が個人を訴えた場合、「企業のほうに
理がある」と頭から決めつけるケースが多い。企業には顧問弁護士が
ついてくるが、個人が対抗して弁護士を雇おうとしても、そういう訴訟に
慣れた弁護士はなかなか見つからない)、途中で和解に持ちこもうとして
裁判官がゴネるケースが多々ある。
青色 LED の中村修二さんは、「けっきょく、裁判費用で結果的に
足が出た」とボヤいていらっしゃった。
0741Mr.Moto
垢版 |
2018/09/07(金) 14:01:02.08ID:9e6p+l40
そんなワケで、トリップは遠慮しとく。
おれに用があったら、アスキーの西さんとか、
おなじく出版技術部の TEX を維持してるチームとか、
インプレスの井芹さんとか、アップルの元「ことえり」の
チームとか、メタボール・アルゴリズムで有名な大村 皓一さんとか、
そのあたりの人に「JAI-Perser の開発者の
S さんという人に心当たりはありませんか?」と訊いて
もらえば、住所氏名電話番号メールアドレスくらいは
解るはずだ。
0742デフォルトの名無しさん
垢版 |
2018/09/07(金) 14:17:13.22ID:9e6p+l40
>>741
もっとも、西さんは井芹さんと塚本さんがアスキーを
退社してインプレスを立ち上げたために、ソフトウェア
開発部門が解散してしまったために VJE-β のチームが
解散したとか、井芹さんは会社を立ち上げたばかりで
企業体力がなかったので訴訟を避けたかったとか、
出版技術部はアスキーとインプレスの両方と
関連があったので JAIP プロジェクトとは距離を
置かざるを得なかったとか、「ことえり」チームは
ジョブスが不在だった時期で日本市場に力を入れる
余力がなかったとか、大村 皓一さんは もんたよしのり
とのコラボに関わったら芸能関係の その筋の方々と
モメて行方をくらましていたとか、いろいろと
薄らぐらい事情もあったので、逃げ出すかもしれんが。

いちばん捕まえやすいのは、農工大の小谷善行さんかな?
でも、パズル懇話会のときに、NHK−BS の『パズルへの招待』
の件で話しかけようとしたら、「所長の顔を見るなり逃げ腰に
なっていた」という話を聞いたこともあるしなぁ(笑)
0743Mr.Moto
垢版 |
2018/09/07(金) 17:57:59.51ID:9e6p+l40
板違い(本来はム板ではなくてマ板の話題)であり、
スレ汚しでもあり(日本語処理そのものとは、あまり関係がない)、
ひとり語りになってしまう(けっこう長い話なので)のだが、
勘弁してくれい。

時は一九八十年代半ば、まだ代表番号の末尾が「1」だった
時代(電話交換機が、電子交換機ではなく、クロスバー交換機
であり、ステップ・バイ・ステップ交換機が残っていて、
電話回線がトーン回線だった頃)に、現在のファクシミリみたいに
音声回線でデータ通信を行なっていた時代の話である。
通信速度は、300 bps とか 600 bps とか 1200 bps とか 2400 bps
とかだった時代である。
0744Mr.Moto
垢版 |
2018/09/07(金) 18:12:14.44ID:9e6p+l40
当時、「草の根 BBS」という「アコースティック・モデム+
音声回線」による電子掲示板が、ちょっとしたブームに
なっており、SONY からも BBS 電話が発売されたり、
アーサー・C・クラークの「二〇〇一年」の続編
にあたる「二〇一〇年」製作にあたって、原作者の
クラークと監督のピーター・ハイアムズがワープロを
使って交信していたり(『オデッセイ・ファイル
― アーサー・C・クラークのパソコン通信のすすめ』と
いう本になっている)していたので、うちの
所長は PC-98 とヘイズ規格の AT モデムを使って、
BBS のホストシステムを構築したそうだ。
0745Mr.Moto
垢版 |
2018/09/07(金) 18:18:47.66ID:9e6p+l40
MS-DOS はシングルタスクなので、回線が(不用意に)
切れたときの対処が難しい。しょうがないので
上のプログラムから下のプログラムを起動し、
回線が切れたら下のプログラムが落ちて上のプログラムに
制禦が戻る、という形になっていた。
そうしたら、所長の後輩の HASH くんが、「OS/9 は
マルチタスクですよ wwwww」と言って、FM-11/AD2+
と OS/9 を使って BBS のホストシステムを作ってしまった。
のちに、ANA かなんかが同じ構成で航空券の予約システムを
構築したらしいが、関連があるのかどうかは知らない。
0746Mr.Moto
垢版 |
2018/09/07(金) 18:25:49.48ID:9e6p+l40
時は移って大喪の礼の当日である。
世の中が静まり返っている休日だが、
同じころに「マンガの神様」である手塚治虫
さんも亡くなっていた。そこで、ネットで
知りあったHASH くんを交えたハッカー四人が
「手塚アニメ追悼上映会をしよう」というので、
HASH くん宅に集まった。
そのとき、『ToolBox 100 の定跡』の小池 邦人さんが
そこに加わっていた。
0747Mr.Moto
垢版 |
2018/09/07(金) 18:30:12.54ID:9e6p+l40
じつは、そのとき小池さんがそこにいたと
いうことを、所長はすっからかんに忘れて
おり、後にそれを小池さんに言われて大いに
狼狽した、という話を聞いている。
で、「Mac の ToolBox には、ISAM
(順編成索引つきファイル)が入っている」
という話があったらしい。その話は所長も
憶えていないという。
このあたりから、自然言語処理の話になる。
0748Mr.Moto
垢版 |
2018/09/07(金) 19:28:19.24ID:9e6p+l40
当時、Macintosh は高価だった。そんなわけで、
グァム島とかハワイとかに、観光ついでの
Mac 買い出しツアーとかがあった。
ところが、問題なのは、マニュアルが英語で
あることのである。電子データでそれなりの
情報は入ってくるのだが、困ったことに、
専門用語交じりなのである。
This is a Pen とか I have an apple. なら
分かるのだが、コンピュータ関係の専門用語は、
そこいらの辞書には載っていないのだ。
しかも、辞書を引くのはめんどくさい。
「コンピュータ関係の専門語だけでも
辞書引きをやってくれるような、
お手軽なシステムはないのか?」
という話になった。
0749Mr.Moto
垢版 |
2018/09/07(金) 19:33:45.67ID:9e6p+l40
「なんとかならんか?」
「簡単だよ。ISAM 載ってんだろ?」
「だって、ISAM は完全一致だろう?
語尾が変化したら一致しないんじゃないか?」
「変化しそうな部分を取っちゃってから
検索すればいい。坂井 利之先生の
『翻訳するコンピュタ ー 情報革命と
語学の壁に挑む』(講談社ブルーバックス)に
書いてある」
「だけど、一致しても、複数の候補がヒット
しちゃうだろう」
「大した数じゃねぇから、一個一個チェックすりゃあいい」
0750Mr.Moto
垢版 |
2018/09/07(金) 19:39:36.52ID:9e6p+l40
「…… だけど、末尾から語尾を削ったら
本体がなくなっちゃったらどうする?」
「ヌルストリングはキーにならないのか?」
「― なるな。じゃあ、そういうプログラム書けるか?」
「書こうか?」
というので、辞書引きツール “rStone” というツールがで
きた。最初は「ロゼッタ・ストーン」という名前にしたのだが、
なんか商標登録の関係で引っかかった、という。
0751Mr.Moto
垢版 |
2018/09/07(金) 19:44:14.38ID:9e6p+l40
rStone は、“BeerWare” として配布された。
「使って、気にいったらビール券を送ってこい」。
そうしたら、ユーザから、「正式に製品化して
サポートしてくれ」という話になった。
当時は知的所有権関係の法整備が進んでいなかったので、
しょうがないから、当時勤務していた企業から
製品としてリリースすることになった。
0752デフォルトの名無しさん
垢版 |
2018/09/07(金) 19:49:00.16ID:9e6p+l40
rStone は、売れた。
そうしたら、会社が「英和があるんなら、
和英が欲しくなるよな?」と言いだして、
たしか四か月くらいかけて、「日本語の
形態素解析システムを搭載した、日本語の
漢字かな交じり文/かな表記文両用の
辞書引きシステム」を開発した。
このあたりの話は面白いんだが、長くなるので省略。
あっちゃこっちゃに書いているので、たぶん
自然言語処理をやってる人間なら知ってると
思う。
0753Mr.Moto
垢版 |
2018/09/07(金) 19:54:11.64ID:9e6p+l40
この、「rStone 和英版」(rStone-JE)は、
C 言語で記述されていて、中身は再帰呼び出し
を使った木探索プログラムだった。
これが非常にめんどくさい。人工知能システムでいう
プロダクション・システムで、IF 〜 THEN 〜 ELSE が
延々と続く砂漠のようなコードであり、しかも相互に
影響しあっているので、メンテナンスが大変なんである。
そういうわけで、「こんなんやっとれるかぁ!」と
所長がキレた。
0754Mr.Moto
垢版 |
2018/09/07(金) 20:03:55.18ID:9e6p+l40
で、「文法記述用のスクリプト言語」
「プロダクション・システム駆動用の
チャート法エンジン」
「辞書管理用のツール群」
を統合したシステムをインプリメントした。

このあたりから、アスキーの VJE-Pen の
開発チームおよび出版技術部の TEX 維持チーム、
それにアップルコンピュータ・ジャパンの
「ことえり」開発チームとのコラボレーションが
始まった。

こっから先は、商売がらみのすったもんだの
話になるので、本スレの趣旨に合わない。
そんなわけで、この件はここで終わり。
辞書管理の労苦とか、形態素解析システムと
構文解析システムとの統合、みたいな技術的な
話は、興味があったら随時質問してくれ。
0756Mr.Moto
垢版 |
2018/09/08(土) 03:56:49.86ID:Hj3WpMqo
ここで、自然言語処理における
形態素解析システムについて、
あらためて考えよう。
「日本語の(構文文法未満の)文法は
{始点属性、マッチング文字列、終点属性}という
三つ組みデータで記述できて、チャート法によって
処理できる」ということが謂える。
で、ここから「日本語でなくても、同じことができる」
が謂える。
つまり、「同じシステムで、ローマ字かな変換も
できてしまう」。数学者の島内 剛一先生による
ローマ字かな変換は、そのまんま記述可能で、
あっさり動いた。
0757Mr.Moto
垢版 |
2018/09/08(土) 04:09:17.50ID:Hj3WpMqo
つぎに、「経路探索ができる」というのも指摘しておこう。
共立出版のコンピュータ・サイエンス専門誌『bit』の
『ナノピコ教室』に「十三階段への道」という問題が出た。
十三階段を上るのに、「一歩で一段」「一段抜かしをして、
一歩で二段」「二段抜かしをして、一歩で三段」の三通りの
やりかたがある場合に、「十三段を上がるのに、何通りの
やりかたがあるか、という問題である。
この問題は、要するに、“*”、“**”、“***” という単語が
あったとして、"*************" は何通りの表し方が
あるか、という問題に帰着する。「すもももももももものうち」
を「李(すもも)」「桃(もも)」「酢(す)」「藻(も)」
「も(助詞)」「の(助詞)」「内(うち)」で表すやりかたの
候補を全部挙げろ、と言ってるのと同じことなのだから。
0758Mr.Moto
垢版 |
2018/09/08(土) 04:15:51.99ID:Hj3WpMqo
「かな漢字変換システムは間に合っているし、
パズルにも興味がない」という人は多いだろう。
とはいえ、このスレは自然言語処理スレッドなのである。
そうすると、当然のように辞書は使ってるよな?
で、その辞書は たいていテキストの形で持ってるよな?
(中には「DBに入れてる」という人もいるだろうが、
出力することくらいあるだろうから同じだ)
そのとき、順番はどうなるか。単語とえば読みがなの順で
出力したいときに、どうやって整列させたらいいのか。
0759Mr.Moto
垢版 |
2018/09/08(土) 04:26:13.30ID:Hj3WpMqo
このとき、読みがなをキーにして単純に整列してしまうと、
うまくない。文字コードの大小で整列すると、普通の
紙の辞書の見出し語順にならない。
「蚊」「蛾」「梶田」「鹿島」が「か」「かしま」
「が」「かじた」の順になる。こうなると、データと
紙の辞書を突き合わせるのが非常にめんどくさい。
そうなると、「辞書順にソートするのに必要な比較関数」
(要するにコンパレータ)を書きゃあいいじゃねぇか、
という話になりそうだが、実際にやると大抵失敗する。
順序関係が循環して、整列が終わらなくなる。
じゃあ、どうするか、だ。
0761Mr.Moto
垢版 |
2018/09/08(土) 04:42:26.70ID:Hj3WpMqo
辞書を出版している出版社や、ビジネスソフト
(顧客名とかでソートすることだってあるだろう)を
開発している会社ではどうやっているのか、といえば、
「読みがなから、整列用のキー文字列を生成する」
という手法を用いている。このキー文字列で辞書順
整列ができてしまう。
このとき、生成する文字列はふたつ。AとBを
生成したとして、Aのあとに読み仮名のコードよりも
小さい文字をくっつけて、Bにくっつける。なお、
Shift-JIS と UNICODE では、かなと記号の
位置関係が違うので、注意すること。
で、この「整列用のキー」の生成に、やっぱり
先の形態素解析エンジンが使えてしまう。
JUMANだの茶筅だのといった
形態素解析システムを使っていても、この手の汎用の
ツールはひとつ持っておくと便利だ。
0762Mr.Moto
垢版 |
2018/09/08(土) 04:55:41.18ID:Hj3WpMqo
>>760
「その先」っていうと、
形態素解析の応用面(論文の内容の比較とか
著者の推定とか)とか実際の成果(今までに
どんな結果を出したか)とか?
でなかったら、そのベースになるシソーラスの
構築のしかたとか?
それとも構文解析とか意味表現とか?
いろいろあるけど、どっから始める?
「他のアプリケーションとの連携はどうする?」
とか言われると、「そこいらは相手先との関係を
どうするか」とかいった生臭い話も絡んできて
このスレの趣旨と外れちゃいそうだから
どこまで書けるかわからんが (^_^!)。
0763デフォルトの名無しさん
垢版 |
2018/09/08(土) 05:14:06.40ID:xpw/+eIi
>>762
釈迦に説法かもしれないけど大きく分けると解析は
形態素解析、構文解析、意味解析、文脈解析が四つで
そのうち形態素と構文は方法論が固まって来てるけど
意味と文脈の解析が難しいとよく言われているよね

そこで意味解析と文脈解析の方向性が知りたいな

あと解析の話は多いけど文生成の話が少ないので
単に逆の処理するだけでもないだろうし生成の話も
0764Mr.Moto
垢版 |
2018/09/08(土) 05:31:32.26ID:Hj3WpMqo
>>763
> 意味解析と文脈解析の方向性が知りたいな
了解した。たしかにそのあたりは急所だ。
まず、「文章」の基本要素は「文」だ、というのを
納得してもらおうと思う。
英語(英文法)だと「単文」「複文」という区別があって、
「動詞」が文の中核にある、というのが常識として
通用しているけれど、日本語(日本の国語教育)の場合、
その部分が強調されることって、あんまりないでしょ?
おそらく、それが英作文や英文和訳のときの大きな
壁になっていると思うんだ。
だけど、日本語においても(というか、おそらくは
世界中の言語で)、言語表現・意味における中核は
「文」あるいは「述語(動詞、形容詞、コピュラ)」
なんだと思う。
0765Mr.Moto
垢版 |
2018/09/08(土) 05:36:05.10ID:Hj3WpMqo
ちょっと余談になるけど、「カタストロフィ理論」で
有名な数学者のルネ・トムという人は、この「述語(verb)」
のことを「原始文章」と呼んでいて、そこからさらに踏み込んで
「初等カタストロフィ集合に “切断” という操作を行なうことで、
原始文章のタイプ分けができる」とまで言ってる。で、日本の
自然言語処理の草分けである長尾真先生が、論文のタイトルの
構文構造を型分けしていったら、やっぱり十いくつかの型に
分類できちゃった、ということを仰っている。
0766Mr.Moto
垢版 |
2018/09/08(土) 05:45:19.67ID:Hj3WpMqo
で、「文」というのは、化学における「原子」に
相当するものと考えると都合がいい(「文法」は
形のあるもんじゃないから、脳味噌を引っ搔き
まわしても出てこないので、「(実用的な意味で)
都合がいい」としか謂えない)。
この「文」の中には「述語」が一個だけあって、
この述語から見た「体言(「もの」というか「存在」というか)
の関係」というのが、「格(文法格)」だと考える。
たとえば、述語「食べる」は少なくとも「誰が」と「何を」と
いう格を “要求” する。
0767Mr.Moto
垢版 |
2018/09/08(土) 05:51:21.34ID:Hj3WpMqo
この、「述語が要求する格」は複数あるわけだが、
それぞれの格の対象は、それぞれ1つしかない。
難しくいうと、「述語は格を一意に要求する」。
「私はラーメンを餃子を食べた」は「何を」が二個あるから
文法的に正しくなくて、「私は “ラーメンと餃子” を食べた」は
「何を≡{ラーメン&餃子}」だから文法的に正しい、とかいった
話になる。
0768Mr.Moto
垢版 |
2018/09/08(土) 05:56:27.08ID:Hj3WpMqo
複数の文が、格を付与された体言を共有することで、
結合することがある。これは化学でいう共有結合
みたいなもので、その結果として「分子」にあたる
「複文」ができる。
「俺が頼んだラーメンを食った奴は誰だ?」は、
「俺」が主語である述語「頼む」と「誰か」が主語である
述語「食う」が、体言「ラーメン」を介して結合したものと
考えられる。
0769Mr.Moto
垢版 |
2018/09/08(土) 06:08:51.61ID:Hj3WpMqo
こうしてできた文(単文あるいは複文)を
接続詞によって繋げてできたものが「文章」で
あり、「文がどのように繋げられているか」
が「文脈」になる。
「ラーメンは食べるが、餃子は食べない」は
「ラーメンは食べる。しかし餃子は食べない」と
同義であり、その関連を示すのが「が」「しかし」
であるという解釈である。
日本語には「のに」「ので」「にもかかわらず」
「けれども」など、いろいろな「接続助詞」「接続語」
があるが、文単位の形態素解析ができれば、与えられた
コーパスデータから、自動的に抽出できる。
同時に、接続助詞や接続語が出てきたら、そこで文が
区切られているので、述語と格の関係はそこで切れて
いるとみなせる。
ただし、この場合後の文には省略がある場合が多いので、
その部分を補う必要がある。
「僕はタケノコは食べられるが、シイタケは食べられない」は
「僕はタケノコは食べられるが、(僕は)シイタケは
食べられない」の省略表現だと考えないと、構文解析処理が
と文脈解析処理がこんがらかって、ややこしい話になる。
0770Mr.Moto
垢版 |
2018/09/08(土) 06:22:14.14ID:Hj3WpMqo
>>763
> 文生成の話
文生成の場合は、
「〔引き続く動詞が要求する格を持った体言列(助詞つき)〕
+〔動詞(連体形)〕〔まだ使ってない格を持った体言〕」
の形で接続してゆけば文(単文または複文)が生成できて、
〔前置詞〕+〔文〕+〔終助詞〕とするか、
〔前置詞〕+〔文〕+〔接続助詞〕+〔文〕…… と
するとかして(同時に前置詞のかわりに接続詞を
使うとかして)、文を生成してゆくと、一応の文生成はできる。
ただし、時刻とか場所とか方法とかといった「格を持たない体言」
(これを、個人的に「相」と呼んでいる)とか、「さっぱり」「めっきり」
のような連用修飾詞(動詞・形容詞の連用形もここに含めちゃっていい)
とかも適宜織り交ぜると、より「それっぽい」文章が生成できる。
0771Mr.Moto
垢版 |
2018/09/08(土) 06:30:31.50ID:Hj3WpMqo
>>770
日暮しマシンに向かい、頭に思いつく文生成プログラムを
夢中になって書き作り動作させれば、怪しうこそ もの
狂おしくなって、「馬鹿だ。こいつ馬鹿だ」とマシンを指さして
ゲラゲラ笑うプログラマこそ哀れなり。
橋田浩一さんとか松原仁さんとか筒井康隆さんとかは、
こういうの好きなんだよな。
0772Mr.Moto
垢版 |
2018/09/08(土) 07:42:41.71ID:Hj3WpMqo
これは自然言語処理というより国語学や
言語学に類する話題なのでスレチなのだが、
日本語処理の応用に関わってくるのでコメ
しておく。
たとえば「激しい雨」と「激しく降る雨」と
「豪雨」は同義だが、「降る」という述語が
出てくる場合と出てこない場合があるということを
どう解釈するか、という話がある。述語があると
ないでは、データ構造のレベルで違う、という
話になるからだ。
また「両国橋を渡る」「隅田川を渡る」「広小路から
向こう両国に渡る」は物理的な解釈としては同一
なので同義であるとみなせる(こういう立場を
外延主義という)が、「それって本当に“意味”って
謂えるのか?」という指摘が坂井寿秀先生などに
よって指摘されている。つまり、「明けの明星」も
「宵の明星」も実体(外延)としては「金星」なの
だから、「明けの明星は金星である」と「金星は明けの
明星である」と同義(単なるトートロジー)という話に
なるわけだが、そうすると「明けの明星は宵の明星
である」もまた同義ということになり、「それって
変じゃねぇか?」ってな話になる。
0773Mr.Moto
垢版 |
2018/09/08(土) 07:48:22.76ID:Hj3WpMqo
坂井先生は、「外延的な形容詞」というものが
あるのではないか、という指摘もなさっている。
「その馬は白い」「馬は哺乳動物である」から
「その哺乳動物は白い」を推論するのは妥当である。
ところが「その鼠は大きい」から「その鼠は
大きい哺乳動物である」を推論するのは妥当ではないし、
「その象は小さい」から「その象は小さい哺乳動物である」を
推論するのも妥当ではない。
したがって、「白い」と「大きい」は、別種類の形容詞と
考えざるをえない、という指摘である。
0774Mr.Moto
垢版 |
2018/09/08(土) 08:07:40.34ID:Hj3WpMqo
で、こういう基本的な部分をうっちゃったまま、
適当なコーパスをありもののライブラリで
形態素解析し、その結果を
ありものの統計処理パッケージでいじくって、
自然言語処理がどうのこうのとか
日本語処理がどうのこうのとか
偉そうに言っている自称・研究者を見ると
顔面を二三発張ってやるのも功徳では
ないだろうかと思う、と所長に言ったら、
「手が汚れるし、怪我をされても面倒だから、
尻でも蹴飛ばしてやったほうがいい」と
真顔で言われた。
0775Mr.Moto
垢版 |
2018/09/08(土) 08:48:33.23ID:Hj3WpMqo
鬱憤が溜まっているので剣呑な話になってしまった。すまんm(_ _)m

>>773 の形容詞の区分についてだが、おそらく形容詞
のみならず連体修飾詞全般にいえるのは、連体修飾詞には
「集合から部分集合を切り取る」という作用があるのでは
ないか、ということだ。すなわち、「大きい」は、いま目の前に
ある対象としての集合から、「大きいものの集合」を切り取る作用が
あるのではないか、ということだ。
鼠集合から切り取られた集合と、哺乳動物から切り取られた集合は
異なっているので、「大きい鼠は、必ずしも大きい哺乳動物だとは
謂えない」。
また、その「切り取る」操作が、「切り取られる対象」によって
規定されるということも指摘しておきたい。
「赤いミカンは赤い」し「赤いリンゴは赤い」のだが、
赤いミカンは蜜柑色だし、赤いリンゴは普通に赤い。
この場合、「未熟な⇔完熟した」という評価の軸との
関連において評価する必要がある。
0776Mr.Moto
垢版 |
2018/09/08(土) 08:57:47.30ID:Hj3WpMqo
「もの」という言葉が出たついでに言っておくと、
ここでいう「もの」は“individual”、すなわち「不可分なもの。
個人、個体、個物」を意味する。れっきとした哲学用語だ。
ただし、これは「物理的な存在」ではなく、「概念」を
指していて、しかも「具体的な意味」「内包的な意味」を
持たない。その意味で、individual は「意味を引っ掛ける釘」の
ようなもので、「こっちの釘とあっちの釘は、どこがどう違うと
言われても説明できない。ただ、引っかかっている意味が違うし、
比較によって区別できる」ものである。
同じような性質をもった存在として、Codd のデータベース理論における
データベース・キーというものがある。
0777Mr.Moto
垢版 |
2018/09/08(土) 09:11:20.12ID:Hj3WpMqo
individual の訳語としては、「もの」が使われることが
ままある。馬場あき子『鬼の研究』によれば、「鬼」
には「もの」の訓があるという。意味としては「物
狂おしい」「もののけ」の「もの」に相当する。
そんなわけで、自然言語処理の研究者の間では、「仮にこっちの
“もの”を『白うるり』とします。で、こっちの“もの”を
『ももんがぁ』とします」「その場合、二つの存在の関係と
『ひょうすべ』と『ぬらりひょん』の関係が相同であるとすると、
その意味の差を求めるためには、どの程度の計算量が見込まれるか、
という話になりますよね?」みたいな議論が真顔で行われる、
ということになる。
0778Mr.Moto
垢版 |
2018/09/08(土) 09:19:35.34ID:Hj3WpMqo
>>777
このあたりの議論は、すでにルイス・キャロルが
『論理ゲーム』(『不思議の国の論理学』に収録)の
中でおこなっている。「念を押すが、筆者は前提が
“事実”であると保証してはいない。だいいち、
筆者はドラゴンを見たことはない。(中略)われわれの
義務はただ、前提が“論理的に結論につながるかどうか”を
理解することのみであり、したがって、かりに前提が真
ならば結論もまた真だということになるだろう」。
0779デフォルトの名無しさん
垢版 |
2018/09/08(土) 15:30:36.82ID:zV65OeMj
日本語の細かい文法ルールにお詳しいみたいだけど、「そもそも日本語に文法などあるのか?」と思わざるを得ない
10〜20代の若い連中がTwitterで書き散らしてるような文章はそれ自体「新しい言語現象(文法)」であって、仮に「これが正しい日本語文法でござい」とルールベースのエンジンを作り上げたところで、どんどん出てくる新しい文法には無力だと思うわけだが。
そこについてどう考えているの? 日がな一日Twitterを監視して新しいルールを追加し続けるのか? それってあんたが >>753 で書いた「こんなんやっとれるかぁ!」的な作業と何が違うんだ?

それがわかったからこそ、個別のルールに固執することはやめて、みんな「形態素解析の結果をありものの統計処理パッケージでいじく」るようになったんでしょ。
そのほうが精度も高いし。
0780Mr.Moto
垢版 |
2018/09/08(土) 15:45:22.51ID:Hj3WpMqo
>>779
> どんどん出てくる新しい文法には無力だと思うわけだが。
日本語は、古事記・日本書紀の時代から千年以上使われており、
しかも南北に長いので、沖縄首里方言と標準語の間には、
英語とドイツ語くらいの差(だいたい千五百年くらい)の
距離がある。薩摩弁と津軽弁もそのくらいの差があり、
平安時代の文芸と、現在の東京弁もそのくらいの距離がある。

だけど、それは全部ひっくるめて「日本語」なんだよ。

で、日本語を日本語たらしめているのは、「日本語の文法」なんだ。
だから、「およそ日本語であるならば、時代だろうが地域だろうが、
全部ひっくるめて処理してやろーじゃねぇか!」っつーんで開発
されたのが JAI-Parser なんだ。
千年ちょっとの些末なバリエーションなんぞは、
スクリプトと辞書で吸収できるんだよ。ふん。
0781Mr.Moto
垢版 |
2018/09/08(土) 16:17:16.96ID:Hj3WpMqo
コンピュータ・サイエンス誌『bit』(共立出版)、
一九九二年十二月号、p.52
『汎用日本語解析系の試作 ― 形態素解析コンパイラ・コンパイラの
試作をめぐって』を読んでくれたまえ。
「よろしい、何とかしましょう。それも、個別にではなく全部まとめて
面倒をみましょう。かな漢字変換も、漢字かな交じり文の解析も、
現代文も文語も方言も、ひっくるめて処理してみせようではありませんか。」
と、大見得を切っちゃった(つーか、実装しちゃった)んで、現在の
ようなコトになっとるわけだ。
当時のシステムはフツーの C 言語で実装されていたので、
メモリリークやらワイルドポインタの都合で動作が不安定
だった(Mac の C は、文字列がハンドル表現だったので、
なんとか実アプリとして安定動作してた)のだが、
二十一世紀に入ってから(山之内製薬と藤沢薬品工業が
合併して、アステラス製薬になるちょっと前ごろ) Java に
移植したらサーバ上で安定動作するところまで持ってゆけた。
0782Maria
垢版 |
2018/09/08(土) 16:29:21.50ID:Hj3WpMqo
なお、日本語の文法には、三回ほど大激震が走って
いるのが確認されています。
一回めは、上代特殊仮名遣が用いられなくなって、
母音の数が減っちゃったこと。
二回めは、動詞の末尾音として使われていた h 音が
消失して、新たに a・o・u 音が採用されたために、
動詞の活用と指標音の対応が崩れちゃったこと。
三回めは、動詞・形容詞の終止形が廃れてしまって、
「連体形の終止用法」が定着しちゃったこと。
一回めの変化は、大野 晋先生のお師匠さんである
橋本進吉先生によって発見されました。
で、JAI-Parser を使って二回めと三回めの変化を発見・
検証したのは、うちらだょ〜ん。
0783Mb
垢版 |
2018/09/08(土) 16:38:04.08ID:Hj3WpMqo
>>779
今カラデモ遲クナイカラ原隊ヘ歸レ
オ前達ノ父母兄弟ハ國賊トナルノデ皆泣イテオルゾ
0784デフォルトの名無しさん
垢版 |
2018/09/08(土) 18:39:54.70ID:RrQSE86D
八重山
0785Mb
垢版 |
2018/09/08(土) 20:02:57.01ID:Hj3WpMqo
>>484
> 八重山
そっちは 5.15
こっちは 2.26
0787763
垢版 |
2018/09/09(日) 06:27:48.80ID:O317ycPa
>>769
御説拝聴したので私の所見も述べるよ

>「文がどのように繋げられているか」が「文脈」になる
自然言語(日本語)の「文脈」には
引用のように言語処理の文脈で使われる
「文の組み合わせ」の意味のほかに
「文章外の情報」がある

>構文解析処理がと文脈解析処理がこんがらかって、ややこしい話になる
ただ本当は、この文章外の情報も取り込んだ上で
解析する必要があるのだと私は思う
人間は自然にそうしてるから

しかしソレをやり出すと人間の常識には際限がないので
フレーム問題のようなものに突き当たって
頓挫してしまったのが昔のAIブーム(の挫折)だと捉えている

そしてそれを打開するには新しい流行の機械学習と結びつけて
自動的に人間の知識を学習させて
人間が自然に持っている常識を身につけさせる必要があると私は考える
0788763
垢版 |
2018/09/09(日) 06:36:07.29ID:O317ycPa
>>770
>文を生成してゆくと、一応の文生成はできる
>適宜織り交ぜると、より「それっぽい」文章が生成できる

文章解析の意味解析と文脈解析の難しさは
文章生成にも必ず出てくるはず

文法通りに生成するだけで
意味は「それっぽい」だけの文章というのに
私はすごく不満を抱いている

>>771
つまるところ現在の大半の文生成とは
意味が分からないままランダムに言葉を組み合わせる
人工無能のレベルにあって
それを人間があえて意味を解釈する面白さはあるにせよ
やはり人工知能としてはもの足りない

人工知能としての自然言語処理を目指すのであれば
まず表現すべき意味や文脈もしくは意図を持っていて
それに沿った表現を組み立てていくべきだと私は考える

しかし意味や文脈にはさっきと同じフレーム問題のような
袋小路が待ち受けているのでやはり機械学習の
ブレイクスルーなど何か画期的な解決の糸口は必要だろう
0789デフォルトの名無しさん
垢版 |
2018/09/09(日) 06:53:27.52ID:SSGV4TJO
構文解析をやっていると、「やっぱり文法や形態素解析の知識は
必要だな」と思う。
「なぜ」が連用修飾詞であるとか、「ません」が連体修飾詞で
あるとかいった視点がないと、構文解析の結果が交差してしまって、
支離滅裂になる。
0790Mr.Moto
垢版 |
2018/09/09(日) 07:21:35.69ID:SSGV4TJO
>>787
すまん (^_^!) そういう意味での「文脈」に
ついては、その処理に至る以前に
超えなきゃいけない壁があって前に進めない。
言語はそもそも時系列の発話なり表記なりが
ベースになっているので、「通信」としての
性格がある。したがって、「速度」と「信頼性」の
両方に配慮する必要がある。
大野晋先生が『日本語の文法を考える』で述べて
いらっしゃるように「未知のことだけを伝えれば足りる」
ので、そこに「省略」が生まれる。ただ、その前提として
「相手にとって何が既知で、何が未知か」ということを
「理解」していなくてはいけない。そのため「省略」と
「理解」は不可分なので、扱いが難しい。
0791Mr.Moto
垢版 |
2018/09/09(日) 07:31:45.01ID:SSGV4TJO
それに対して、「精度」を上げることはそれほど難しくなく、
語彙的な対応によって対処できる。
看護師が「清拭(せいしょく)」を「せいしき」と言うのは
生理的食塩水(生食:ナマショクではなくセイショク)と
間違えないためだ、という。
また、早稲田大学の竹本先生は能の作者推定に取り組んで
いらっしゃったが、「枕詞」の選び方に作者の個性が
出るとおっしゃっていた。「あしびきの」⇒「長い」、
「たらちねの」⇒「母」のように、「前振りをすることで、
意味を取りちがえないようにする」というのが枕詞の
機能だ。
ただ、「速度」と「精度」の間にはトレードオフの
関係があるので、そこにも困難がある。
0792Mr.Moto
垢版 |
2018/09/09(日) 07:48:52.92ID:SSGV4TJO
これとは別に、「制禦」「意図」という
視点がある。なぜシステム間で通信が
行なわれるのかというと、話者システムが
聞き手システムを、情報を伝えることで
制禦したいという意図があるからだ。
その制禦のための通信プロトコルが
文法だということになる。
この意図のありかたも、「学ぶ」
「命令する」「交渉する」といろいろ
あるので、それをどう扱うか、という
課題もある。
0793Mr.Moto
垢版 |
2018/09/09(日) 08:06:26.35ID:SSGV4TJO
そんなわけで、
>>788
> 意味や文脈にはさっきと同じフレーム問題のような
> 袋小路が待ち受けているのでやはり機械学習の
> ブレイクスルーなど何か画期的な解決の糸口は必要だろう
に関しては、意味表現が整備されてから、意味データベースを
構築する際には重要になると思う。
ただ、それ以前に「人間のモデル化」が壁として立ちふさがって
いると考えている。
当面の目標は、「漫才ができるシステム」だな。

『アンドロイドは電子漫才のオチで笑えるか?』
0794Maria
垢版 |
2018/09/09(日) 08:14:33.32ID:SSGV4TJO
>>789 でも述べられていますが、
形態素解析から構文解析に至る過程で、
「語順と省略」に関する問題があります。
ただ、この点に関して、自然言語処理
(日本語処理)の研究者は、ほとんど注意を
払っていません。たとえば、
「象は鼻が長い」は、「象は長い鼻の動物だ」と
同義である、とわれわれは考えていますが、「鼻」
強調された結果として語順が変わり、「動物だ」が
省略され、「象は動物の一種である」という「常識」が
要求されています。
にもかかわらず、形態素レベルの「象は」「鼻が」「長い」に
関してしか議論されていないのが、自然言語処理の停滞の
大きな原因だとわれわれは考えています。
0795Mr.Moto
垢版 |
2018/09/09(日) 08:35:14.42ID:SSGV4TJO
>>793
「ゾウムシの鼻が長いのに、コクゾウムシの鼻が
長くないのはなぜか?」
「ゾウムシは『象虫』ですが、コクゾウムシは
『穀蔵虫』だからです」
「なるほど」
「なお、ゾウムシは『ゾウのように鼻が長い』のではなく、
『長い口吻が象の鼻のようだ』から、ゾウムシと呼ばれます。
熱帯魚のエレファントノーズも同様です」
「ありがとう。」
これくらいのシステムであれば、現在の技術で充分に
可能だと思うんだが。
ついでながら、文語文は記述精度が高いので、いわゆる
標準語よりも生成が楽だ。その意味では、コンピュータとの
インタフェースには、「けいはんな方言」(京都弁でも
大阪弁でも奈良弁でもない、中途半端なエセ関西弁)が
向いていそうに思う。
0796Maria
垢版 |
2018/09/09(日) 10:49:17.38ID:SSGV4TJO
たとえばの話、「義務教育」というのは、
「子供が教育を受けなければならない」という
“子供に対しての”義務ではなくて、保護者が「(子供を単純労働者として
搾取するのではなく)子供に(国政を預かる選挙民と
しての)教育を施さなければならない」という
”保護者に対しての”義務であり、それはすでに「大日本帝国憲法」において
普通選挙制の採用という形で明記されているんですが、
そこいらの話は、自然言語処理の「自称・研究者」は
あらかたスルーしてます。

それでも国から予算もらって研究できるんだから、
いい暮らししてらっしゃいますね(笑)
0797デフォルトの名無しさん
垢版 |
2018/09/09(日) 11:00:00.30ID:SSGV4TJO
ところで
0798Mb
垢版 |
2018/09/09(日) 11:02:04.96ID:SSGV4TJO
ところで >>507 以前の連中は何をしているんだ。
まともに喧嘩売ってこい。
0799Mb
垢版 |
2018/09/09(日) 11:03:07.70ID:SSGV4TJO
>>797 は誤爆だ。すまぬ。
0800Mb
垢版 |
2018/09/09(日) 11:15:47.85ID:SSGV4TJO
>>779
> 「そもそも日本語に文法などあるのか?」と思わざるを得ない
とか言ってる奴がまだ生存してるんだなぁ ……
「日本語は非・論理的だ」みたいなことを言ってるやつも
いたし、「日本語を廃止してフランス語を国語として採用しよう」
とか、「かな文字の使用をやめてローマ字表記にしよう」とか、
昔はいろいろあったらしい。漢字も、連合軍が「廃止したいけど、
いきなり廃止しちゃうと不便だろうから、とりあえず、
しばらくの間は使っていいよ」というので「当用漢字」と
いうのが生まれたわけだし。
ここは自然言語処理に関するスレで、いちおう日本語処理が
このところの話題になっている(せいぜい七月の上旬からだ)
のだから、素直に「このあたりに疑義がある。答えろ」くらいの
ことは言っていいと思うんだが、どうだろう。
0801デフォルトの名無しさん
垢版 |
2018/09/09(日) 15:11:46.35ID:SSGV4TJO
そういえば、
助詞「が」の用法について、大野晋先生に
「とりたて詞の『が』と、所属の『が』」を
ごっちゃにして喧嘩売ってた奴がいたけと
思うんだけど、その後どうなったんだろうかな?
つーか、誰だっけ? 誰か知ってるヒトいる?
「鼻が長い」の「が」と、「我が家」の「が」は、
同表記だけど意味が違う、というのを納得できなくて
大野晋先生に延々絡んでたヒトがいたと思うんだが、
だれか名前を憶えていないか?
0803デフォルトの名無しさん
垢版 |
2018/09/09(日) 16:39:12.45ID:SSGV4TJO
>>802
おれは そんな安い真似はしない。
名詞の結合の「と」と文の順接の「と」を
ごっちゃにしたりはしない。

たしか『文藝春秋』みたいな厚い月刊誌で
やってたように思うんだが、ネット検索では
引っかからないんだよ。
0804デフォルトの名無しさん
垢版 |
2018/09/09(日) 21:49:22.25ID:v6sgqCEe
『その日は朝から夜だった!』(嘉門達夫)

○その日は朝から夜まで仕事だった
✕その日は朝から夜だった
0805デフォルトの名無しさん
垢版 |
2018/09/09(日) 21:53:40.10ID:v6sgqCEe
【新聞配達店で面接したこと】
店長『では明日、朝の三時からということで。』
俺『朝の三時ってまだ深夜では?』
店長『あなた帰っていいです!』
0806デフォルトの名無しさん
垢版 |
2018/09/10(月) 05:14:44.10ID:YCqssu0J
>>805
むしろ
> あなた帰っていいです
の解析のほうが意味的には難しそうに思う。
〇 さっさと帰れ
× あなたは帰ることを許可されています
0807デフォルトの名無しさん
垢版 |
2018/09/10(月) 05:43:52.77ID:YCqssu0J
あとは「ありえない」「できない」も、
発話者の意図によって意味が違ってくるうえに、
しばしば責任問題みたいな社会的行動に
かかわってくるので、「どういう意図で言って
いるのか」を明確にしてほしいと思うが、
「そこを明確にしちゃうと不都合なことになる」と
いう話者の意図が反映されていたりするから
始末におえない。
0808デフォルトの名無しさん
垢版 |
2018/09/10(月) 06:04:08.54ID:YCqssu0J
いわゆる「うなぎ文」も、「誰に向かって
言っているのか」が、解釈に影響する。
客が二人連れの場合、
「僕は、うなぎだ」は
客⇒客:「僕(の注文)は、うなぎだ」
客⇒店員:上記の意味以外に、「僕は
うなぎ(を註文する客)だ」
という解釈がありうる。
この場合の「文脈」としては、
「どちらの客に、注文の決定権があるのか?」
「どちらが支払をするか?」がある。
0809デフォルトの名無しさん
垢版 |
2018/09/10(月) 06:11:28.55ID:YCqssu0J
上司「僕は玉子丼だ」部下「僕はうなぎで」
とか、寿司屋で
上司「僕は玉子で」部下「トロをお願いします」
とかいうのは、「正しい解釈」というのが難しい。
上司「おまえ、空気読めよ」
部下「いや、玉子がお好きなんだなぁ、と」
上司「普通はせいぜい同じ値段のものを頼むんだよ!」
部下「僕、玉子アレルギーなんです」
みたいなのをコンピュータは理解できるか、
という課題はあろうと思う。
0810デフォルトの名無しさん
垢版 |
2018/09/10(月) 07:43:50.83ID:YCqssu0J
>>804
「AとB」は「AとBと」と同義。
「AからB」が「AからBまで」を意味する
こともあるが、「右から左」は、また別の
解釈があり、「後ろから前から」は
「後ろから前」とは略さない。
形態素解析は、省略のパターンまで含めて
行なう必要がある。
0811デフォルトの名無しさん
垢版 |
2018/09/10(月) 11:10:01.71ID:wQh8RVrU
たしかに
上島、押すなよ
は有名
0812デフォルトの名無しさん
垢版 |
2018/09/10(月) 11:58:12.07ID:YCqssu0J
>>811
「後ろから前から」が「後ろから前」と
略されないのは、「後ろからも前からも」の
省略だと考える(というか、形態素解析の
候補として上位ルーチンに上げる)と、
構文解析が行ないやすいと思う。
0813Mr.Moto
垢版 |
2018/09/10(月) 12:25:00.10ID:YCqssu0J
文生成に関していうと、
応答をどうするかという意味論にも
無視できない部分がある。
「××していいですか?」
に対しては、
「どうぞ。」
「いちいち訊かんでよろしい」
「やってみなはれ」
「やめといた方がいいとは思うが、あえて止めようとも
思わない」
「やめとけ。」
「ふざけるな! おまえは何を考えてるんだ!」
等々、いろいろな応答があると思うんだが、
それが どのような判断や意図に基づいているか
ということには、議論の余地がある。
0814デフォルトの名無しさん
垢版 |
2018/09/10(月) 14:38:07.23ID:0Z7boaOr
>>800
そういう意味で言ってるんじゃないことくらいアンタにもわかってるだろうに。
「正しい日本語文法」というものを頑張って発見したとしても、それは演繹的ではありえないということ。
生きてる人間によってどんどん新しい日本語文法が作られていくのだから、それを観察して後追いでルールを追加・修正・削除していくしかないんだよ。

> スクリプトと辞書で吸収できるんだよ。ふん。
スクリプトと辞書を延々と手作業で修正し続けなければならないことは否定しないんだな。しかも、そのスクリプトやらは、ルールベースのエキスパートシステムみたいに、
ルールの追加に専門知識が必要で、以前のルールとバッティングし、いずれ破綻するわけだろう。

だから反論として聞きたいのは、統計的自然言語処理と比べて何が勝っているのか、ルールを追加修正し続けるコストは許容できるレベルなのか、
後段の高レベルな自然言語処理タスク(意味理解など)に応用した際にどう性能が変わってくるのか、ということだよ。
0815Mb
垢版 |
2018/09/10(月) 15:03:13.98ID:YCqssu0J
>>814
> そういう意味で言ってるんじゃないことくらい
> アンタにもわかってるだろうに。
もちろん分かっているとも(笑)
うちらがやっているのは「記述文法」であって、
「規範文法」に対してどうのこうの、とか文句を
つける気はまったくないんだが、現在の中学校の
国語教育で教えられている、いわゆる「学校文法」
っつーのに異義を申し立てているだけだ。

ただし、「規範文法」としては、文語文法はよくできている
(なにせ、千年以上、日本語のスタンダードとして
機能していたのだからね)と思うので、「文語&舊字體」
を貫くというのは、少なくとも方向性としては
間違っていないと思っている。
0816Maria
垢版 |
2018/09/10(月) 15:10:27.98ID:YCqssu0J
>>814
> 生きてる人間によってどんどん新しい日本語文法が作られていくのだから、
> それを観察して後追いでルールを追加・修正・削除していくしかないんだよ。
だって、それ言ったら方言とかはスクリプトとして吸収できないはずじゃん。
原則が変わってないから、些末な部分(語彙とかスクリプトとか)で
吸収できちゃうから言ってるわけで、だからこそ沖縄の各島方言や、
伊豆諸島の各島方言とかを、ちゃんと保存しとこうと思ってるのよね、
うちらは(そのあたりの系統関係とか、遷移関係とかには、興味を
持っています)。
0817Maria
垢版 |
2018/09/10(月) 15:14:18.78ID:YCqssu0J
> だから反論として聞きたいのは、統計的自然言語処理と比べて
> 何が勝っているのか、ルールを追加修正し続けるコストは
> 許容できるレベルなのか、
えー? やってみると簡単だよ?
むしろ、統計的自然言語処理のほうが、よっぽど
大変なんじゃない?
どこの大学の、どこの研究室か言ってくださったら、
こっちから行っちゃうけど。
0818Mb
垢版 |
2018/09/10(月) 15:17:29.09ID:YCqssu0J
> 後段の高レベルな自然言語処理タスク(意味理解など)に応用した際に
> どう性能が変わってくるのか、ということだよ。
そんなこと言ったって、「高レベルな自然言語処理タスク(意味理解など)」
が実装されてないじゃん。「どう性能が変わってくるのか」とか言われたって、
「誰が評価するんだ (wwwww」ってな話にならんか?
0819Mr.Moto
垢版 |
2018/09/10(月) 15:25:02.82ID:YCqssu0J
ちょっとスレの趣旨とは外れてコメしとくけど、
うちのマリ坊(Maria)は、自然言語処理業界では
「Maria 様」と崇め奉られていたので(とは言いつつ
かなりゲスな奴だが)、「こんな初歩的な質問をしても
いいのだろうか?」とかいった気苦労は、するだけ
無駄だ。
疑問があったら全部ぶつけろ。それで納得するかどうかは、
その後の話だ。
0820デフォルトの名無しさん
垢版 |
2018/09/10(月) 16:02:42.45ID:0Z7boaOr
> 「どう性能が変わってくるのか」とか言われたって、「誰が評価するんだ (wwwww」ってな話にならんか?
既存のベンチマークに適用してペーパー書いて言語処理学会なり人工知能学会なりの研究会で発表すればいい。
0821Maria
垢版 |
2018/09/10(月) 16:30:37.14ID:YCqssu0J
>>820
> 既存のベンチマーク
そもそも、形態素解析における「標準的な解析結果」と
いうものが現状のところ存在していなくて、
「標準的な構文解析システム」というものが存在していなくて、
「じゃあ、何をもって正解とするの?」っていう判断基準が
なくって、それで「ペーパー書いて言語処理学会なり人工知能学会なりの
研究会で発表」しろって言われてもねぇ。

高橋秀俊先生は、電気通信学会から独立して、情報処理学会を
立ち上げたんですが、当時「裏切者」と呼ばれたそうです。
その後、「学会に出てくる奴が、背広ネクタイばっかりになってる」
というので、日本ソフトウェア科学会を立ち上げて、やっぱり
「裏切者」と呼ばれたそうです。
で、その後、認知心理学会が立ち上がったんですが ……
「既存の学会とか、既存の理論とか、既存のベンチマークとかがダメだ」
っていう話をしているときに、そういう話を持ってきますか。

「おまえは、ひとこと余計だ」と、所長に叱られたので、
本日はこれまで。
0822デフォルトの名無しさん
垢版 |
2018/09/10(月) 20:18:10.94ID:0Z7boaOr
>>821
違う違う。形態素解析の「標準的な解析結果」なんか誰も求めてないの。
形態素解析は目的じゃなくて手段なんだから、後段の応用的な自然言語処理のタスクの性能にどれくらい寄与するかを示せって言ってるの。

https://github.com/google/sentencepiece/blob/master/doc/experiments.md
例えば上のページでは、各種トークナイザ及び形態素解析器を使って応用的なタスクのベンチマークをやってその性能を示しているわけだけど、
そこにあなたのシステムを導入したときに、他のトークナイザより性能が高かったらみんな認めるでしょってこと。
0823デフォルトの名無しさん
垢版 |
2018/09/11(火) 05:02:43.14ID:XLdqU0cd
英文を読み解く以前に知るべき現代社会の常識
https://bookmeter.com/books/1235800

文法的には、反対の賛成=賛成の反対。しかしながらそういう言い方は『常識的には』されない。
0824デフォルトの名無しさん
垢版 |
2018/09/11(火) 05:44:15.24ID:XLdqU0cd
ところで人工知能にわれわれ人間世界の『常識』『風習』を教え込むことは可能ですか?

まず、『エマ』については、絵作りの場合、資料本のほか、ドラマの『シャーロック・ホームズの
冒険など時代考証のしっかりした映像資料を見て、イギリス人的な考え方、イギリス人にとって
のツボを理解していくそうです。絵作り以外では、
本や文字資料から知識を入れた後、画像資料のビジュアルに当てはめていくとのこと。
次に『乙嫁語り』。絵に関しては、当時の写真やドキュメンタリー番組などを参考にしているそうです。
あと、中央アジア関係の学会や中近東文化センター、民族学博物館(吹田市の「みんぱく」?)などの研究所
にある図書室で棚を調べまくり、いい本があればタイトルを控え、オンライン書店から注文。
https://ameblo.jp/karasu-otoko-shokai/entry-11210732430.html

自然言語というのは人々の日常生活に密接に関連しており、その背景知識が無いと解読しにくいはずだ。
例えば『かわいがる』というのも、保育園と相撲部屋では全く違う意味に使われるはずだ。
0825Maria
垢版 |
2018/09/11(火) 08:40:31.85ID:E7Dai500
>>824
> ところで人工知能にわれわれ人間世界の『常識』『風習』を
> 教え込むことは可能ですか?
「まず音声入出力機能を備えたロボットを作るところから
始めないと無理なんじゃない?」というのが、いまのところの
予想です。で、そのためには、筋肉に相当するアクチュエータから
開発してかないとダメだと思っています。
> 例えば『かわいがる』というのも、
> 哺育園と相撲部屋では全く違う意味に使われるはずだ。
じつは「〜がる」というのは「表出」を意味するので、
「かわいい」というメッセージを行動で表現するという
点では「かわいがる」には一般的な意味があります。
これは、「形容詞には、暗黙の主語としての話者が
存在する」ということで、「彼は悲しい」とは
言わず、「彼は悲しんでいる」「悲しそうだ」になり、
「彼は寂しい」ではなく「彼は寂しがっている」
「寂しそうだ」になります。
その先のニュアンスの部分で、運用論的な話が
出てくるんじゃないかな。
0826Maria
垢版 |
2018/09/11(火) 09:00:32.51ID:E7Dai500
>>822
> 形態素解析は目的じゃなくて手段なんだから、
> 後段の応用的な自然言語処理のタスクの性能に
> どれくらい寄与するかを示せって言ってるの。
> そこにあなたのシステムを導入したときに、
> 他のトークナイザより性能が高かったら
> みんな認めるでしょってこと。
他のトーカナイザは出力がシリアルでしょ?
こちらは「かな漢字変換における、候補選択前の、
構造を持ったデータ」が出力なんですよ。
ですから、「入れない」がイレナイなのか
ハイレナイなのかは、「使うほうが選んでね。
選択に重みづけをしたいんだったら、必要なデータは
乗っけてあげるから」という形なんです。
で、JAI-Perser はチャート法を使っているので、
候補探索自体の実行順序も決まっていなくて、
「探索戦略の部分も、そっちの都合に合わせますけど、
どうします?」っていう話があるわけです。
現在のプロダクション・ルールの適用順位はかなり
こなれているので、「最長一致で深さ優先探索で
最初に文末まで解析が成功したものを出力する」で
よければ、とりあえず土俵には上がれると思います。
0827Maria
垢版 |
2018/09/11(火) 09:09:50.12ID:E7Dai500
>>823
「危ないですから」は、連体形「危ない」の直後に
用言「です」が来ているので、厳密にいうと、文法的には
正しくありません。
とはいえ、文法的に正しい「危ないのですから」
「危のうございますから」は、常識的には使いません。
そんなわけで、「危ないですから」⇒「危ないので」
「危険ですから」「危険ですので」と言い換えるのが
望ましいんですが …… それってコンピュータに
指摘されても嬉しくないと思うんだけどなぁ。
あたしらは日本語処理をやってるので
「そうか、なるほど」と思うだけですけど。
0828Maria
垢版 |
2018/09/11(火) 09:13:40.94ID:E7Dai500
>>824
森薫さんは『乙嫁語り』しか読んだことないんですよ。
『エマ』は まんが喫茶で探してみます。
0829Maria
垢版 |
2018/09/11(火) 09:27:51.46ID:E7Dai500
あ、そうそう。 >>826 のチャート法うんぬんの話ですけど、
>>814
> ルールの追加に専門知識が必要で、以前のルールと
> バッティングし、いずれ破綻するわけだろう。
に関していうと、候補として出てくるだけで、バッティングは
しません。探索順序に関しても、疑似マルチで動かしていれば
順序が変わるでしょうが、クラウドで実行したら、それすら
関係のない話になります。
「専門知識が必要」というのは、「記述文法の知識」以上の
ものは必要ありません。もっとも、記述文法をマジメにやっている
ヒトは、日本国内にも十人いるかどうか(笑)
そういう意味では、「実用化される前に、まず専門家を育成しよう」
という話にはなるわけですが。
0831Mb
垢版 |
2018/09/11(火) 09:49:53.59ID:E7Dai500
>>830
あんたが中身のある投稿をしてくれたら、
連投にならずに済むんだがな。
投稿できるようなネタがないなら
黙っといたほうが不興を買わずにすむぞ。
0832デフォルトの名無しさん
垢版 |
2018/09/11(火) 12:37:12.53ID:nzfI9if7
ゴミネタ連投されても迷惑
0833デフォルトの名無しさん
垢版 |
2018/09/11(火) 14:25:30.42ID:pwo3DQbp
埋めるのが目的だろうから
運営に通報でもしない限りは
このまま続くだろうね
0834デフォルトの名無しさん
垢版 |
2018/09/11(火) 14:39:10.31ID:W6mUR8R6
そもそも >>1
「言語学の話題などは他のスレッドでお願いします。」ってあるんだけどな。
0835Maria
垢版 |
2018/09/11(火) 15:20:55.45ID:E7Dai500
>>834
そもそもチャート法というのは、
構文解析の手法として用いられていた
ものであって、それが形態素解析に
対しても威力を発する、という話なのよ。
で、「形態素解析レベルの文法は、
スクリプトとして外に出せる」っていう話を
しているわけ。
そのときに、「省略」の話が出てくるんで、
「そのあたりの問題は、スクリプトの記述によって
かなりの部分、回避できる」っていう話をして
いるんですけど、何か問題でも?

黙って引っ込んでると、叩かれるよぉ?
なんか言い返しなよね。
0836Maria
垢版 |
2018/09/11(火) 15:24:58.85ID:E7Dai500
>>832
「豚の前に、真珠を投げてはなりません。
それを足で踏みにじり、向き直ってあなたがたを
引き裂くでしょうから。」
0837Maria
垢版 |
2018/09/11(火) 15:26:04.44ID:E7Dai500
>>833
> 運営に通報でもしない限りは
通報すればいいんじゃない?
0838Mr.Moto
垢版 |
2018/09/11(火) 15:35:18.33ID:E7Dai500
ROM ってる真面目な自然言語処理の研究者に告ぐ。
ザコネタでいいから絡んどけ。
なんかしら研究の種にはなるぞ?
0839デフォルトの名無しさん
垢版 |
2018/09/11(火) 15:52:16.29ID:W6mUR8R6
>>835
806-809みたいにウダウダと解釈を垂れたりとりたて詞がどうのこうの書いてるのをスレチと言ってるの。
0840Maria
垢版 |
2018/09/11(火) 15:57:15.72ID:E7Dai500
>>809
格の一意性が成立するという前提を置かないと、
データ構造も決まらないし、
構文解析のロジックも決定できないって言ってるの。

ちょっとは自然言語処理システムを触ってからいらっしゃい。
0841デフォルトの名無しさん
垢版 |
2018/09/11(火) 16:03:53.59ID:3CpNQap1
> 格の一意性が成立するという前提を置かないと
アンタ、現代の自然言語処理から完全に取り残されてるよ
0842Mb
垢版 |
2018/09/11(火) 17:10:15.07ID:E7Dai500
>>841
小松左京さんの『日本沈没』で、
「『造山活動東進説』とか言ってると、
冷飯を食わされるぞ」という話があったが、
「CG(汎文法)とか言ってると、冷飯を
食わされるぞ」とかいう話がマジである。

「現代の自然言語処理」って、どこにあるんだ?

「国が、どこに予算を出しているのか」っていう
話は、また別な話だぞ?

貴様、誰だ。所属と姓名を名宣(なの)れ。

「たれか」って誰何を三回したら、射殺しても
(「しゃさつしても」だ。「いころしても」ではない)
軍法上認められるんだぞ?
0843Maria
垢版 |
2018/09/11(火) 17:34:34.73ID:E7Dai500
「そこで、自然言語処理システムを実際に扱って学んだ者は皆、
素直な心を持って吉原の高級ソープに、童貞を捨てにいった
賢い人に似ている。
本番行為を行わなくても、
知識と自信と満足とを持ち帰ったからである。
自然言語処理システムの理論を聞くだけで実際に操作した
ことのない者は皆、安い風俗に童貞を捨てにいった愚かな人に似ている。
本番前に勃起せず、手で擦っても立たず、本番行為に至らなかったからである。
イエスがこれらの言葉を語り終えられると、
群衆はその教えに非常に驚いた。マルクス主義フェミニストの
ようにではなく、風俗の現場の人間として
お教えになったからである。

日本語処理システムに、実際に触ってから
出直してらっしゃいね?
0844デフォルトの名無しさん
垢版 |
2018/09/11(火) 20:25:40.66ID:uQlqoJNZ
>>843
そういう狂った言い回しをしているから、誰も相手にしたくない
昔はそれなりに研究をやっていたようだが、いまはただの老害
0845Mr.Moto
垢版 |
2018/09/11(火) 20:48:57.08ID:E7Dai500
>>844
> 昔はそれなりに研究をやっていたようだが
研究なんかしてねぇんだよ。
開発と実装をしてるうちに、
後から従いてきた知識でしかねぇんだよ。
だから、「実際に やってみろ」って言ってんだよ。

で、開発の現場に戻ってくるぞ、って言ってんだよ。

おまいら自然言語処理をやってる奴は、これから
ケツ叩かれて全力疾走させられるぞ?って
警告してんだよ。

マジレスできねぇ奴は、この先相手にされねぇぞ?
0846デフォルトの名無しさん
垢版 |
2018/09/11(火) 20:53:19.25ID:uQlqoJNZ
>>845
ああ、だから馬鹿な発言連発してるんだな
言っとくけど、このスレを覗いているのはプログラミングできる人がほとんどだと思うよ?
0847Maria
垢版 |
2018/09/11(火) 21:30:00.69ID:E7Dai500
>>846
まぁ、誰に言ってんのかわかんないけど、
システムも組めない(つーか、業務に堪えられる
コードも書けない)奴が「自然言語処理」とか
言ってる時点で「ちゃんちゃらおかしい」と
思うのよねー。

Java プログラムのコーディングで勝負したかったら、
プログラム技術板のそれなりのスレッド(「Java の宿題
ここで答えます」とかね)で、ガチで勝負して下さっても
結構ですのよ?
0848デフォルトの名無しさん
垢版 |
2018/09/11(火) 21:55:28.59ID:Pzm7b9dm
外野から失礼します。
共起についてどう思われますか?
無いと自然言語処理の応用ができない気がして質問してみました。
大雑把に、共起は自然言語処理にどう関わりそうか、それとも要らないか程度でも話題になればと思います。
0849Maria
垢版 |
2018/09/11(火) 22:48:51.67ID:E7Dai500
>>848
「共起」という概念で括れるかどうかは分かりませんが、
日本語においては、「係り結び」というものが、古くから存在します。
「係る」「受ける」の対応において、範囲を示すという意味では、
括弧に相当する役割があり、構文解析においては
効率化に結びつくという点で、通信という意味では、
合理的なのではないでしょうか。
「こそ」が来たら「〜め」が来るのを待つとか、
「ぞ」が来たら「なむ」が来るのを待つとかいった、
制禦の上での合理性があると思います。
0850デフォルトの名無しさん
垢版 |
2018/09/12(水) 08:28:10.94ID:pUOFOCFc
>>848
>共起は自然言語処理にどう関わりそうか

共起1(反対)縦と横、黒と白、光と闇
共起2(属性)青赤黄緑、1234、ABCD
共起3(時代)信長と安土城、零戦と原爆、キン肉マンとファミコン
共起4(公式)解と係数、質量と体積、サインとコサイン

他にどんな『共起関係』を思いつけるだろうか?
0851デフォルトの名無しさん
垢版 |
2018/09/12(水) 08:44:46.22ID:pUOFOCFc
>共起3(時代)信長と安土城、零戦と原爆、キン肉マンとファミコン

『時代』については曖昧なところもある(原爆投下された頃は零戦なんて時代遅れ)ので、
信号機のような『赤』(正)『青』(否)『黄色』(曖昧)を。
0852デフォルトの名無しさん
垢版 |
2018/09/12(水) 09:06:15.80ID:pUOFOCFc
>>504
>冒険者の広場では提案広場・あしあと伝言板にて言論規制がしかれている。

・思いつく予防策
1.利用しない、なにも書かない
予防策と言っていいのかわかりませんが、私は冒険者の広場は極力利用しないようにしています
自分にそのつもりがなくても、相手の解釈次第で悪意のある文章だと思われてしまうことがありうるからです。

【訂正後】提案広場、落ち着いて!広場BANに要注意!
http://pan1946.blog.jp/archives/2426203.html
0853Maria
垢版 |
2018/09/12(水) 10:06:19.28ID:H3XsJJBV
>>851
そういう意味での共起関係は、必ずしも一次元ではなく、
もうちょっと複雑な関係になっているようです。
赤・青・白・黒は、それ自体が形容詞の語幹になります
(「赤い」「青い」「白い」「黒い」)。
また、「赤(明るい)⇔黒(蒙(くら))」
「白(明白。はっきりした)⇔青(=淡い)」
「赤(熟した。本来の性質が表に現れている)
⇔青(未熟な。本来の性質が表に現れていない)」
のような例があります。
0854Mb
垢版 |
2018/09/12(水) 10:11:39.83ID:H3XsJJBV
>>852
「おまえ、アホちゃうか?」は笑って済ませられるけど、
「あなたは、ちえおくれではありませんか?」だと
血の雨が降りかねん (-_-!)
関西人に「アホ」はいいけど「バカ」は禁忌、みたいな
地方性もある。
そうなると、「あほらしい」はOKだが「馬鹿馬鹿しい」
だと「誰が馬鹿だ!」と喧嘩になりかねん。
0855Maria
垢版 |
2018/09/12(水) 10:20:37.36ID:H3XsJJBV
>>850
分子構造)オルソ、メタ、パラ
原子数)モノ、ジ、トリ、テトラ、ペンタ、ヘキサ …

事務処理の基本はソートとマージとサーチ
ツーといえばカー、CAR といえば CDR
0856Maria
垢版 |
2018/09/12(水) 10:25:13.94ID:H3XsJJBV
ちょっと軌道修正しておくと、
・シソーラスを作る
・出現頻度の相関を求めておく
あたりが、自然言語処理における定跡、
くらいの話になると思う。
0857Mr.Moto
垢版 |
2018/09/12(水) 10:33:58.65ID:H3XsJJBV
共起5 (ライバル)ソッピース・キャメルとフォッカー三葉、
スピットファイアとメッサーシュミット、砂漠の狐とラットパトロール、
ロンメルとパットン、竜と虎
0858Maria
垢版 |
2018/09/12(水) 12:36:34.33ID:H3XsJJBV
>>857
あのさぁ、いちおう加減は考えといてくんない?
このスレにミリタリー・マニアはそんなに
いないと思うからさぁ(まぁ、航空宇宙工学科だと
デフォなんだけどさ)。
>>852 関連だけど、「犯罪者の個人名を
晒してはいけない」っていうサイトで、「今田勇子」とか
「草加二郎」とかいったネタでサイトのオーナーを
引っ掛けて笑ってた あんたの過去は、忘れてないからねっ!
0859Maria
垢版 |
2018/09/12(水) 21:24:29.80ID:H3XsJJBV
そういえば、悪口というのは辞書に載りにくく、
しかもなかなか廃れない、という問題があります。
辞書作成担当者は、そのあたりにご注意を。
「昼行燈」(役に立ってない)
「天保銭」(ちょっと足りない)
「瞬間湯沸かし機」(すぐ熱くなる)
「蛍光灯」(応答が遅い)
なとが例になります。

英語圏では、
“Mr.Moto”(小賢しい日本人)
というのがあります。
0860デフォルトの名無しさん
垢版 |
2018/09/13(木) 01:00:18.18ID:LigmLEis
>>31
>数学モデルとシミュレーションにより、実践と理論の結合が図れるのです。

龍が如く極のマップ。東京・神室町の飲食店、販売店、プレイスポット、要所の場所や地名を地図にまとめてます。
https://dswiipspwikips3.jp/yakuza-kiwami/cheats-data/map-kamurochou.html

近くのコンビニでおにぎりを買った(コンビニの中に居る)
近くのコンビニでタクシーに乗った(コンビニの外に居る)

シミュレーターを動かしてみれば一目瞭然だ。
0861デフォルトの名無しさん
垢版 |
2018/09/13(木) 01:14:54.52ID:LigmLEis
一次元(数直線)
二次元(平面座標)
三次元(空間座標)
四次元(ドラえもん)

『0』『1 』『2 』『3』は別扱いにしたいところ。指数関数や対数関数や確率統計などもそう。
0862デフォルトの名無しさん
垢版 |
2018/09/13(木) 01:25:22.72ID:LigmLEis
>>456
そういうのは人間だって一度に全文翻訳出来るわけではなく、ジグソーパズルのように、
断片的にでもとりあえずわかるところから解読していくみたいなやり方を。
0863デフォルトの名無しさん
垢版 |
2018/09/13(木) 03:09:57.93ID:x/k+qk9X
>>862
>ジグソーパズルのように、断片的にでもとりあえずわかるところから解読していく

(4)全体の構成と設計
 四番目のステップは「全体の構成と設計」です。
 犯罪捜査でいえば犯行動機と犯行プロセスの全貌を推理して答を見出すことです。
歴史捜査では「真実の復元」と名付けましたが、ジグソーパズルでいえば、いくつかのピースの組み合わ
された塊を全体枠の適切な位置に順次はめ込んでいき、全体図を完成させる作業です。
http://www.issj.net/mm/mm0508/mm0508-5-ln.html
0864デフォルトの名無しさん
垢版 |
2018/09/13(木) 03:21:14.97ID:x/k+qk9X
>>456
>各操作で、(「記号○と×のいずれかを」「表示させる操作」を「k回繰り返す」。)

この問題文の意味する『操作』とは、具体的に何をどうすることなのかを考察する人工知能が必要。
初見で理解できなくても、後の文からいろいろ類推しかつ検証していくこと。
0865787
垢版 |
2018/09/13(木) 04:41:44.40ID:8GqTf0bs
>>790-793
>超えなきゃいけない壁があって前に進めない
でもIBMのワトソンなんかは一枚壁を越えたと思う
もちろん自然言語理解にはまだ何枚も壁があるけど

>「省略」と「理解」は不可分なので、扱いが難しい
>「制禦」「意図」という視点がある
従来の研究の枠組ではたしかに難しいんだけど
ただ細かい文法をつつき回すだけじゃなくて
ワトソンなんかはある程度の質問文の
意味や意図の理解をしているように思える

そして意味や文脈を理解しないと
ワトソンのような対話システムの実現は難しい
0866787
垢版 |
2018/09/13(木) 04:54:02.32ID:8GqTf0bs
>>795
>これくらいのシステムであれば、
>現在の技術で充分に可能だと思うんだが
どうかなあ……?

もちろんその例文だけなら可能だし
辞書的な知識だけで上手く行きそうな雰囲気を醸し出してるけど

「ゾウは鼻が長いのに、キリンは首が長いのはなぜか?」
という問いに答えるには進化論について
かなり理解していないと的外れな回答をすることになる

データベースにある範囲だけで回答するなら可能だけど
対話システムは人工無能的なボロが出やすいから
もっと意味理解を進めないと現在の段階ではそれすら難しいと思う

文法をつつき回すだけではダメで
文法に回収できない意味や意図を理解することが
試されているのが今の自然言語処理のステージなんだと思う
0867787
垢版 |
2018/09/13(木) 05:03:56.38ID:8GqTf0bs
>>813
そういう応答の多様性については
人工無能は確率的に遷移するだけだけど
そういう適当な処理ではダメで
応答の前提になる意味と意図が形成されている必要がある

たとえばみんなで鍋を食べていて
「激辛唐辛子をジャンジャン入れていいか?」
と言われたら人間なら辛くなるから「嫌だ」と言う

つまり「〜していいですか?」に対して
「どうぞ」か「やめて」かは
人間は自分の都合に応じて判断をしているのであり
人工知能ならその都合を再現するのが本筋だろう
文法だけでは適切に返せない

しかしそれはつまり相手が「〜した」ことで何が起こるのかを
予測する必要がありどれだけ常識を教えれば足りるのか不明で
例のフレーム問題が起こってしまう

鍋に唐辛子を入れたら辛くなるとか洗剤を入れたら食べられないとか
人間の常識は無限にあるので承知の通り過去のAIブームは頓挫した

でも今はもうたんにフレーム問題を避けるのではなく
機械学習とかで少しは切り崩せないか
挑戦する段階に差し掛かっていると思う
0868787
垢版 |
2018/09/13(木) 05:17:28.24ID:8GqTf0bs
>>814
>ルールベースのエキスパートシステムみたいに
>ルールの追加に専門知識が必要で
>以前のルールとバッティングし、いずれ破綻するわけだろう

横レスだが承知の通りこれがかつてのAIブームの挫折の原因だね
組み合わせ爆発が起こって人力で辞書なりDBなり作ると
開発費が高くなり過ぎて実現できないと

そして今は機械学習によってその壁を部分的にでも
乗り越えられるのではないかとAIブームが再燃し
自然言語分野では統計的自然言語処理に注目が集まってる

つまり私(たち)の疑問は
連投している人は何か憤慨しているようだけど
文法をつつき回すかつてのやり方が壁に当たってるわけで
今の主流から外れてきたそのやり方の正当性なりを示さないまま
ただ細かい文法知識を披露されても心に響かないということ
0869787
垢版 |
2018/09/13(木) 05:20:21.09ID:8GqTf0bs
いろいろ書いたけど一番言いたいことを要約すると
自然言語処理はAIの冬の教訓から
「文法をつつき回すだけでは無理」だという大前提があるわけで
今の時代に自然言語処理を研究または開発する者は
それとどう向き合うかが問われている
0870Maria
垢版 |
2018/09/13(木) 06:49:13.71ID:7E5J/vlY
>>869
文法は下手につつくと祟るからねぇ(笑)
ただ、文法(規範文法じゃなくて記述文法)は
自然言語処理の基礎になるものだから、
そこをしっかりと固めておかないと、
何をやっても砂上の楼閣になっちゃうのよね。
現在の日本語処理は、軟弱地盤の上に
手抜き工事の躯体が乗ってるようなものだから、
なんかの拍子に倒壊しそうな気がする。
0871Maria
垢版 |
2018/09/13(木) 07:02:23.02ID:7E5J/vlY
中学生のころに教わった規範文法のせいで、
国文法が嫌いになっちゃうヒトは多いようですが、
あれは橋本文法が悪いんじゃなくて
「いわゆる学校文法」がお粗末だったせいなので、
文語文法から勉強して、国語学者からの学校文法批判とかを
じっくり検討してみると、現在の自然言語処理の
基礎が意外に脆弱なことが理解できると思います。

なお、組合せ論的な爆発というのは、実用レベルでは
ほとんど起きません。「入れない」がイレナイかハイレナイか、
「行った」がイッタかオコナッタか、「文書」がブンショか
モンジョか、とかいった程度です。
「書かされたがらなかった」とかでも、そんなにややこしい
ことにはなりませんよ? 「すもももももももものうち」
「うらにわにはにわにわにはにわにわとりがいる」とかも、
解析にかけてみると、意外に複雑にはなりませんし。
0872Maria
垢版 |
2018/09/13(木) 07:06:42.59ID:7E5J/vlY
そんなわけで、
「AIブームが再燃し、自然言語分野では
統計的自然言語処理に注目が集まってる」
というより、「文法から逃げ回っている研究者が
AIブームに乗じて統計的自然言語処理に逃げ込んでいる」
だけなんじゃないかなぁ。
0873デフォルトの名無しさん
垢版 |
2018/09/13(木) 07:15:05.67ID:x/k+qk9X
自然科学の基礎研究に『学力』『経済力』『肩書き』は不要。その動かぬ証拠はこうだ!

ガウク大統領は、次のように強調しているー
「1945年5月8日、我々は解放された。我々を解放したのは、ソ連の諸民族の代表者達だったが、そればかりではない。
それゆえ、我々は、感謝と尊敬の念を示さなくてはならない。戦後ドイツが、ベルリンの壁により長い間分断されたという
事実でさえも、そうした気持ちに影響を与えるべきではない。一部の観測筋は疑っているようだが、私には、
ロシアにもロシア人に対しても問題はない。」
http://jp.sputniknews.com/europe/20150502/284616.html

ドイツ人が泣いて感謝するロシアの自然科学能力は、こうして養われたものである!

我らがネステロフは、全てのギアボックスを簡単に直してしまったよ。ある時、
イギリス人の技術者がネステロフのところに来て、「あなたはどこの大学で技術を学んだのですか?」
と聞いたことがある。ネステロフのやつは「コルホーズ大学さ」なんて答えておったな。
http://www.geocities.co.jp/SilkRoad/5870/loza1.html

ソ連人民の素朴な知見>>>>>>>(越えられない壁)>>>>大学教授博士
0874デフォルトの名無しさん
垢版 |
2018/09/13(木) 07:47:07.43ID:x/k+qk9X
全ての学問は『形式』であり、それは一定の社会秩序を維持するための『方便』なのである。
全共闘やらオウムやらで無秩序に暴れるくらいなら、とりあえず勉強でもしてろ就活でもしてろという程度。

>あなたはどこの大学で技術を学んだのですか?

他人の評価だけで生きてるみたいなお偉方は、所詮マニュアル通りのことしか出来ない。
自然科学の新分野を開拓するには、決して○○博士号などという肩書きに拘るべきではない。
0875デフォルトの名無しさん
垢版 |
2018/09/13(木) 08:31:06.66ID:X8s8xxNR
>>136
>>871
イラストでも文章でも、まずバラバラに分割して(点と線と文字)、しかる後に組み合わせを検証するとか。
0876Maria
垢版 |
2018/09/13(木) 08:40:34.16ID:7E5J/vlY
>>874
大学行っても役に立つことを教えてもらえるとは
限らないんだよね。
「私の経験でも、大学の国文学科での三年間に、
ついに文法の講義はなかった」
大野晋『日本語の文法を考える』
だから、学校で文法を教えている先生が、
文法を教えられているとは限りません。
0877デフォルトの名無しさん
垢版 |
2018/09/13(木) 08:45:29.08ID:T3CvC5e1
>>867
>人間の常識は無限にあるので

『龍が如く』シリーズの神室町で、主人公に何が出来るかは無限なので、続編は未来永劫出されるだろう。
0878Maria
垢版 |
2018/09/13(木) 09:01:14.03ID:7E5J/vlY
>>875
そうそう。実際に、それだけで大雑把な形態素解析はできちゃうのよ。
まず、改行で区切れるでしょ?
次に、句読点で切れる …… はずなんだけど、「モーニング娘。」
とか「藤岡弘、」とかいった例外があるから要注意。
で、次に括弧の中身と外側を分けて、括弧の中が文なのか名詞など
のような文法上の役割を持っているかどうかを判断します。ここは
文法的な処理があるから、人間に任せないと精度が悪くなるので、
「括弧の入った文章は、機械的にやると精度が落ちるんで、
辞書作成のときくらいにしか使えない」と思ってください。
次に、長尾真先生がおっしゃっていた方法があって、
「文頭から見ていって、非漢字から漢字に替わるところで切ると、
だいたい文節で切れる」という経験則があります(なお、カタカナ
語については自分で考えてみてね)。例外は「う歯」「えん罪」
「すい星」「ら致」や、接頭語の「お」「ご」。
ここまでで、文節レベルの形態素解析は済んだようなものです。
で、文節に分けたら、形容詞句・動詞句・接続句・修飾句その他に
分けて、活用や接続規則を個別に処理してゆきます。いちばん
簡単なのが形容詞で、しかも数百個しかありません。つぎに動詞で、
これは千五百個くらいあります。名詞句は名詞の数だけあるわけ
だから、地名・姓・名まで含めると、何十万という数になりましが、
地名の「紫波(しわ)」「日出(ひじ)」なんかを下手に登録すると、
かな漢字変換に使ったときに(はい。JAI-Parser は双方向です)、
ちょっとムカッとします。
0879Maria
垢版 |
2018/09/13(木) 09:12:22.19ID:7E5J/vlY
>>877
「Zipf の法則」というものがありましてですね、
「そこそこ実用的」くらいのところで妥協すると、
以外に多くないんですよ。
とくに、ジャンルを限定すれば、現在のパーソナル
コンピュータでも、わりと簡単に処理できるくらいの
規模になっちゃうと思います。
そのあたりで業務なり生活環境なりに投入して、
そこから先の「常識」は、使いながら付け足して
ゆく、というアプローチでけっこうなんとかなるだろう、と
思ってます。
0880デフォルトの名無しさん
垢版 |
2018/09/13(木) 09:48:19.34ID:HZBiSGJZ
正規表現を言語化できるようなとこ知りませんか?

/^ab/
これを入れると、

「abで始まる」
と変換されるようなサービスって無いでしょうか?
0881Maria
垢版 |
2018/09/13(木) 11:44:59.06ID:7E5J/vlY
>>880
そのくらいだったら Java で書けば早いんじゃない?
C 言語は文字列の扱いが大雑把(つーか、システム記述用
なので、可変長データを扱おうとすると、メモリリークとか
ワイルドポインタとか、ややこしいことになります)。
そうなると LISP なんだけど、LISP の処理系って、それほど
電算業界に普及してないのと GUI をサポートしていないのも
あって、LISP 勉強しても仕事で食ってけないのよ。
その点、Java はとりあえず飯の種になるし、バージョン 1.4
以降は正規表現もサポートしてるし、動的な記憶領域管理も
ちゃんと行なってて文字列の扱いも楽(ライブラリ関数も
けっこう充実してます)なので、とりあえず自分で
プログラム書いてみたら?
0882Maria
垢版 |
2018/09/13(木) 11:55:02.11ID:7E5J/vlY
>>880
正規表現を一からコーディングする、とかいった
根性があるんでしたら、
カーニハンとプロ―ジャー著/木村 泉 訳の
『ソフトウェア作法(Software Tools)』(共立出版)
あたりから入門するのが適切かと思います。
だけど、フツーのプログラミング言語で正規表現を
処理しようと思うと、けっこう面倒臭いんですよね。
ですから、うちらは途中に仮想言語と仮想マシンをかませた、
という事情があります。
0883Maria
垢版 |
2018/09/13(木) 12:03:48.10ID:7E5J/vlY
>>880
仮想言語と仮想マシンの実装については、
『BCPL : 言語とそのコンパイラ 』(共立出版)が
参考になります。
前段階としては、『やさしいコンパイラの作り方』
(同じく共立出版。中西正和先生がお書きになっています)
あたりを読んでおけば、そんなに難しくありませんよ。
もっとも、義務教育でプログラミング教育を受けている、
いまどきの中学生・高校生・大学生のような
ディジタルネイティブ世代とは、話が噛み合わない危惧も
ございますけど。
0884Maria
垢版 |
2018/09/13(木) 12:32:14.22ID:7E5J/vlY
そうそう。最近、「丼ぶり」という表記を見ると、
イラッとします。「丼」という字は、「井戸の中に
何かを放りこんだ音が、『どんぶり』と聞こえる」と
いうのが発祥だと云われているんですよね。
語源としては、韓国語の「湯鉢(スープ用の、深い皿。
タンブリ)」だと云われています。
ですから、「丼」の訓は「どんぶり」であって、「どん」では
ありません。日本語処理の観点では、「カツ丼」「天丼」
「親子丼」「玉子丼」「鉄火丼」「湘南丼」「深川丼」
「海鮮丼」などを登録したうえで、「丼」を「どん」と入力する
例を運用レベルで吸収するのが本来のありかただと思うんですが、
「丼ぶり」が一般化しちゃうと、処理がバッティングするんですよね。

日本語処理に興味のある方にお伺いします。こういうのって、
どう思います?
0885Maria
垢版 |
2018/09/13(木) 13:35:17.50ID:7E5J/vlY
>>873
ガウク大統領って、
・妻ゲアヒルド(ハンズィ)と子供が4人居るが妻とは現在も
正式には離婚していない
・一九九〇年から「ディー・ツァイト」紙のヘルガ・ヒルシュ記者と
同棲していた。
・一九九八年からは「ニュルンベルガーツァイトゥング」の
政治記者であったダニエラ・シャットと現在まで
十年以上にわたる交際を続けている。シャットは大統領夫人として
ガウクとベルリンで生活している。
というヒトですよね?
0886Mb
垢版 |
2018/09/13(木) 13:45:47.68ID:7E5J/vlY
>>871
> なお、組合せ論的な爆発というのは、実用レベルでは
> ほとんど起きません。
>>884
> 「丼」の訓は「どんぶり」であって、「どん」では
> ありません。
「丼ぶり」→(「丼」に「どんぶり」の訓を適用する)
→「丼ぶりぶり」→再帰的に変換規則を適用して、
「丼ぶりぶり」に変換→以下、「丼ぶりぶりぶりぶりぶり
ぶりぶり ……」
スタックオーバーフローを起こしてマシンがクラッシュ(笑)
やーいやーい。
0888Maria
垢版 |
2018/09/13(木) 15:24:50.49ID:7E5J/vlY
>>887
とりあえず、「バッカス・ナウア記法」あたりから
ググッてみるとよろしいんじゃないですか?
「言語化」というと、いろいろ難しい問題があると
思います。細井勉先生の、『数とことばの迷い道』
あたりをとっかかりにするのが、ひょっとしたら
正解かもしれません。
0889Maria
垢版 |
2018/09/13(木) 15:28:13.49ID:7E5J/vlY
>>886
てめぇ憶えてろよ
月夜の晩ばかりじゃねぇんだぞ
大川に蓋はできねぇぞ?
0891Maria
垢版 |
2018/09/13(木) 17:45:20.37ID:7E5J/vlY
>>890
「止(や)む」→「止(や)める」→
(命令形)「止(や)めろ」が正。
「帰る」→(命令形)「帰れ」は正。

ふーんだ。
0892デフォルトの名無しさん
垢版 |
2018/09/13(木) 18:01:35.68ID:l9KSlvFS
関西弁だと命令形は
帰り
0893Maria
垢版 |
2018/09/13(木) 18:21:00.84ID:7E5J/vlY
>>892
「帰り」は連用形かもしれない、とも思います。
「帰りなさいませ」の省略形としての「帰り」は、
京都あたりでは一般化している可能性は
あるのではないかと。
0894デフォルトの名無しさん
垢版 |
2018/09/13(木) 18:23:59.98ID:l9KSlvFS
はよ帰り
0895Maria
垢版 |
2018/09/13(木) 19:02:57.94ID:7E5J/vlY
>>894
はよ去(い)ね

「呉れる」の命令形は「呉れろ」のはずですが、
もっぱら「呉れ」が使われる(おそらくは、「呉れ給え」
の略だと思います)ように、「帰る」の命令形は
運用上避けられているのではないかと
思います。
0896869
垢版 |
2018/09/13(木) 21:38:58.32ID:8GqTf0bs
>>870
>>872
>「文法から逃げ回っている研究者が
> AIブームに乗じて統計的自然言語処理に逃げ込んでいる」

それはポジショントーク過ぎて
ぜんぜん賛同できないなあ……

機械翻訳でグーグルとかの統計ベースの翻訳が
従来のルールベースの翻訳に精度がかなり迫ってるし
単なる流行だけじゃなくてそういう実績があるから
統計ベースが主流になってきてるわけで現実を見ていない
0897869
垢版 |
2018/09/13(木) 21:40:18.64ID:8GqTf0bs
>>871
>組合せ論的な爆発というのは
>実用レベルではほとんど起きません

いやいや
形態素解析レベルの話ではなくてその先の話

フレーム問題が起きるのも
組み合わせ爆発があるからでしょう
0898869
垢版 |
2018/09/13(木) 21:45:40.10ID:8GqTf0bs
>>880
>正規表現を言語化

そういうソフトを見かけたことがないので
自分もしくは外注でソフトを制作する必要がありそうです

「abで始まる」とかだけなら
単純な置換でできる部分もあるけど
「abで始まり、cdで終わる」のように
場合分けである程度複雑な処理をするなら
インタプリタとかコンパイラの仕組みが必要になります

まあ本格的な自然言語処理に比べたら
初歩的なインタプリタなんかオモチャみたいなものですが
それでももしプログラマでない場合
もしくは初心者プログラマの場合かなり難しいでしょう

もしビジネスでどうしても必要なら
外部への発注も検討した方がいいかも
0899869
垢版 |
2018/09/13(木) 21:49:58.61ID:8GqTf0bs
>>898
補足

>「abで始まる」
>「abで始まり、cdで終わる」

この部分は何が言いたいかというと
この「始まる」「始まり」の活用をするだけでも
単純な文字列の一括置換ではすぐ壁につきあたってしまうので
そういう「場合分けである程度複雑な処理をするなら」
プログラムを組む必要があるというわけです

言語はある程度メジャーなら何でもいいです
Java、C#、Python、Ruby……など
0900デフォルトの名無しさん
垢版 |
2018/09/13(木) 21:57:16.41ID:10dKI03T
>>870
>文法(規範文法じゃなくて記述文法)は自然言語処理の基礎になるものだから、

そういう著作ってどんなものがあるのですか?

高校国語の「現代文の文法」で「接続助詞」は、とてもたくさんの種類があります。
全部を覚えきるのは大変なので、主にテストに出やすい「接続助詞」について、説明していきます。
https://nanapi.jp/ja/98144
0901デフォルトの名無しさん
垢版 |
2018/09/14(金) 01:36:36.88ID:jnI/w9ND
>>872
>「文法から逃げ回っている研究者がAIブームに乗じて統計的自然言語処理に逃げ込んでいる」

文法的には『反対の賛成』=『賛成の反対』で正しいが、普段の我々はそういう言い方はしない。

5、結論
  以上の結果より導き出される京大英語で8割を超すための対策は、「ネイティブ英語とは何か」
を定義づけして学ぶことに尽きるだろう。
  たとえば、「この料理はまずい」という英作文なら受験生に多いのが
 This dish tastes poor.
しかし、これは評価されない。なぜなら、英語として正しくてもマナー違反。英検英語なら否定文にして、
This dish isn't good. これでマナーは改善された。
  しかし、ネイティブなら I don't like this dish. と言うだろう。本当に不味い場合は、
Yuck! と叫ぶ。そういう違いだ。
 問題は、
「受験英語の参考書や問題集で取り上げられている構文や表現が現実に使われている英語と違う」
  という事実。それを指導している教師や講師も、外国生活がなく50年前の表現を気づかずに指導して
いること。そのために、校内テストや模試で高得点や上位の順位をとっても落ちてしまうこと。
https://storys.jp/story/18159

京大英語は最新のネイティブ英語を強く意識しており、古くさい受験英語は通じ難い。
0902デフォルトの名無しさん
垢版 |
2018/09/14(金) 01:43:51.96ID:jnI/w9ND
>>456
>>31
数学モデルは可能な限り『関数』として予め用意しておき、『文脈』に応じて『選択』する。
0903デフォルトの名無しさん
垢版 |
2018/09/14(金) 01:46:13.68ID:fXySkelb
yuck deculture!!!
0904デフォルトの名無しさん
垢版 |
2018/09/14(金) 03:34:47.05ID:jnI/w9ND
>>721
>こんなとこで自慰をするのは無様で恥知らずとしか言いようがない

匿名5ちゃんねるで何が『恥』なの? こっちたは肩書き関係無いよ?
0905Maria
垢版 |
2018/09/14(金) 05:14:00.78ID:BVvdIn+z
>>896
> 統計ベースが主流になってきてるわけで現実を見ていない
そう見えるのはマシンが速くなってメモリが大きくなって
出現頻度情報と単語間の相関データの利用が進んできて
いるせいでしょう。
基本的な手法は、かれこれ四半世紀は大して進んでいませんよ。
0906Maria
垢版 |
2018/09/14(金) 05:19:18.43ID:BVvdIn+z
>>897
可能世界仮説とかを持ってくると
あっという間に爆発するので、
そこは知識表現のところから
見直すしかないんじゃないかと思ってます。
定理の自動証明系なんかも、最近は
実用なレベルで使用されていますし。
0907Maria
垢版 |
2018/09/14(金) 05:34:40.35ID:BVvdIn+z
>>900
現状、自然言語処理業界でスタンダードとされているのは、
益岡 隆志/田窪 行則『基礎日本語文法・改訂版』。
ただし、これをそのまんま持ってきて実装しても、
十分な精度は出ないと思う。
文語文法だけど、
鈴木康之著/佐伯梅友監修『日本語文法の基礎』が、
學校文法への批判も含めて、わかりやすい本です。

うちらが作った資料やら辞書やらプログラムやら
文法データがご入用なら、
「BackLog プリンプトン322」で引っかかる
『BackLog』というサイトのフォームからメールを
いただければ、お送りいたします。
0908Maria
垢版 |
2018/09/14(金) 06:37:42.37ID:BVvdIn+z
>>900
リンク先の内容に関して、「が」や「と」や「も」には、
多少の注意が必要です。
とりたて詞の「が」と逆説の接続助詞「が」を
間違える人はあまりいませんが、「のが」が
省略されて「が」になることがあります
ex.「ここで遭ったが百年目」。
並列の「と」(「天と地と」)と因果関係の
「と」(「林檎を齧ると歯茎から血がでませんか?」)。
後者は接続詞「すると」と機能は同じ。
助詞「も」(「瑠璃も玻璃も磨けば光る」)と
接続助詞「も」(「そうは言っても」)。
まぁ、前に来る動詞の活用でだいたい判断
できますけどね。
0909Maria
垢版 |
2018/09/14(金) 06:41:27.82ID:BVvdIn+z
>>900
活用体系に関する詳細な分析については、
寺村秀夫『日本語のシンタクスと意味 II』
0910Maria
垢版 |
2018/09/14(金) 06:46:52.18ID:BVvdIn+z
おっと、途中で送信しちゃったい。

第4章の「活用」をご覧ください。
「なぜ、『連体形』と『終止形』は形が
同じなのか?」「なぜ、未然形と連用形は
形が二つあるのか?」「『仮定形』は『已然形』と
呼ぶのが正しくはないか?」みたいな
議論があり、これを読んでから
益岡 隆志/田窪 行則『基礎日本語文法・改訂版』
を読むと、けっこううんざりします。
0911Maria
垢版 |
2018/09/14(金) 07:09:11.41ID:BVvdIn+z
>>911
うちらが使っている活用体系は、
寺村秀夫『日本語のシンタクスと意味 II』だと
松下文法に近いかな?
まず、現代語では「終止形」を立てません。いわゆる
「終止形」は省略による連体形の終止用法とみます。
ただし、文語だと動詞にも形容詞にも終止形があるので、
そこは配慮しましょう。
連体形と連用形は、「現在」と「過去または完了」に
分けて、合わせて四通りとして扱います。このとき、
「た」「だ」「て」「で」は活用語尾に含めるのが
本来のありかたですが、「ちゃった」「じゃった」の
処理との関連で、若干の工夫が必要です。
「仮定形」は「已然形」に名称変更。仮定を表すのは、
「ならば」です。「柿食えば鐘が鳴るなり法隆寺」は、
「柿を食ったら(仮定)鐘が鳴る」ではなく、
「柿を食ったら(已然)鐘が鳴った」です。
0912デフォルトの名無しさん
垢版 |
2018/09/14(金) 07:09:30.48ID:jnI/w9ND
>>908
>ex.「ここで遭ったが百年目」

そういうのはレアなケースということで、『統計的機械翻訳』もまだ捨てたものではないと思う。
0913デフォルトの名無しさん
垢版 |
2018/09/14(金) 07:20:46.26ID:jnI/w9ND
>>897
>フレーム問題が起きるのも
>組み合わせ爆発があるからでしょう

5ちゃんねらー百万人を動員して、百万通りの『日記』(200字以上400字以内)を書かせればいい。
そうすれば彼女にフラれたとか会社クビになっただとか、大半はありきたりな日常だとわかるはずだ。
ウンコが出なくて肛門に力を入れすぎて脱腸してしまったなんてごく稀な出来事は無視でいい。
0914デフォルトの名無しさん
垢版 |
2018/09/14(金) 07:23:55.35ID:jnI/w9ND
>>897
>フレーム問題が起きるのも
>組み合わせ爆発があるからでしょう

龍が如くの神室町でのサブイベントを一万通り追加すればいい。
0915Mr.Moto
垢版 |
2018/09/14(金) 08:13:31.90ID:BVvdIn+z
>>912
べつに統計的な手法を機械翻訳に適用するなとかは
言ってない。むしろ必要だと思っている。
「おはよう」「こんにちは」「こんばんは」
「ごきげんいかが」「どういたしまして」なんかは、
パターンで検出してパターンで答えるのが定跡だし。
とくにコンピュータの記憶容量は、そこいらの人間をはるかに
超えている(コンピュータに辞書を何冊も突っ込むことは
できるが、普通の人間は辞書を丸暗記しない)ので、
定型文に関しては、機械翻訳はすでに人間を超えていると
言っていい。
「ここで遭ったが百年目」とくれば「盲亀の浮木優曇華の、
花の咲きたる心地して(中略)いざ尋常に勝負勝ぉぉお負っ!」
くらいのことは、コンピュータには簡単。
ただ、あんまり口うるさいと、ユーザには不評。
「泰山鳴動して鼠一匹」「あれはローマの諺なので
『大山』が正解」
「高根の花」「正しくは『高嶺の花』。『富士の高嶺』と
同様」
とか言ってると「うるせぇな!」ということになる。
0916Mr.Moto
垢版 |
2018/09/14(金) 08:37:07.48ID:BVvdIn+z
>>913
そこは業務上の要求とかと相談して、
適宜切り分けるのが順当だろうな。
医療用の問診システムだったら、
「放っとくと治っちゃうような病気」
と「レアケースだけど重篤化する危険性のある
病気」を切り分けて、検査を奨めるとかいった
要求はあるはずだ。
> ウンコが出なくて肛門に力を入れすぎて
> 脱腸してしまった
みたいな例は無視できるかもしれないが、
便秘で高熱が出て浣腸や便摘しないと生命に
危険があるようなケースはないでもないらしい。
0917Maria
垢版 |
2018/09/14(金) 08:53:38.40ID:BVvdIn+z
実用性とはあんまり関係がなさそうだけど、
地口とか洒落とかを検出する(あるいは生成する)、
というのは あっても面白いかもしれない。
「感謝感激雨あられ」(元は「乱射乱撃雨あられ」)や、
「残り物には福がある」(「甘いものには福がある」
→「余り物には福がある」→「残り物には福がある」と
変化)みたいな例は、それほどレアな表現では
ないと思いますし。
0918Maria
垢版 |
2018/09/14(金) 09:05:39.59ID:BVvdIn+z
>>899
多分にうちらの趣味が入ってますが、
順当なのは Java だと思います。
文字列を処理するのに、いちいち領域の
確保とか開放とか考えなくてすむし、
文字コードに関する処理も言語仕様で
吸収してくれていますから。
「文字列操作が重いんじゃないか?」という
心配はあると思いますが、StringBuffer を
使えばそれほど遅くないだろうし、
「クロウラーと組み合わせて、ネット上の
日本語テキストデータを端から喰う」みたいな
巨大処理でなければ、昨今のパーソナルコンピュータは
高性能なので、さほど気にならないかと存じます
(昔、C でやったときは回線が遅かったので、
実用上の問題はありませんでしたが。むしろ
集めた語彙データを整理するのが手間でした)。
0919デフォルトの名無しさん
垢版 |
2018/09/14(金) 09:50:17.88ID:x/9f0NBW
>>456
>コンピューターの画面に、

パソコンに、

>表示させる

キーボード操作とコマンドラインとプログラミング言語で、

>操作をくり返し行う

『操作A』をk回行う。

文脈に応じて意味が全く変わる多義語を理解するための中間言語も用意しておきたい。
点は点でも『得点』なのか『座標点』なのか『要点』なのか、文脈による訳し分けを。
0920Mr.Moto
垢版 |
2018/09/14(金) 13:24:11.76ID:BVvdIn+z
>>919
そのあたりは[形態素解析 → 構文解析 → 意味解析]みたいな
ウォーターフォール・モデルを考えれば当然あだろうと
思うが、いまどきは人工知能がブームなんで、そのあたりは
適宜調整するくらいのことはできないだろうか。
0921Maria
垢版 |
2018/09/14(金) 15:34:41.55ID:BVvdIn+z
>>919
「コンピューターの画面」は、
「コンピューターのディスプレイ」と同義です。
「コンピューターのディスプレイ」に
「表示する」のは「ディスプレイする」と同義です。
「操作A」の結果は、そのつど異なっている
(少なくとも、「毎回同じである」とは限りません。
乱数要素や時刻などが関係してくる場合を排除
できないからです)と考えるのが妥当です。
そうなると、「パーソナルコンピュータに、
k回ぶんの 操作A の結果をディスプレイさせる」が
とりあえず妥当な表現ではないか、と思いますが、
いかがでしょうか。
0922Mb
垢版 |
2018/09/14(金) 15:48:17.75ID:BVvdIn+z
>>918
> StringBuffer を使えば
「StringBuilder のほうが、同期を取らないぶんだけ
速いだろう」と考える奴もいるだろうが、
自然言語処理は、なにしろ人手がかかる。
しょうがないので Web 上にシステムを構築するわけだが、
そうすると必然的にマルチスレッド/マルチプロセスに
なるので、安全性を考えると排他制御を考えるのが
順当なありかた。
まぁ、処理環境がデカかったら、プロセスごとに new して
個別に処理するのも手だろうが、辞書をデータベースに
置くと、登録・削除で どっちみち排他制御が絡んでくるから、
「運用に入ってから適当に考える」くらいの
心づもりでいる。
0923Maria
垢版 |
2018/09/14(金) 17:38:30.16ID:BVvdIn+z
>>895
そういえば、五段活用ナ行っていうのは、
「死ぬ」と「去ぬ」だけなんですよね。

これって、自然言語処理の立場でいうと、
「辞書的な処理で解決する(不規則活用と
同じ扱いをする)」のか、「アルゴリズムと
して、一般的な扱いをする(今後、五段活用
ナ行の動詞が、生まれてくる可能性がある)」
のか、そのあたりの方針はわりと重要な感じが
するんですけど、どうでしょう。
0924Maria
垢版 |
2018/09/14(金) 17:44:31.09ID:BVvdIn+z
>>721
独りでカイてると寂しいのよね。
だれか相手してくんない?
0925Maria
垢版 |
2018/09/14(金) 17:50:13.49ID:BVvdIn+z
あ、間違えた。
>>721 じゃなくて >>904 だった。
0926Mr.Moto
垢版 |
2018/09/14(金) 17:52:20.16ID:BVvdIn+z
だからマジスレでネタはやめろと何度言ったら (ry
0927デフォルトの名無しさん
垢版 |
2018/09/14(金) 22:58:21.94ID:Z/hoV2jq
>>921
>(少なくとも、「毎回同じである」とは限りません。

無限に解釈できるのかもしれないが、『その他』に指定しておくとか。
0928デフォルトの名無しさん
垢版 |
2018/09/14(金) 23:18:31.72ID:Z/hoV2jq
ニューラル翻訳では機械学習で中間言語を生成してしまうとのこと。やはり中間言語方式を採用していきたい。

>>915
>定型文に関しては、機械翻訳はすでに人間を超えていると言っていい。

定型的な言い回しは機械学習でいいが、

>>456
>各操作で、(「記号○と×のいずれかを」「表示させる操作」を「k回繰り返す」。)

厳密な情景描写に関しては、人手で丹念に背景知識と中間言語を補いたい。

>>824
>当時の写真やドキュメンタリー番組などを参考にしているそうです。

われわれ人間だってそうしているのだから。

>>901
>外国生活がなく50年前の表現を気づかずに指導していること

現実世界との接点が無いままの機械的暗記学習では限界がある。
0929デフォルトの名無しさん
垢版 |
2018/09/14(金) 23:26:45.19ID:Z/hoV2jq
中間言語方式とは、機械が苦手な多義語について、訳出例をいくつか挙げて、後から絞り込むやり方。
地名や個人名や専門用語は訳出が一つしかないので簡単だが、「その点」とかいうと、
点は点でも文脈によって訳出方法が変わるので、統計的機械翻訳では無理だ。
0930デフォルトの名無しさん
垢版 |
2018/09/14(金) 23:35:49.63ID:Z/hoV2jq
>>828
>>863
厳密かつ具体的な情景描写(シミュレーション)については、中間言語を人手で補う必要が生じる。

>>897
>フレーム問題が起きるのも
>組み合わせ爆発があるからでしょう

受験数学のフレームは非常に限られているが、英語に関してはネイティブ重視だと機械翻訳は苦しいかも。
0931デフォルトの名無しさん
垢版 |
2018/09/14(金) 23:50:51.08ID:Z/hoV2jq
>>921
> 「操作A」の結果は、そのつど異なっている
>(少なくとも、「毎回同じである」とは限りません。

『操作』と言った場合、何をどうするかについて、訳出の候補を挙げることさえも困難である。
『操作A』は具体的に何をどうするかのシミュレーターに落とし込むには、更なる第二中間言語が必要かも。

>>863
>四番目のステップは「全体の構成と設計」です。

更に高度な情報処理になるが、第二中間言語でプログラミング関数の何かに置き換えるとか。

>>921
>乱数要素や時刻などが関係してくる場合を排除できないからです

ライブラリ関数ならそれもこれも対応しているはずだ。
0932デフォルトの名無しさん
垢版 |
2018/09/14(金) 23:54:35.64ID:x/9f0NBW
>>931
>何をどうするかについて、訳出の候補を挙げることさえも困難である。

『無条件降伏』とは、具体的に何をどうすることなのだろうか?

 「無条件降伏」については、確立した定義があるとは承知しておらず、一般的に、「降伏」とは、戦闘行為をやめ、
敵の権力下に入ることを意味し、その際に条件付けのない場合には「無条件降伏」と称されることがあると承知しているが、
その意味するところは文脈等にもよるものであり、したがって、お尋ねの「「無条件降伏」論」について、一概にお答えすることは困難である。
http://www.sangiin.go.jp/japanese/joho1/kousei/syuisyo/180/touh/t180183.htm

『無条件降伏をしたのに、北方領土を返還しろ』とはどういう意味なのか?
0933デフォルトの名無しさん
垢版 |
2018/09/14(金) 23:58:08.54ID:fXySkelb
そもそもソ連には降伏もしてもないし
ソ連とは終戦もしてない

国際法どおり

まったく分かってないわ
そもそも文章がおかしい
0934デフォルトの名無しさん
垢版 |
2018/09/14(金) 23:58:48.25ID:x/9f0NBW
○小坂国務大臣 政府委員から補足させまするが、カイロ宣言の中には、その南樺太並びに千島という部分は
入っておらないことは御指摘の通りであります。ただ、これを受けてできたポツダム宣言の中において、連合国が
日本の所有する領域をきめるということになっておりまするので、連合国の主張に従って無条件降服をした日本の
立場として、南樺太並びに千島を放棄したということであります。
http://kokkai.ndl.go.jp/SENTAKU/syugiin/039/0514/03910110514008a.html

ソ聯領におもむく意図を以て、有効な旅券を所持せず従つて旅券に入国審査官から出国の
証印を受けないで、判示海岸から右B所有の漁船Aに同人と共に乗船して出航し、
同日夕刻頃ソ聯領下の国後島沖合一五〇米位の海域に到達したものであること原審
認定のとおりであつて、原審の事実認定に誤りは存しない。
http://www.courts.go.jp/hanrei/pdf/js_20100319120139890464.pdf

ちなみにナチスと結んで米英を攻撃した日本は「無条件降伏をしたのに、北方領土を返還しろ」と主張してるのに、
ナチスと結んでソ連を攻撃したフィンランドは「有条件降伏をしたからカレリアを返還しろ」とは言わない。
クリミアは住民投票の結果ロシア領土になったという主張と、北方四島は日本が無条件降伏した結果ロシア領土になったいう主張は、
どちらが正しくてどちらが間違いなのか、あるいは両方間違いなのか両方正しいのか。
0935デフォルトの名無しさん
垢版 |
2018/09/15(土) 00:01:00.95ID:KIanXBkQ
そもそもソ連はSFの中にいない
ソ連とは終戦もしてない
ソ連とは降伏もしてない

いまだにソ連とは平和条約すら結んでないからな
0936デフォルトの名無しさん
垢版 |
2018/09/15(土) 00:05:36.82ID:KIanXBkQ
南サハリン、千島列島は帰属未定地
国際法的には日本にもソ連にも帰属する根拠はない
しかし、コレは歴史的にみれば日本固有の領土であると主張できる

まちがいなく火事場泥棒の不法占拠

北方四島は国際法に照らしあわせれば
間違いなく日本固有の領土
日本に帰属する根拠はあっても
ソ連に帰属する根拠はない

まちがいなく火事場泥棒の不法占拠
0937デフォルトの名無しさん
垢版 |
2018/09/15(土) 00:13:23.66ID:iXfmCcY9
>>936
>北方四島は国際法に照らしあわせれば
>間違いなく日本固有の領土
>日本に帰属する根拠はあっても
>ソ連に帰属する根拠はない

  ソ聯領下の国後島
  ソ聯領下の国後島
  ソ聯領下の国後島
0938デフォルトの名無しさん
垢版 |
2018/09/15(土) 00:14:53.72ID:KIanXBkQ
ちなみにSF講和条約のメンツは
みな北方四島は、日本固有の領土だといってる
そして、南サハリン、千島列島がソ連の領土であることも承認してない

しかし、ソ連はSF講和条約のメンツですらないのに
SF講和条約を根拠にしてココはオレの領土だと主張している

しかしSF講和条約のメンツは、そんなことだれも認めてない
もうね頭おかしいワケ
0939Maria
垢版 |
2018/09/15(土) 09:10:22.91ID:i3vxjdYh
よそのサイトに書いたことですが、
>>930
「中間言語」として何を考えるか、については >>772
論じた「外延主義」に関する議論にかかわってくると
思います。「金星という天体」という “実在” がまさに
意味だ、と考えると、「竜」とか「文字」とか「数」とか
いった実在としての対応物を持たない概念には、「意味が
ない」ということになってしまいます。
そんなわけで、まず「データ構造ありき」と考えて、
いわゆる「自然言語処理」は逆問題である、と考える
立場があってもいいんじゃないでしょうか。
0940Maria
垢版 |
2018/09/15(土) 09:22:59.26ID:i3vxjdYh
>>931
コンピュータに「常識」を持たせてあげないと、
「〇と×のいずれかを」を「〇 xor × のいずれか一方を」
と解釈してくれなくて、「〇×」とか「×〇」とか
出力しちゃうかもしれないので、そこは考えどころですね。
「ケーキセットには紅茶またはコーヒーがつきます」「じゃ、
両方」という古典的なネタもあることですし。
0941Maria
垢版 |
2018/09/15(土) 15:36:31.88ID:i3vxjdYh
>>932
>『無条件降伏』とは、具体的に何をどうすることなのだろうか?
軍人が武装を解除して、軍の指揮下ではなく家庭に復すること。

誤った解釈が一般化しちゃうと、自然言語処理もますます
ややこしいことになるので、勘弁してほしいのよねー。

「弱冠」「助長」「破瓜」なんか、正しい意味で使われている
例を見たことがないし。

あと、「蚊帳の外」って、エッチな意味だから、下手に使うと
セクハラになるんだからねっ!
0942Maria
垢版 |
2018/09/15(土) 15:46:53.94ID:i3vxjdYh
>>930
> 英語に関してはネイティブ重視だと機械翻訳は苦しいかも。
「五本指」→英語圏では、指は四本。親指は別扱い。
「茶封筒」→英語圏では、イエローな封筒。
「足の指」→英語圏では、「つまさき」で一括。
「玉子焼き」→英語圏では、「フライドエッグ」。「焼く」には
ベークドとかグリルドとかいろいろあり。

そういう意味では、「機械翻訳」ということの意味を問い直す
作業が、機械翻訳が実用レベルに達した現代では、重要に
なってくると思います。
0943Maria
垢版 |
2018/09/15(土) 15:53:02.33ID:i3vxjdYh
ところでさぁ、自然言語処理とか日本語処理とか、
日本国内の企業や研究機関で、けっこうやってると
思うのよね。
だったら、正面切って喧嘩売りに来てくれない?
でないと、こっちから押しかけちゃうよ?
0944デフォルトの名無しさん
垢版 |
2018/09/15(土) 17:07:36.67ID:JQEN5wSD
>>932
>その意味するところは文脈等にもよるものであり

前後の文脈を徹底的に調べ、かつ他の訳語を当てはめられるかを検証するシステム構築を。

>>931
> 第二中間言語でプログラミング関数の何かに置き換えるとか

抽象的な多義語を具体化してシミュレーションへ誘導する。『引数』と『戻り値』については、

>>26
>>123
>>277
>>282
>>457
のようなRFD研究を進めていきたい。
0945デフォルトの名無しさん
垢版 |
2018/09/15(土) 17:13:32.43ID:JQEN5wSD
>>282
>(x,y,z)=(主語,述語,目的語)で、出現頻度の多い順に並べる

リンゴを食べた
ミカンを食べた
ウンコを食べた

さて仲間外れはどれでしょう?
0946デフォルトの名無しさん
垢版 |
2018/09/15(土) 17:24:07.29ID:JQEN5wSD
>>282
>出現頻度の少ない組み合わせは、オリジナル表現か
>あるいはナンセンス文かのどちらか

極端に頻度の多い組み合わせと、京大頻度の低い組み合わせは、人力でフォローしていきたい。
前者に関してはライブラリ関数として人手で登録しておき、後者に関しては人手で検証する。

『雲の上を歩いてみようか』
『絵本の中から生まれ始めた物語の行方は』
『女性は子供を産む機械』

などどいうのは、人手で解析する必要が生じる。
0947デフォルトの名無しさん
垢版 |
2018/09/15(土) 17:27:41.60ID:JQEN5wSD
>>942
>「玉子焼き」→英語圏では、「フライドエッグ」。「焼く」には
>ベークドとかグリルドとかいろいろあり。

画像認識やシミュレーションとも合わせて、現実世界との接点を広げることが大切と思う。
0948Mb
垢版 |
2018/09/15(土) 17:40:17.83ID:i3vxjdYh
>>945
リンゴ
ミカンとウンコは落葉性の仁果類ではない
0949デフォルトの名無しさん
垢版 |
2018/09/15(土) 17:42:49.73ID:JQEN5wSD
>>934
>ソ聯領下の国後島

『日本領下の種子島』と比べてどうだ?
0950Maria
垢版 |
2018/09/15(土) 17:47:46.94ID:i3vxjdYh
>>947
厳密性の追求と実用性は、
トレードオフの面にも考慮というか
配慮するのが適切ではないでしょうか。
自動車と在来線と新幹線と航空機みたいな
選択肢もあるわけできし。
0951Maria
垢版 |
2018/09/15(土) 23:31:55.83ID:i3vxjdYh
そろそろ次スレを立ててもいいかと思ってるんですけど、
あたしが立てちゃっていいのかなぁ?

あと、初期スレとかからの積み残し案件とか、
いろいろあると思うんですけど、そのあたり、
ちゃんと答えておいたほうがいいのかな?
0952Maria
垢版 |
2018/09/16(日) 10:07:53.86ID:bnxHgENN
>>3
> 動的に解析する文法を変えたいときは、
> 実行時にパーサジェネレータや
> コンパイラを使わないといけないのか?
言語は「通じる」のが前提なので、既存の言語の
拡張(方言とかネットスラングとか)なのか、
別の体系の言語(英語とかスワヒリ語とか)なのかによって
アプローチは異なると思う。
0953デフォルトの名無しさん
垢版 |
2018/09/16(日) 10:15:30.84ID:bnxHgENN
>>4
> word2vec
> paragraph vector
どっちも多変量解析で相関係数出して
因子分解するわけだから、
シソーラス作ったり、「関連する論文を探せ」とか
いった用途には向いていると思う。
ただし、出現頻度が高い一般語と、
出現頻度が低い固有名なんかは、
ノイズになるだけなので、どこかで切り捨てを
行う必要があり、そこは機械学習じゃなくて
人間が行なう必要があると思われ。
0954デフォルトの名無しさん
垢版 |
2018/09/16(日) 10:21:25.65ID:bnxHgENN
>>6
n-gram 法は理屈がシンプルなわりにそこそこ
精度が出るから活字 OCR とかには向いてる。
ただ、「もう少し精度を上げたい」とか言われると
辞書を増やす以外に工夫の余地がないのが弱点。
0955デフォルトの名無しさん
垢版 |
2018/09/16(日) 10:41:30.32ID:bnxHgENN
>>32
(1) John,fired Dave,because he had too many absesces.(he=dave)
(1) John,fired Dave,because he had too many employees.(he=dave)

は、

(1) John, fired Dave, because he had too many absesces.(he=Dave)
(2) John, fired Dave, because he had too many employees.(he=John)

だろうな。
0956Maria
垢版 |
2018/09/16(日) 10:44:42.56ID:bnxHgENN
>>34
「は」は「係助詞」ではなく「とりたて詞」。
0957Maria
垢版 |
2018/09/16(日) 10:53:37.11ID:bnxHgENN
>>47
> 新聞とかのデータからから「名詞+助詞+動詞」の
> 組み合わせをひろってきたいんだけど、
> 構文解析する必要ありますか?
ありませんね。形態素解析で十分です。
「いや、もっと精度を上げたい」とかいうと、
また話はややこしくなりますが。
0958デフォルトの名無しさん
垢版 |
2018/09/16(日) 10:57:56.86ID:BKY25fNA
>>951
次スレは誰が立ててもいいと思います


>>1
あとスレのテンプレとかに
意見がある人がいたら言って欲しい

>人工無能や哲学的AI話、言語学の話題など
個人的にそれらの話題を外せっていうのは
どうなのかっていう気がする
かなり密接に関連してるし

「あくまで〜」以降は削ってもいいと思う
0959Maria
垢版 |
2018/09/16(日) 11:05:33.99ID:bnxHgENN
>>52
> もの凄く精度の高い解析
出現頻度に対する精度だったら一万五千語くらいの
辞書で 99% 以上は楽勝。
ただし「語彙に対する精度」とか言いだすと
地名や人名などの固有名が出てくるとアウト。
その場合は辞書を大きくするか、「辞書未登録+推定
品詞情報」の形で出力してOKかそうでないかを
判定する必要がある。
「ごまめ」を「未登録動詞『ごまむ』の命令形」とか
「くわい」を「未登形容詞『くわい』の連体形現在」とか
言われると困る、という話。
0960デフォルトの名無しさん
垢版 |
2018/09/16(日) 11:32:45.38ID:bnxHgENN
>>247
> 英語の論文読むのが苦痛でたまらない
> はやく翻訳装置つくってくれ
辞書引きだけなら簡単だが、
辞書をどこから持ってくるかが問題。
機械翻訳は、「この英文をどう訳すと
この日本語になるんだ?」みたいなことがある。
科学技術用の機械翻訳システムを使ったら、
“He is a boy.”が「ヘリウムは少年です。」と
訳されたという語り種(ぐさ)があった。
0961Maria
垢版 |
2018/09/16(日) 15:08:18.91ID:bnxHgENN
>>958
こんな感じでいいのかな?

このスレッドでは、おもに日本語の構文解析・談話理解・情報検索・
文章生成などの、実装と それに付帯する技術および理論について
扱いたいと思っています。

アプリケーション・プログラミングの技術的な面に重点をおきたいので、
学術的な話とか 人工無能とか哲学的AI話とか、言語学の話題などの、
“密接に関連していはいるものの、直接には結びつかない”分野については、
なるべく既存の他スレ、あるいは独立スレにおいて、個別に議論して
いただくよう お願いいたします。
(ただし、その関連性や評価に ついての ご意見や質問等を妨げるものでは
ありません)

以下、【前スレ】
(前スレ張ろうとしたら規制喰らっちゃったい)
0962Maria
垢版 |
2018/09/16(日) 15:13:57.57ID:bnxHgENN
>>961
> アプリケーション・プログラミングの技術的な面に重点をおきたいので、
は、
> アプリケーション・プログラミングの実用的・応用的な技術的側面に
重点をおきたいので、
のほうがいいのかしら。
あとは、
「『自然言語処理スレッド』
(//pc11.5ch.net/test/read.cgi/tech/1011988273/)」
が規制に引っかかるかどうかがキモだわね。
0963Maria
垢版 |
2018/09/16(日) 15:30:47.96ID:bnxHgENN
>>247
ISAM を使った辞書引きの手法については、
坂井 利之『翻訳するコンピュータ ― 情報革命と語学の壁に挑む』
(講談社ブルーバックス。一九六九年) に載ってます。
具体的な手法については、いま所内で探しているので、ちょっと
待っててねー。Macintosh 用だったら、その昔“rStone-EJ”っていう
アプリがあったんだけどね。
クリップボード経由でのインタフェースと、GUI に関していうと、
Java でも可能なんで、ちょっと面倒臭いけど可能ではあります。
だけど、どうしても辞書のメンテナンスが大変なんですよ。細かい
メンテナンス用のアプリとか作んなきゃなんないし。
なんか、困ってることがあったら言ってくださいねー!
実装のお手伝いくらいなら、できると思うので。
0964Mb
垢版 |
2018/09/16(日) 15:34:21.87ID:bnxHgENN
>>959
> 「くわい」を「未登形容詞『くわい』の連体形現在」とか
> 言われると困る
ふはははははは、若輩者め。「くわい」は「動詞『咥う』の
連用形現在」という解釈もあるのを忘れたかぁ!
0965Maria
垢版 |
2018/09/16(日) 17:09:08.48ID:bnxHgENN
「ヤマトめ ―― やりおったかヤマトめぇぇぇぇ!」
「総統がおかしくなられた ……」
(読み筋は、『宇宙戦艦ヤマト』)

… と、いうわけで、所長がおかしくなられたので、
我らが大森総研はワケがわかんないことになってます。

まず、JAI-Parser は、島内 剛一先生の「ローマ字かな変換」を
実行できるようになってます。で、「かな漢字変換」も
実行できます。さらに、旧 JAI-Parser は「二階建て」でして、
両方の処理ができたんですね。だけど、「そんなもん(候補の
確定)は人間がやればいいんじゃー」と、暴れていらっしゃいます。
以下、待て続報。
0966Maria
垢版 |
2018/09/16(日) 18:03:52.80ID:bnxHgENN
話は変わりますけど、弁護士会のエラいヒトに、
「弁護士の背任罪」について質問したところ、
「そんなことは絶対にありえません!」と
熱弁されていらっしゃいました。
その後、「実際にあったんですけど ……」と
申し上げたら、「『ありえない』というのは、
『ない』という意味ではなく、『あってはならない』
という意味なんですよ」と、なんかしら必死に弁明
していらっしゃいました。
「でも、『絶対に』というのは、『例外なく』という意味ですよね?」
「普通は、そういう意味じゃないんです!」
素数は、「1とそれ自身以外に約数を持たない自然数」のはずですが、
たとえば「6は例外」とかになっちゃうとしたら、自然言語処理って、
けっきょく無力ですよねぇ?
「0は素数」とか「1は素数」とか言われても、「それは例外」だったら、
べつに「256 は例外的に素数」って言われても、納得しなきゃ
いけないわけですから。
0967Maria
垢版 |
2018/09/16(日) 18:58:42.91ID:bnxHgENN
前にもたびたび話題になりましたけど、「中間言語」とか
「知識表現」とかいったモノは、ひょっとしたら
必要ないんじゃないの?みたいな話があります。
「文語で書いたモノがあれば、それはデータなんであって、
人間がどう解釈するかっていうのは、けっきょく人間の
都合じゃねぇの?」っていう立場です。
「春は、あけぼの」って言われたら、「平安時代に、清少納言と
呼ばれた人が、『春は、あけぼの』と書き残した」という事実が
あるだけで、「じゃあ、本当に平安時代の春はあけぼのだったのか?」
を確認しようはありません。「だったら平安時代に行ってこい」みたいな
話になるわけですし、文献以外に残っているものは、考古学的な
証拠しかないのですから。
現代社会においても、裁判においては調書と物証がすべてなワケだし、
それが捏造されてて冤罪だったりするかもしれません。
そんなワケで、「意味」については、人間に丸投げしちゃって
いいんじゃないでしょうか。
0968Mb
垢版 |
2018/09/16(日) 19:35:22.85ID:bnxHgENN
だいたい、「1+1は2である」けれど、
「1+1は3にも4にもなる」とか言ってる
人類に、自然言語処理システムなんていう
危なっかしいモノを与えちゃダメなんじゃねぇか?
(筒井康隆さんの『アフリカの爆弾』とか
思い出すなぁ)
「マルクス=レーニン主義こそが真の科学であり、
それ以外の科学は、単なるイデオロギーに過ぎない」
とか真面目に信じてる独裁者がいて、社会を浄化するために
反体制勢力を AI で撲滅するシステムを構築したりしたら、
まるっきりジョージ・オーウェルの『1984』じゃねぇか。
0969958
垢版 |
2018/09/16(日) 20:22:53.60ID:BKY25fNA
>>961
>アプリケーション・プログラミングの技術的な面に重点をおきたいので〜
いや上以降(原文ではあくまで〜以降)をまるごと削除って意味
テンプレで話題をゴチャゴチャ制限するのって筋悪いと思う
0970デフォルトの名無しさん
垢版 |
2018/09/16(日) 21:25:42.42ID:SOVIz+sV
やまとは くにのまほろば たたなづく あをかき やまごもれる やまとし うるはし
0971デフォルトの名無しさん
垢版 |
2018/09/16(日) 21:57:31.23ID:ltjz3YFA
>>968
>「1+1は2である」

コンピューターシステムで一般的な二進法では 1+1は10。
0972デフォルトの名無しさん
垢版 |
2018/09/17(月) 04:38:41.79ID:rTQuL7Ni
なるほど。それでいいんなら、そっちの方が都合がいいや。
このところ、多少引っかかっていたことがあって、
「文法に関して、もうちょっと足下を固めておいたほうが
いいんじゃないだろうか?」と思いはじめていたので、
「後段は縛りがきついな」と思っていた。
>>971 みたいな話も、考えてみると、けっこう奥が深いし。
0973Mr.Moto
垢版 |
2018/09/17(月) 05:01:57.05ID:rTQuL7Ni
>>972
そもそもは、たまたま「ローマ字かな変換とかな漢字変換の
両方が、双方向で簡単にできる」というシステムを作っちゃった
のが発端なんだ。“sinai” が「市内」なのか「竹刀」なのか「親愛」
なのか「sin(ai)」の判別を、構文解析・意味解析・意味解析の
レベルまで保留しておこうとか、ずっと考えてたんだよね。
あるいは「ふたえにまげてくびにかけるじゅず」が「二重に曲げ
手首にかける数珠」なのか「二重に曲げて首にかける数珠」なのか。
「ここではきものをぬいでください」が「ここでは着物を脱いでください」
なのか「ここで履物を脱いでください」なのか。
あるいは、読みを「開く/閉じる」の問題。「話」は名詞だけど「話し」
と書くと動詞の連用形現在になるので、ニュアンスが変わっちゃうとか、
「持ち帰り」か「持帰り」か「持ちかえり」かとか、「書留」は「書留め」
でも「書き留め」でもないけど「書きとめる」は「書き止める」と
書くと「書きとどめる」になるとか、「出だし」は「出出し」と書かないとか、
「とにかく」か「兎に角」かとか「ください」か「下さい」かとか、
そういう「実用的な部分で引っかかるところ」というものに対して、
昨今の自然言語処理の研究者って向かい合ってないように思うんだよ。
「それは文法や文学の問題であって、科学技術の観点からいうと
些末な問題でしかない」と。このスレでも、文法に対する忌避反応と
いうのがあるだろう? だけど、「実用」「応用」を考えると、
それは切り捨てちゃいけないことだと思うんだけどね。
0974Maria
垢版 |
2018/09/17(月) 05:21:59.22ID:rTQuL7Ni
>>970
一九五九年に電気試験所で作られた翻訳機械の名前が「やまと」。
0975デフォルトの名無しさん
垢版 |
2018/09/17(月) 05:35:32.59ID:rTQuL7Ni
>>971
現代数学的な構成主義によれば、
「2+2=4」。
「1の “次の数” 」として2が定義され、
それを前提として加法が定義される。
この時点で「2+2=4」が導入され、
そこからさらに定義を延長することで、
「1+1=2」が帰結され、加法の
逆操作として減算を考えることで
負数を含めた整数が定義される。
これとは別に、加法のくり返しとしての
乗算が定義されるんだが、乗法の逆演算としての
除法を考えると「0」の扱いがややこしいことになり、
インドでは0が「悪魔の数字」と呼ばれることになる。

このあたりを掌握できる自然言語処理システムとか
考えだすと、あんまり実装っぽい話にならんで
AI 哲学みたいな話になっちゃうんだよなぁ。
0976デフォルトの名無しさん
垢版 |
2018/09/17(月) 07:13:46.68ID:C7pw6n1T
>>371
>25000×25000=626000000通りの「共起関係」、
>及び29種類の「属性」を、人力で分析してアノテーションコーパスを作成すべき!

『頻出』と『例外』を検出しておきたい。
0977デフォルトの名無しさん
垢版 |
2018/09/17(月) 07:24:42.74ID:C7pw6n1T
自然言語処理の知識はゼロなのでわからないです。面白いアイデアだと思うので、Twitterの自然言語処理が専門の方々に聞いてみては?
https://peing.net/ja/q/417c9e29-35de-4c95-8323-afd6a50fcbc7

コンピューターのための自然言語理解シミュレ
ーターというのは可能ですか?

例えば第二次大戦の推移について、言葉ではな
くて動画で理解する方法もあります。
言葉で説明するよりもマインクラフトのような
創作ゲーム表現に変えたほうが分かりやすいで
す。
けれども自分が読み漁った人工知能や自然言語
処理の本にはそうしたアプローチは見つからな
かったです。
言語はただの記号の羅列で機械は現実世界を全
く知らない。でもそういうことなら、
テレビゲームのような仮想世界をインプットし
て、自然言語で操作したらいいと思います。
というか自然言語入力でときめきメモリアルみ
たいなゲームをやってみたいてす。
0978デフォルトの名無しさん
垢版 |
2018/09/17(月) 07:27:25.16ID:C7pw6n1T
教育重視のシナリオの場合は、AI の脳が正しく正確なデータに基づいて学習することを確実にしつつも、
技術の成功と安全性のために はセンサー情報が不可欠です。AirSim を AI 実験、ディープ ラーニング、
強化学習用のためのツールとして改変させ続けることが、本研究プ ロジェクトにおける Microsoft の狙いです。
人工知能がエキサイティングに進化する時代に突入しました。ツールと技術が一 般化して不可能なことも
すぐに可能となるでしょう。アンリアル エンジンを使って多種多様な設計およびリサーチ業界全体で
AI 開発と教育 アプローチを可能にすることで、次世代の人工知能の進化において解き放たれる潜在的な進歩の
大きなレベルがあります。次世代に向けて人工 知能はとてつもなく大きな進歩が期待できます。

2018.4.13
バーチャル シミュレーションを活用してアンリアル エンジンで AI を教育する
https://www.unrealengine.com/ja/blog/ai-in-unreal-engine-learning-through-virtual-simulations
0979デフォルトの名無しさん
垢版 |
2018/09/17(月) 07:50:14.66ID:C7pw6n1T
>>940
>コンピュータに「常識」を持たせてあげないと、
>「〇と×のいずれかを」を「〇 xor × のいずれか一方を」
>と解釈してくれなくて、

コンピューターに『人間の常識』を教えるには、一つ一つ丹念にインプットするかシミュレーションしかない。
『AとBのいずれか』『AとBの両方』は、頻出概念として予め人力で登録しておく。
0980デフォルトの名無しさん
垢版 |
2018/09/17(月) 07:55:05.14ID:C7pw6n1T
>>459
>【数学の大学入試問題、被りすぎやろ(2017年入試)】

入試数学はパターンが非常に限られているので、丹念に人力インプットするだけでもいい。
2016年の東ロボのような時代遅れの統計的機械翻訳でも偏差値76.2を記録しまのだから。
0981デフォルトの名無しさん
垢版 |
2018/09/17(月) 07:58:55.56ID:C7pw6n1T
>>966
>「でも、『絶対に』というのは、『例外なく』という意味ですよね?」

例外は例外として、人力でインプットするしかないと思う。
0983デフォルトの名無しさん
垢版 |
2018/09/17(月) 08:22:21.34ID:rTQuL7Ni
新スレを立てようと思ったら、なんかのNGワードで
引っかかってんだが、どこで引っかかってんのか判らん。
(自然言語処理をやってる人間がなんてざまだ (-_-!))
とりあえず誰か

自然言語処理スレッド その5
このスレッドでは、おもに日本語の構文解析・談話理解・情報検索・
文章生成などの、実装とそれに付帯する技術および理論について
扱いたいと思っています。

で立てといてくれ。
0984デフォルトの名無しさん
垢版 |
2018/09/17(月) 08:38:07.68ID:C7pw6n1T
>>967
>人間がどう解釈するかっていうのは、けっきょく人間の都合じゃねぇの?

『1秒ごとに』という日本語もねーーーwww

y=9.8x(m/秒)の解釈が『1秒ごとに秒速9.8メートルずつ速度が上がる』というのは数学を持ち出すまで
もなく物理的におかしいでしょう。そんな奇妙な加速をしながら落下する玉を私は見たことがありません。
この本は中高生向けの本なのですが、読解力のある中高生はこの文章を読むと間違った知識を手に入れることになります。
なんとなく『1秒ごとに秒速9.8メートルずつ速度が上がる玉』が、どのような動きなのか気になったので
以下にプログラムを書いてみました。新井紀子教授の世界(Norico’s World)を私たちの世界
(Our World)と合わせてご覧ください。
https://mywarstory.tokyo/nerd-sanctuary/
0985デフォルトの名無しさん
垢版 |
2018/09/17(月) 08:50:41.35ID:rTQuL7Ni
>>977
古典的なところでは、積木の世界をターゲットにした
SHRDLUがある。とはいえ、自然言語処理が
人工知能のサブジャンルであるとしても、
自動車の自動運転技術とかが別にあるので
別々に開発して統合するというのも
ひとつの方法だと思う。

ゲームとしての面白さを追求するなら、
人工知能を搭載した軍艦と戦車と航空隊を
日本語で統制するとかいったシミュレーション・
ウォーゲームとかがいいんじゃないだろうか?
「アンノウンは警告に応答しない。依然高度を
下げつつ南下中。火器使用の許可を願う。送れ」
「火器の使用を許可する。送れ」
みたいなのはイケると思う。
「ばかもん。俺のケツを舐めろ」とか、
ぜってー誰かやりそうだが。
0986デフォルトの名無しさん
垢版 |
2018/09/17(月) 09:08:02.28ID:rTQuL7Ni
>>984
> y=9.8x(m/秒)の解釈が『1秒ごとに秒速9.8メートルづつ
> 速度が上がる』という
物理を齧った奴だったら、「v=gt (SI 単位系。g ≒ 9.80665 m/sec^2)」
と書いてほしいだろうし、一目見て「真空中の自由落下だろうけど、
どのくらいの規模と精度を考えてるんだろうか?」と考えるだろう。
コンピュータに物理学や力学のセンスを持たせるためにも、
「われわれ人間にとっての “自明性” の正体ってなんだろう?」という
点について掘り下げる必要があると思う。おれなんかは高機能自閉だから、
そういう意味では人生のうちの多くを「自分の行動を妨げる壁」としての
「自明性との闘い」に費やしているので、自然言語処理の研究者に
向いてるっちゃあ向いてると思っているが。
0987デフォルトの名無しさん
垢版 |
2018/09/17(月) 09:47:54.36ID:Ep0iz6P/
>>986
>そういう意味では人生のうちの多くを「自分の行動を妨げる壁」としての
>「自明性との闘い」に費やしているので、自然言語処理の研究者に
>向いてるっちゃあ向いてると思っているが。

けれども学会のお偉方というのは、僕らのような無名人の相手は殆どしない。

>>719
>それが学会で評価されると信じるのは、「いつか王子様が」
>みたいなファンタジーでしかない。

死期になったら辞世の句を添えて自費出版、評価されるのは死後でいい。
0988Mr.Moto
垢版 |
2018/09/17(月) 11:51:32.81ID:rTQuL7Ni
次スレ
『自然言語処理スレッド その5』
(ttps://mevius.5ch.net/test/read.cgi/tech/1537152490/)

>>983
「立った! クララが立った!」
0989Mr.Moto
垢版 |
2018/09/17(月) 12:02:40.21ID:rTQuL7Ni
>>987
そういえば、自然言語処理と(形態素解析レベルの)国文法の
両方の話ができる学会って、どっかにあるんだろうか。
自然言語処理関係の学会で国文法関連の話をすると、あからさまに
厭な顔をされる。
さりとて国文法関連の学会で自然言語処理関連の話をすると、
みなさん逃げ腰になる。

かといって、現代国語の文法を教えている中学校の教諭や、
文語文法を教えている高校の教諭は、「文法」と聞いただけで
面相と顔色が変わるので、教育関係(国語強意kとコンピュータ・
リテラシーとか)関連の学会からも歓迎されないらしい。

だれか、「こういう集まりがあるぞ?」という心当たりのある
方はいらっしゃらないか?

まぁ、おれみたいな強面のおっさんと顔を合わせたくない奴は
多いだろうが、Maria もいるこったし、「お前は出てくんな」と
言われたら、なるべく出てこないようにするが、どうか。
0990Mr.Moto
垢版 |
2018/09/17(月) 12:10:13.61ID:rTQuL7Ni
>>989
『言語処理学会』
http://www.anlp.jp/)って、
ぶっちゃけ どんな雰囲気なの?
だれか関係してる人っている?
0991Maria
垢版 |
2018/09/17(月) 12:19:11.59ID:rTQuL7Ni
つーか、『自然言語処理学会』っていうのがあるらしいんだけど、
『言語処理学会』と URL が一緒なのよね。
で、国語学に関しては、『計量国語学会』
(ttp://www.math-ling.org/)っていうのがあるらしいんだけど、
どんな雰囲気なの? だれか知ってる人っている?
0992デフォルトの名無しさん
垢版 |
2018/09/17(月) 12:22:43.11ID:rTQuL7Ni
>>987
> 死期になったら辞世の句を添えて自費出版、評価されるのは死後でいい。
おれが死ぬまで待ってたら、おれが死ぬまで待ってなきゃいけない
奴が出るだろうがよ。
おれも目の黒いうちに成果を見届けたいし、
視覚障害者・聴覚障害者の方々は、
一刻も早く対処してほしいと思ってるんだよ。
だろ?
0993デフォルトの名無しさん
垢版 |
2018/09/17(月) 12:36:42.80ID:rTQuL7Ni
>>987
> けれども学会のお偉方というのは、僕らのような
> 無名人の相手は殆どしない。
意外にそうでもない(まぁ、創価学会とかだと別かもしれんが)。
日本ソフトウェア科学会の総会に出たら、委任状が集まんなくて
「総会が成立しない」というので大騒動になったことがあって、
隣でニヤニヤしながら懇親会用のビールを飲んでいるオッサンが
いたので、よく見たら渕 一博先生だったことがある。
「ロジック・プログラミング・コンファレンス」の大会に行ったら、
隣で「痛たたたたた」と苦しんでいるジイサンがいたので、「大丈夫ですか?」
と訊いたら、「いや、今年の大雪で、大学の敷地内で転んで大腿骨を骨折
しまして」とおっしゃるので「元気なジジイだな」と思いつつも「何かあったら
おっしゃってくださいね」と言ったら、「私、こういう者です」という名刺を出されて
見たら一松 信先生 m(_ _)m
本当に偉いジジババは、生い先短いから、面白いネタに貪欲なんだと思う。
「ザコに構ってる暇がない」んであって、本当に面白いネタを持ってくか
どうかだと思う。
0994デフォルトの名無しさん
垢版 |
2018/09/17(月) 12:40:14.13ID:rTQuL7Ni
>>981
> 例外は例外として、人力でインプットするしかないと思う。
例外を認めたら論理が破綻するので、
「人力でインプットする」ことを認めちゃダメだと思う。
0995デフォルトの名無しさん
垢版 |
2018/09/17(月) 14:13:45.42ID:rTQuL7Ni
>>944
> 「人力でインプットする」ことを認めちゃダメだと思う。
つーか、「入力」と「インプット」は同義語なんで、
本来は「人力でインプットする」は冗語なのだ、と思う。

とはいえ、「情報」と「データ」の違いについて
理解していない人が多いので、「通じない言語は
言語としての意味があるのか?」という疑問を
感じた。
0996デフォルトの名無しさん
垢版 |
2018/09/17(月) 14:39:38.35ID:rTQuL7Ni
>>976
共起関係つーか連接関係については
某企業で科研費を貰っているというので
成果を上げないとヤヴァイ、というので
尻拭いで やったことがあるが、
担当者が相関表を読めなかったので
「ここに相関が出てるじゃねぇか (w」と
指摘したら取締役兼部長に嫌われて
首馘(くび)になった。

別の会社で、「論文どうしの相関に基いて、
類似した論文を検索したい」という要求が
(特に名を秘す、某)日本産婦人学会(仮名。
実在する学会等とは関係ありません)と
(特に名を秘す、某)日本脊椎脊髄病学会(仮名。
実在する学会等とは関係ありません)
から「なんとかならんか?」という話があって、
「共起関係に基づく相関について分析すると、
ありもののツールで構築すれば なんとかなりますけど、
シソーラスとか いろいろ作らなきゃいけないので、実工数
ベースで三百万円、エンドユーザを対象に一からアプリケーション
を作るのを商売でやるんだったら、千五百万円くらい貰わないと、
こっちがペイしません」と正直に答えた。

そうしたら、お客さんが「他所でも同じことを言われたが、
向こうは五千万と言ってた」と、ボソッと言ってたという。

その後の経緯については、おれは馘首になったので知らない。
0997デフォルトの名無しさん
垢版 |
2018/09/17(月) 14:49:32.06ID:rTQuL7Ni
>>966
> 「立った! クララが立った!」
どこかの動物園で、コビトカバの雌が生まれたので、
名前を公募したところ、ダントツ(「断然トップ」の略)で
「クララ」と命名されたという話がある。

そんなわけで、日本と日本語は、とうぶん大丈夫だと思っている。

「クララのカバッ!」
読み筋は、『アルプスの少女ハイジ』。
0998Maria
垢版 |
2018/09/17(月) 15:10:53.47ID:rTQuL7Ni
>>282
> (x,y,z)=(主語,述語,目的語)で、出現頻度の多い順に並べる、
> あるいは少ない順に並べる。高頻度のトリプルがやたら多いと
> いうことは、
> 逆に言えば他と似たり寄ったりでつまらないコンテンツである
> 可能性が高い。出現頻度の少ない組み合わせは、オリジナル表現か
> あるいはナンセンス文かのどちらか。
に関してコメントしておくと、これは
(v, s, o, c) =(述語、主格、目的格, 与格)
くらいにしておくのが順当だと思われます。
述語がないと文にならないし、
「れる・られる」が入ってくると、主語と目的語の
交替が起きたりします。
方向格とか到達格とかいうのが あるのか、という問題は
あると思うんですけど、とりあえず、「なくても困らないんじゃないか」
という意見はあります。
0999デフォルトの名無しさん
垢版 |
2018/09/17(月) 17:04:14.73ID:rTQuL7Ni
『言語処理学会』とか『計量国語学会』とか、
入会したほうがいいのかなぁ。
いちおう論文のネタになるような話は
いくつかあるんだが。
1000Maria
垢版 |
2018/09/17(月) 17:10:32.28ID:rTQuL7Ni
「四段活用 h 行音末尾動詞」は、
h 音の消失によって a/o/u 音が指標になったとか、
形態素解析は(本来は構文解析の手法として知られている)
チャート法で、かなりの精度で行えるとか、
五段活用 n 行音末尾動詞は、「死ぬ」「去(い)ぬ」
以外に見当たらないとか、
「来る」「する」以外に、「言う」「行く」および
「乞う/請う」「問う」という不規則活用動詞(変格
活用動詞)があるとか、いろいろあるんですけどね?
10011001
垢版 |
Over 1000Thread
このスレッドは1000を超えました。
新しいスレッドを立ててください。
life time: 1567日 11時間 30分 32秒
10021002
垢版 |
Over 1000Thread
5ちゃんねるの運営はプレミアム会員の皆さまに支えられています。
運営にご協力お願いいたします。


───────────────────
《プレミアム会員の主な特典》
★ 5ちゃんねる専用ブラウザからの広告除去
★ 5ちゃんねるの過去ログを取得
★ 書き込み規制の緩和
───────────────────

会員登録には個人情報は一切必要ありません。
月300円から匿名でご購入いただけます。

▼ プレミアム会員登録はこちら ▼
https://premium.5ch.net/

▼ 浪人ログインはこちら ▼
https://login.5ch.net/login.php
レス数が1000を超えています。これ以上書き込みはできません。

ニューススポーツなんでも実況