自然言語処理スレッド その4

■ このスレッドは過去ログ倉庫に格納されています
1デフォルトの名無しさん
垢版 |
2014/06/03(火) 05:40:00.54ID:yefNLumx
前前スレ 自然言語処理スレッド その2
http://mimizun.com/log/2ch/tech/1173105287/
前スレ 自然言語処理スレッド その3
http://mimizun.com/log/2ch/tech/1235129481/

このスレッドでは、日本語の構文解析、談話理解、情報検索、
文章生成などの技術に関する理論と(おもに)実装を扱います。
あくまでアプリケーションプログラミングの技術的な面に重点をおきたいので、
学術的な話はアリですが、いわゆる人工無能や哲学的AI話、
言語学の話題などは他のスレッドでお願いします。
2018/07/30(月) 12:41:04.42ID:ArBfASRB
>>635
つーか、JUMAN と ほぼ同時期に開発したシステムだから、
茶筅とか MeCab とかは、はなから使ったことがないのよ。
unix 環境なんて、手近になかったからね。初代は PC-98 とかで
動かしてたらしい。
当初、辞書をフロッピーディスクに置いといたら、やたら
カッチャンカッチャンとアクセスするので、「ドライブが
壊れるかと思った」てな話を聞いた。で、その後「RAM
ドライブ」っちゅーのが出て、384 Kb くらいの「マシンから
見るとドライブだけど、じつはメモリ空間」っつーのができて、
そのあたりの心配はなくなった。
で、その後 IBM-PC 互換機ができてメモリ空間が広がったんで
普通に実メモリ空間に置いて、アスキーの出版技術部の
TEX のチームの前でデモしたら、「それで?」と言われたそうだ。
あんまり処理が速かったんで、ただファイルを出力してただけだと
思われていた、というオチがついている。
2018/07/30(月) 12:41:58.32ID:ArBfASRB
>>636
なんで知ってんだ?
639デフォルトの名無しさん
垢版 |
2018/07/30(月) 12:42:57.61ID:fs6nfZiK
文体と興味が特徴的すぎる
2018/07/30(月) 12:49:03.23ID:ArBfASRB
>>639
そっちか。rStone とか『bit』とかを知ってる
古い世代かと思った。
641デフォルトの名無しさん
垢版 |
2018/07/30(月) 18:23:05.86ID:fs6nfZiK
たまごとかの世代ですが何か?
642Mr.Moto
垢版 |
2018/07/30(月) 19:38:47.79ID:ArBfASRB
>>641
じゃあ、Wnn(「私の名前は中野です」) あたりは知ってるんだ。
おれらは VJE-Pen(VJE-β)とか「ことえり」とか Wnn とか
よりちょっと遅れた時代だ。rStone-JE は、JAI-Perser の、
>>632 の(1)を実装してる。
(2)は、自動ルビ振り/自動点訳システム「紅玉(Ruby)」に実装
したんだが、まつもとゆきひろさんの「Ruby」が流行っちゃったので
あんまり有名にならなかった。
643Mr.Moto
垢版 |
2018/07/30(月) 21:22:57.38ID:ArBfASRB
たいへん・またせて・ごめんなさい
644Mr.Moto
垢版 |
2018/07/30(月) 21:25:45.64ID:ArBfASRB
「くるまでまつ」
「はくさいやだいこんなどのやさいが」
「やまのうえにはながさきました」

懐かしいのぅ。
645Mr.Moto
垢版 |
2018/07/30(月) 21:29:31.72ID:ArBfASRB
今は、
「長く庄内平野を転々としながらも私は肘折の渓谷に分け入るまで
月山がなぜ月の山と云われるのかを知りませんでした」
を、一発で構文解析できるシステムをインプリメントしようと
思案中。
646Mr.Moto
垢版 |
2018/08/02(木) 17:06:15.29ID:qDXNPl4s
スレが止まってるのが気にくわんなぁ。
せっかくの夏休みなのに、
喧嘩売ってくるとか、
質問してくるとか、
なんかスレを伸ばすような話題はないのか?
自然言語処理をやってる研究室は何をやっとるんだ?
2018/08/03(金) 10:26:42.91ID:G5/K3zuO
昔のソースを発掘したのはいいが、
なにせ量が多すぎて頭を抱えている。
辞書管理とかとツールが多いんだよなぁ ……
やっぱり日本語処理システムの開発は、
ある程度頭数が揃ってないとしんどいわ。
648デフォルトの名無しさん
垢版 |
2018/08/03(金) 12:24:06.18ID:zviFVEVF
githubで公開すれば?
2018/08/03(金) 15:27:48.96ID:G5/K3zuO
>>648
昔のソースなんで、恥ずいからやだ。
だいたい、Tomcat 上で SubVirsion 使ってソースは公開してたのに、
ずっと無視されてたから知ったこっちゃない。
2018/08/03(金) 21:12:14.93ID:7Jwc2PzI
自分から閉ざしちゃいかん
651Mr.Moto
垢版 |
2018/08/04(土) 09:55:56.28ID:Ply8bxep
>>650
わかった。努力する。
652Mr.Moto
垢版 |
2018/08/06(月) 06:44:57.20ID:C/D04uYr
スキーマと辞書の扱いを、どうすりゃいいのかな?
A)田中は台所でカップ焼きそばを作っている。
B)田中は工場でカップ焼きそばを作っている。
があって、
C)田中は栃木でカップ焼きそばを作っている。
は、どう解釈するか、っちゅーのが問題なんだが。
653Mr.Moto
垢版 |
2018/08/06(月) 13:59:40.47ID:C/D04uYr
漢字二字熟語で置きかえるというのはひとつの手段ではあるのだが、
A)田中は台所でカップ焼きそばを作っている。
→田中は台所でカップ焼きそばを調理している。
B)田中は工場でカップ焼きそばを作っている。
→製造している/開発している。
くらいはOKとして、
「子供を作っている」とか「家庭を作っている」とか
いうのは、なかなか説明しづらいものがあるように思う。
2018/08/07(火) 09:52:26.98ID:kx2eUWnl
昔ながらの方法だな
いずれ収拾がつかなくなるだろう
2018/08/07(火) 12:45:26.68ID:DcjP7j/S
>>654
昨今は どんなのが流行りなんだ?
多世界解釈とか言われても困るぞ?
656Mr.Moto
垢版 |
2018/08/07(火) 19:12:08.68ID:DcjP7j/S
かなり昔の話だが、
『ぼんさんがへをこいた』というパソコンの
ソフトがあった。

今日、近所のローソンへ行ったら、なんかしら
レジのところに『おいしいおでんのつくり方』という
のが置いてあって、「これって書籍ですか? それとも
店内のマニュアルですか?」と訊いたら、「あ、これは
店内用のマニュアルです」という返答だった。

「おいしいおでんのつくり方」をコンピュータに説明できるか、
というのは、けっこうテーマになりそうに思う。
2018/08/07(火) 19:49:55.57ID:UzMr++cp
つまなさう
658Mr.Moto
垢版 |
2018/08/07(火) 20:07:35.64ID:DcjP7j/S
>>657
と、いうことは、おまえは「田楽芋」が「おでん」になった経緯を
説明できる自然言語インターフェースを備えた知識ベースシステムを
すでに実装して運用してるということだな?
2018/08/08(水) 08:24:21.25ID:P8peofBj
知識ベースに疑問を持てよ
660Mr.Moto
垢版 |
2018/08/08(水) 13:13:47.75ID:l+OzLrq9
>>659
知識ベース=プロダクション・システムという
昨今の決めつけには疑問を持ってる。
とはいえ、様相論理とかフレーム理論とか、
そのあたりを取り込みゃあうまくいくかというと、
そうでもなさそうな気はする。
なんか、そこいらを統合するコンセプトが
ありそうな気はするんだが、おれには今のところ
思いつかない。
2018/08/08(水) 20:15:37.89ID:DgDhxyY4
正直でよろしい
662Mr.Moto
垢版 |
2018/08/08(水) 21:46:41.52ID:l+OzLrq9
>>661
おまいも上から目線でコメすだけじゃなくて、
なんか具体的な意見出せや
663デフォルトの名無しさん
垢版 |
2018/08/09(木) 12:51:14.04ID:a88nmHyC
このスレさあ、最近俺とお前しか書き込んでないよ
664デフォルトの名無しさん
垢版 |
2018/08/09(木) 12:56:18.84ID:NXkdt6vr
ごみん
665Mr.Moto
垢版 |
2018/08/09(木) 22:08:36.40ID:RMQfHlDH
形態素解析って、流行ってねぇんだなぁ ……
真面目にやると面白いんだけどな。
666Mr.Moto
垢版 |
2018/08/09(木) 22:15:20.21ID:RMQfHlDH
そういやぁ「三階」を「さんがい」って言う奴はいるけど、
「三回」は「さんかい」なんだよな。
そういうのって自然言語処理の世界で真面目に研究してる
奴っておるんかな?
AI も方言でインタフェースが成立すりゃあ可愛げがあるのに。
667デフォルトの名無しさん
垢版 |
2018/08/10(金) 10:58:25.21ID:x87YEa9j
>>666
言語学ではそういう感じの論文はよくあるよね。
668Mr.Moto
垢版 |
2018/08/10(金) 15:24:14.22ID:a1LHeoak
>>667
あるのか!
繰返しになるが、人間って、文法というものを所与のものとして
受入れているので、「形態素解析でイレギュラーなものを拾う」
っていうのは、けっこう困難なんだよ。
だけど、メジャーな形態素解析システムって、そういうのを
スクリーニングするようにできてないので、インターネット
のおかげで言語データが大量にあるのに、そういう例外を
掬うのって、なかなか手段がないんだよ。
昨今のパーソナルコンピュータは、そういうのに使えるだけの
性能を持ってるのに、研究者がそういうツールを使いこなせない、
っていうのは(研究者に対して言ってんじゃなく、サポートする
体制のほうに言ってんだが)イカンと思う。
2018/08/10(金) 15:41:04.46ID:XouIcNJM
最近の研究に触れてないの?
670Maria
垢版 |
2018/08/10(金) 15:54:03.82ID:a1LHeoak
>>669
研究者が、あらかた、意味論とかそっちの方に逃げちゃってるので、
記述文法とかの話になると、誰も相手をしてくれないんだよねー。
昔は大修館の『言語』の『言語空間』で、国広哲弥先生とガチのバトルとか
してたんだけどねー。
「相撲好き」っていうのかなぁ? がっぷり四つに組んで、「おまえの
底力を見せてみろ!」みたいなヒトって、最近は見ないでしょう?
671デフォルトの名無しさん
垢版 |
2018/08/11(土) 20:51:29.75ID:lNetj8kV
ところでだ。「チンボがシコシコする」という日本語表現は、文法的に正しいのか?

チンボ「を」シコシコするのではなくて、チンボ「が」シコシコする。この場合、「チンボ」は主語となる。

オブジェクト指向で言う「集約」は2種類あって、全体(俺)と部分(チンボ)が繋がっている場合と、
全体(俺)と部分(チンボ)が別々になっている場合とが考えられる。けれども「チンボ」はそれ自体
が独立した生き物であり、所有者の意思とは無関係に、勃起して「シコシコする」。
例えば寝てる時にエロい夢みて朝起きてみたらチンコが勃起して射精してたとか。

違うか?

「頭がズキズキする」は良いが、「チンボがシコシコする」はダメな理由を、50字以内で述べろ!>>98
2018/08/11(土) 21:00:32.98ID:vW2Ha+vq
>>671
チンボがシクシクする

なら、ありだと思います
673Mr.Moto
垢版 |
2018/08/11(土) 21:23:15.94ID:Rp7CVdHg
>>671
それは運用論の話だな。たしか
城生 佰太郎『言語学は科学である ―「象ガ国会デ宿題ヲ忘レル」
不思議への招待』で「なぜ『元祖ゴキブリラーメン』がないのか?」
みたいな話で論考してたと思う。
674Maria
垢版 |
2018/08/11(土) 21:31:55.39ID:Rp7CVdHg
>>671
あんた、どっかの大学の自然言語処理系の研究室から、鉄砲玉として
送り込まれてきたんだろうけどさぁ、命(タマ)ぁ獲れなかったら、
どういう目に遭うか、覚悟はできてるんだよね?
逃げるんじゃないわよぉ? ほら、こっちはいくらでも
相手になろうって言ってるのよ?
2018/08/11(土) 21:38:52.01ID:vW2Ha+vq
>>674
戯言はいいから、はやく!
676Maria
垢版 |
2018/08/11(土) 22:01:16.57ID:Rp7CVdHg
>>675
だから、質問しなさいって言ってるのよ。
仁義切って、啖呵切って、勝負はそれからでしょう?
「お控えなすって」
「早速のお控え、ありがとうござんす。手前、生国は …」
から始めるのが仁義でしょう?
せめて、どんな研究してて、どういう分野に興味があって、
どういう点に疑問やら反論やらがあるのか、
はっきりしなさいよ!
どこの所属とかは訊かないけどさ、
「この分野だったらおれのほうが上だ!
白黒つけてやるから勝負しろ!」くらいの
勢いでかかってきなさいよ。
2018/08/11(土) 22:02:45.90ID:8JECWN+f
「シコシコ」は対象と他の物体の摩擦を表す擬音。
「ズキズキ」は対象が発してる状態の擬音。
よって対象そのものについて述べるのに
外部要因がある「シコシコ」を使うのは適切じゃない。





つまり50文字で纏めると

全く自然言語処理をやってないプログラマですが
いつも楽しく拝見しています
ところでスレチじゃないですかね

となる
678Maria
垢版 |
2018/08/11(土) 22:28:42.02ID:Rp7CVdHg
>>677
あー、こういう方がいらっしゃって下さると、
ありがたいわー。

「背中がヒリヒリする」とか「喉がイガイガする」とかは、
内部なのか外部なのかが判然としないけど、「シコシコ」は
内部化がしにくい、っていうコトですよね?
とはいえ、肩凝りなんかだと、「僧帽筋と菱形筋と最長筋が
“シコシコ”してるんですよ」とかいう表現は、運用上は“あり”だと
思うわけです。

となると、これは自然言語処理というよりも、意味論のほうの
話になると思うんですよ。

「できる」の命令形「できろ」は、文法上は禁止されていませんが、
運用上は「それ、無理でしょ?」っていう話になってしまいます。
それと同じことだと思うんですよ。
679デフォルトの名無しさん
垢版 |
2018/08/12(日) 02:28:21.41ID:/WZyCUyT
>>671
(´・ω・`)頭は自分の意思とは関係なくズキズキするから「が」
(´・ω・`)ちんぽは自分の意思でシコシコするから「を」
自分の意思かどうかで主語が変わる
2018/08/12(日) 02:58:57.41ID:jpwoxOLr
最近気になるのは、DVDが発売する、だな
2018/08/12(日) 09:56:42.76ID:ULAI4zx4
>>680
> 最近気になるのは、DVDが発売する、だな
それは「DVD が発売される」じゃなくってか?
たしかに「DVD が出る」みたいな表現はあるから
なんかしらの説明はあるのかもしれんけど。
強いていえば「DVD を発売する」の「DVD」が
強調されて「DVD “が” 発売する」になった、
あたりかな? そうでなければ「発売する」に
自発の意味がある、という解釈だな。
682Mr.Moto
垢版 |
2018/08/12(日) 10:29:17.36ID:ULAI4zx4
「おいしいおでんの作り方」と
「おでんをおいしく作る方法」は
意味がほぼ同じであるように見えるのに、
文構造がかなり違う (-_-!)
どこかに「食べる」が省略されているとでも
考えないといかんのか? 食べなかったら
「おいしい」というのが判断できないわけだから。
「(食べて)おいしいおでんの作り方」はともかく、
「おでんをおいしく作る方法」は、ちょっと
珍しい形の転置が起きた結果、文の構造が
見えにくくなっている感じがする。
「おいしく食べられるおでんが作れる方法」を
どうひねくったら「おでんをおいしく作る方法」に
なるのかがわからん。
683Mr.Moto
垢版 |
2018/08/12(日) 12:47:07.64ID:ULAI4zx4
>>682
ようやく解ってきた。
述語にかかる句には、
「文法格をもつ句」(主語とか目的語とか)と、
「修飾句」(「さっぱり」「あっさり」「粛々と」)と、
「相」(「夏に」「谷川岳で」)があるという分類が
立っているのだが、いわゆる「具格」は、文法格ではなくて
相であり、体言が述語にかかるときに「で」が附属するので
あって、「で」は「具格を表す格助詞」ではないっちゅー
コトなんだな?
文法格がないんで、述語に対する一意性もないわけで、
「〜で〜で」みたいなのもアリ(なかなか実例が
示せないんだが)なんだと思う。
「鶏は鍋でおろし醤油で食うのが好きだ」の場合、
「鍋」と「おろし醤油」が助詞「で」によって
述語「食う」に係っているわけで、これを
「鶏は鍋と おろし醤油で食うのが好きだ」とすると
語感がおかしくなる。そう考えると、
「方法」というのは、「場所」や「時刻」「季節」と
同じように、「相」であると考えたほうが、
動詞の型分けがすっきりしそうだ。
684デフォルトの名無しさん
垢版 |
2018/08/12(日) 17:57:06.47ID:PIG+WPz5
おいしいおでんの作り方=how to make おいしい おでん
「おいしい」は「おでん」に対する修飾語

おでんをおいしく作る方法=how to make おでん (to be) おいしい
「おいしい」は「おでん」に対する述語

「おいしく作る」は「穴を掘る」と同じように考えればよく
「食べる」が省略されているなどと考える必要はない。
685Mr.Moto
垢版 |
2018/08/12(日) 18:01:52.82ID:ULAI4zx4
>>684
よし、解った。
「鮟鱇は土鍋で出汁で煮る」はオッケーだが、「土鍋と出汁で煮る」は NG。
「鮟鱇は土鍋でかえしと出汁で煮る」もオッケー。
「鮟鱇は土鍋でかえしと出汁で強火で煮る」もオッケー。

つーことは、具格は文法格ではないから、なんかしら別の呼び名を
立てたほうがいい、っちゅーこっちゃね。するってぇと「具相」とかに
なるのかな。
686Mr.Moto
垢版 |
2018/08/12(日) 18:18:00.76ID:ULAI4zx4
>>684
> 「おいしい」は「おでん」に対する述語
なるほど。そこへ来たか。
確かに文語では形容詞は述語になる(終止形もある)
よなぁ。
うん。反論を考えてみる。
687Mr.Moto
垢版 |
2018/08/12(日) 18:35:32.47ID:ULAI4zx4
>>684
> おでんをおいしく作る方法=how to make おでん (to be) おいしい
うん。
ひょっとしたら、The way of make おいしい おでん
みたいな脳内変換が行なわれているかもしれない、という
可能性を考慮する必要はあるだろうな、と思っている。

強調転置は、とりたて詞「は」「が」を “常に” 伴うと、ずっと
思っていたので、「を」がそのまま使われて
強調転置が行なわれる、というケースを考えていなかった。
やっぱり、形態素解析 “だけ” を考えて自然言語処理を
行なおうとすると、どっかしらに無理がくるということか。
688Mr.Moto
垢版 |
2018/08/12(日) 18:41:17.81ID:ULAI4zx4
>>687
「The way of make」とか書いたらダメだな(^_^;)。
俗語・口語に慣れちゃってるんで、気づかなかった。
「The way of to make」とか「The way of how to make」
とか書かないと、英語教師には叱られそうだ。
689デフォルトの名無しさん
垢版 |
2018/08/13(月) 16:13:26.37ID:obMX332h
666
読みで揺らいでるけど
「依存」は「いぞん」がいつのまにか「いそん」に変わってしまった
「マスゴミ」は「マスコミュ」
でないといけない
690684
垢版 |
2018/08/13(月) 17:13:57.48ID:GO6p/lGf
> Mr.Moto

> 「おいしく作る」は「穴を掘る」と同じように考えればよく
と書いたこちらの意図がまったく伝わっていないようだが。
穴を掘る、湯を沸かすなどと同じく、ただの結果を先取りした表現。
「壁を白く塗る」と同じといってもよい。
691Mr.Moto
垢版 |
2018/08/13(月) 17:28:37.19ID:AihWjEg3
>>690
おれは、形容詞は(暗黙の)主語を要求するという点に着目した。
「おいしいおでん」の「おいしい」の主語は、「そのコンビニの店員」
ではなくて、「そのコンビニの系列の店で、リピーターになってくださる
お客様」だと思うんだよ。
ペットショップでミジンコとかコオロギとかゴキブリとか
冷凍のヌードマウスを買ってくお客さんが、「おいしい」っていうのは
また別な意味だろう?
プロの料理人が言ってたけど、「うまみ調味料は、半分までだったら
バレないけど、肝心な出汁の味がマスクされちゃうので、味がブレた
ときに、しかたなく使う」「塩味は、ギリギリまで強くすりゃあ、
客は『うまい』って言ってくれるんだけど、外で食うなら
ともかく、家で毎日食うんだったら、『ちょっと物足りない』
くらいが普通」だそうだ。
692Maria
垢版 |
2018/08/13(月) 17:30:28.58ID:AihWjEg3
>>689
それ言ったら、「寄贈」だって「きぞう」じゃなくて「きそう」でしょ?
693Maria
垢版 |
2018/08/13(月) 17:41:26.57ID:AihWjEg3
>>689
正確にいうと、「いそん」が正で、「いぞん」は “百姓読み” と
呼ばれる俗語の訓なのよねー。
「マスゴミ」も、「マス・コミュネーション」+「ゴミクズ」
の合成語であって、「マス・コミュネーション」=「マスゴミ」では
ないんですよ。「ミニコミ」⇔「マスコミ」っていう対義語関係も
あるしね。
2018/08/13(月) 20:20:51.00ID:AihWjEg3
>>693
×マス・コミュネーション
〇マス・コミュニケーション

失礼いたしました m(_ _)m
2018/08/15(水) 01:38:57.48ID:zh9hArng
>>689
君は存在をぞんざいと読むのかね?
696Maria
垢版 |
2018/08/15(水) 10:39:21.70ID:vp8/ud0K
>>695
「ぞんさい」と「そんさい」はあるかもしれない。
「無人島」も、「むにんとう」「ぶにんとう」「むじんとう」
の訓があるわけだし。小笠原には「ムニンノボタン」が
生えているし、英語だと「ぶにんとう」→「ボーニン・アイランド」だし。
2018/08/15(水) 14:37:14.24ID:ai0gypJB
理屈っぽさと独創的なプログラミングスキルには負の相関がある、
と誰かが言ってたな
理屈こねて長文レスしまくってる人はもうプログラミングやめた方がいいかも
698Mr.Moto
垢版 |
2018/08/15(水) 16:21:40.83ID:vp8/ud0K
>>697
ご意見はありがたく拝聴しておくが、
「じゃあ、おまえはどんなプログラムを書いたんだ?」と
質問しておこう。
せめて、まともな理屈くらいこねてくれ。
699デフォルトの名無しさん
垢版 |
2018/08/16(木) 04:30:16.20ID:Wl8UzWlX
>>679
>ちんぽは自分の意思でシコシコするから

ならオシッコを我慢するときは?
700デフォルトの名無しさん
垢版 |
2018/08/16(木) 04:33:08.06ID:Wl8UzWlX
>>496
>テレビゲームのような仮想世界をインプットして、

人体というのは宇宙のように広大で、コンピューターには入り切らないぞ?

>>485
>CycはFredがひげをそっている間、Fredはそれでも人間なのかと尋ねた。

人間の動作というのはそれだけ複雑だってことだな。
2018/08/16(木) 09:58:38.18ID:odc/xF8f
>>700
SF だけど、『未来の二つの顔』でやってたな。
星野之宣さんのマンガでやってたけど、
仮想空間の中でコンピュータに目玉焼を作らせようと
したら、フライパンの中に割らずに卵を載せて
しまうとか …。
で、「これは、やっぱり実際の空間の中でやんなきゃ
ダメだ!」っつーんで、コンピュータ制御の戦闘用ドローンと
武器を持った人間が、宇宙ステーションの中で
ドンパチをやるという話。
2018/08/16(木) 10:03:34.87ID:odc/xF8f
自然言語処理と関係なくなっちゃいそうだから、
それっぽいものも足しておこう。
『2001:宇宙のオデッセイ』
『ヴァレンティーナ』
『月は無慈悲な夜の女王』
『ウォー・ゲーム』(映画)
『ノーラの方舟』
『アメリカの黒船』(笑)
2018/08/16(木) 13:54:12.85ID:odc/xF8f
>>703
×『アメリカの黒船』
〇『マンハッタンの黒船』
諸星大二郎。「デモクラシー・マシン」という、
国民に端子を埋め込んでおいて、その測定値を
もとに、コンピュータが政策決定をするという話。
あれ読んどくと、幕末史がかなりよくわかる。
ついでに、『ゴースト・バスターズ2』を観ると、
けっこう笑える。

こう、どうしようもなく暑いと「ドンマイ・ダンス」(=ええじゃないか)を
踊りたくなるよなぁ。川原泉も『笑う大天使(ミカエル)』で、
ウルトラマンと鉄腕アトムと超人ロックにドンマイ・ダンスを
踊らせてたし。
704デフォルトの名無しさん
垢版 |
2018/08/16(木) 18:48:54.08ID:zg++OkBY
>>699
腹筋運動で腹に力を入れるってのと同じ。
705デフォルトの名無しさん
垢版 |
2018/08/16(木) 18:52:01.50ID:zg++OkBY
>>701
>フライパンの中に割らずに卵を載せてしまうとか …。

ゆでたまごとは違うからなあ。
706デフォルトの名無しさん
垢版 |
2018/08/16(木) 18:55:36.47ID:y4swezJj
>>704
ゲロ吐くときも腹に力を入れるけどな。
2018/08/17(金) 10:03:25.37ID:gqiCzic7
日本語処理をやってて困るのは、
「葱」を「ネギ」と訓むと気持が悪く、
「キ」と訓みたくなることと、
「タマネギ」を漢字で書くときに、
「玉葱」ではなく「玉根葱」と
書きたくなることだな。
708デフォルトの名無しさん
垢版 |
2018/08/17(金) 10:24:20.58ID:7A6IqWlB
>>699
オシッコの時とオナニーの時とでは、役割が全然違う。
709デフォルトの名無しさん
垢版 |
2018/08/17(金) 14:08:30.32ID:gqiCzic7
>>708
今はただ 小便だけの 道具かな
710デフォルトの名無しさん
垢版 |
2018/08/22(水) 18:11:57.81ID:dTPH0Jpn
第13回テキストアナリティクス・シンポジウム
あたりに出てみたら?
2018/08/23(木) 19:19:43.19ID:bB8SnTwz
そういうのは興味ないんだな
712デフォルトの名無しさん
垢版 |
2018/08/31(金) 12:25:09.97ID:jw7g7wHs
いまのところ思いつきでしかないんだが、
日本語の「文語」「旧漢字」「旧かなづかい」と
いうのは、自然言語処理における暫定的な
ピボット言語として、けっこう実用的なのでは
ないか、と思う。

戦後に教えられている、日本語の現代国語の文法は、
文語文法ほど厳密ではない。
「常用漢字への置き換え」のせいで、本来の字義が
わかりづらい文字がある。
旧かなづかひには、文語文との歴史的な関連があり、
合理性がある。
で、「現代語」「常用漢字」「新かなづかい」への
変換は、わりと標準的辞書とそれなりのアルゴリズム、
そこそこのマシン環境があれば、実用上は不自由な
感じがなく可能だ。

いけそうに思うのだが、どうだろう。
2018/09/03(月) 06:46:31.57ID:U0kvs2wf
会議で議論しろよ
714デフォルトの名無しさん
垢版 |
2018/09/03(月) 19:36:30.73ID:EdX2r8s2
>>713
どこの?
おれは出席できるのか?
発言権とか議決権とかはあるのか?
どういう影響力があるのか?
2018/09/04(火) 15:08:16.42ID:4C0xHapn
>>714
会議って学会のでしょ。
論文書いて採択されたら誰でも発表できるはず。
716デフォルトの名無しさん
垢版 |
2018/09/04(火) 19:38:35.15ID:1ahLzDkT
>>715
日本ソフトウェア科学会の自然言語処理の
分科会で、ボロクソに叩かれたのが、いまだに
トラウマになっている。

当時は JUMAN 以外の形態素解析システムは
認められていなかったので、分科会の座長に
「益岡 隆志 ・田窪 行則の『基礎日本語文法』を
読んでから来なさい」と一蹴されてそれっきり。

資料をほじくり返せば、どっかから名前が
出てくるだろうが、それも野暮な話だろうと
思って遠慮している。

形態素解析で、おれらに勝てると思ってる
奴がいたら、喧嘩売ってこい。ぜんぶ
買ってやる。
717デフォルトの名無しさん
垢版 |
2018/09/04(火) 19:42:49.40ID:1ahLzDkT
ついでながら、大修館の『言語』の
『言語空間』で、国広哲弥先生と
がっぷり四つに組んでバトルをしたのは、
うちらの親玉だ。
718デフォルトの名無しさん
垢版 |
2018/09/04(火) 20:55:35.67ID:L4gEVvGM
>>714
>発言権とか議決権とかはあるのか?

人工知能研究は何とか大学で何とか言う学位を得たとかいう専門家達の小難しい数式ではなく、
こうした何気ない日常生活の中から何かを発見していくことのほうが大切と思われる。


485 デフォルトの名無しさん 2018/03/24(土) 22:53:15.70 ID:6mZ6T11K
(第1章 はじめに 2頁)
たとえば、CycはFredという名前の男が朝にひげをそるという話が理解できなかった。
Cycの推論エンジンは、この話の中に矛盾を見つけた。Cycは人間には電気の部品がないことは知っているが、
Fredが電気カミソリを持っていたので、エンティティ「Fredがひげそり中(FredWhileShaving)」
には電気の部品が含まれていると考えた。したがって、CycはFredがひげをそっている間、
Fredはそれでも人間なのかと尋ねた。

『深層学習』
著者:
Ian Goodfellow, イアングッドフェロー,
Yoshua Bengio, ヨシュアベンジオ,
Aaron Courville, アーロンカービル
2018/09/04(火) 21:19:40.95ID:1ahLzDkT
>>718
「日本語の動詞の活用は、
末尾の音との対応によって決まる」
んだが、しょっちゅう使う動詞に関しては、
この対応関係が崩れることがある、という
話をした。
いわゆる「サ変(する)」「カ変(「来る」)」は
知られているが、それ以外に「言う」「行く」と、
「乞う」「問う」は、その原則から外れていると
いうのを、実際のテキストデータ(コーパス)を
コンピュータによって篩にかけて実証したんだが、
侮辱されただけで終わった。

> こうした何気ない日常生活の中から何かを
> 発見していくことのほうが大切と思われる。
たしかに大切だと思うのだが、それが学会で
評価されると信じるのは、「いつか王子様が」
みたいなファンタジーでしかない。
2018/09/04(火) 21:28:33.77ID:1ahLzDkT
「創傷熱や産褥熱は、医者や看護師の手を
介在して感染するので、医療行為を行う人間は
よく手を洗え」と主張したイグナーツ・ゼンメルワイスは、
精神病院に収容されたあげく、看護人に殴られて
死んだ。

世の中はそんなもんだ。過去にではなく、
現在もだ。
2018/09/05(水) 08:19:26.23ID:sGefZ1lw
あんたの考えてることが他人に説明できないなら戯言でしかない
それすらできないくせに歴史的英雄に自分を重ねてこんなとこで自慰をするのは無様で恥知らずとしか言いようがない
人工知能学会でも自然言語処理学会でもいいから論文を出せ
日本でダメなら国際会議で訴えろ
甘利ににらまれた金谷は国際会議で訴えた
722デフォルトの名無しさん
垢版 |
2018/09/05(水) 08:39:26.69ID:TGJHl4wU
>>721
>こんなとこで自慰をするのは

ところでだ。「チンボがシコシコする」という日本語表現は、文法的に正しいのか?

チンボ「を」シコシコするのではなくて、チンボ「が」シコシコする。この場合、「チンボ」は主語となる。

オブジェクト指向で言う「集約」は2種類あって、全体(俺)と部分(チンボ)が繋がっている場合と、
全体(俺)と部分(チンボ)が別々になっている場合とが考えられる。けれども「チンボ」はそれ自体
が独立した生き物であり、所有者の意思とは無関係に、勃起して「シコシコする」。
例えば寝てる時にエロい夢みて朝起きてみたらチンコが勃起して射精してたとか。

違うか?

「頭がズキズキする」は良いが、「チンボがシコシコする」はダメな理由を、50字以内で述べろ!>>98
723デフォルトの名無しさん
垢版 |
2018/09/05(水) 08:42:52.59ID:TGJHl4wU
人間発見国立情報学研究所教授 新井紀子さん AI時代を生き抜く力(3)
ttps://www.nikkei.com/article/DGKKZO33940070Y8A800C1EAC000/ 
 娘の身を案じ猛反対する両親を押し切って米国へ留学。大学院に進んだが教官のセクハラに遭い、一度は研究者の道をあきらめ
かけた。
 1年後には帰国して就職か結婚をする、と約束し、ようやく両親に留学の許可をもらいました。大学4年の1984年7月に日本を出発、
数学基礎論が盛んだったイリノイ大学に入学しました。イリノイ大は1年で卒業。卒業時に優秀賞をとり、奨学金を得たので大学院に
進学しました。
 ところが大学院では指導教官からのセクハラに遭い、つらい日々を過ごしました。遠距離結婚して間もない夫も心配して米国に来て
くれましたが、セクハラが止むことがなく、学内で訴えを起こしました。当時は米国でもようやくセクハラへの関心が高まり始めたばかり。
当時は米国でもようやくセクハラへの関心が高まり始めたばかり。学内規則が不十分だったこともあり、決着をつけることはできず、
博士号をとれずに失意のまま帰国することになりました。
 帰国後、娘が生まれたこともあり、一度は家庭に入って専業主婦になろうと考えました。今も研究を続けているのは、このとき夫が
「あきらめるな」と励ましてくれたからです。広島市立大学に情報科学部が新設されることを知った夫は、応募してはどうかと勧めて
くれました。「もう一度やってみよう」とタイプライターを買い込んで論文を書き始め、一橋大の先生方のサポートもいただいて完成。
助手に採用されました。
2018/09/05(水) 09:40:09.05ID:cB1vOB+w
>>772
構文的には正しいが、運用論的には疑問がある。
【解説】
「目がシパシパする」は構文的に正しいので、
「チンポがシコシコする」も構文的に間違っているとは
いえない。「麺がシコシコしている」は運用論的に
正しいが、語彙的に「シコシコする」が一般的な
用法に含まれているか、には疑問の余地がある。
725デフォルトの名無しさん
垢版 |
2018/09/05(水) 09:54:01.99ID:lHAOj/Nm
プログラミング学ぶなら

https://site.moshimo.com/rhino/0002.html
2018/09/05(水) 12:24:18.47ID:cB1vOB+w
>>721
> あんたの考えてることが他人に説明できないなら
説明して理解できる奴が日本中探しても おそらく十人以下だ(笑)
> 歴史的英雄に自分を重ねて
ゼンメルワイスは説が入れられず不遇のうちに生涯を終えた。
看護師でもゼンメルワイスの名前を知らない奴が多い。
> 人工知能学会でも自然言語処理学会でもいいから論文を出せ
記述文法をやってる奴がそもそもいない。
> 日本でダメなら国際会議で訴えろ
膠着語の記述文法は欧米人に理解できるとも思わん。

そんなわけで実装して製品化を試みたが、
ある会社は会社が分裂してプロジェクトが頓挫、
ある会社は業績が悪化してプロジェクトから撤退、
ある会社は不正経理のせいで他の会社に乗っ取られて
プロジェクトが消滅、
ある会社は資金がショートしてチーム解散、
ある会社は別プロジェクトが大手の企画と
バッティングして経営難になり、チームのメンバーが
逃走、
その他もろもろあって、「呪われたシステム」と
謂われている。
2018/09/06(木) 04:51:25.22ID:8UoLzWRo
n バイトの文字列に対して、 n バイト以下のコードから
なる単語辞書を用いて、「すべての部分文字列に対する
辞書引き(これを、直積検索:ダイレクト・プロダクション
検索、または全件検索という)」を行なうことを考える。
このとき、最悪の場合でも n^2 + n の手間しかからない
アルゴリズムが存在する。
もちろん、バイト単位で考えれば 256 分木で表現すれば
いいのだが、それをやるとデータがやたらに大きくなる
(スペースファクターが悪い)ので、これを圧縮して
(木の末端部はスパースなので、重ならないように格納
する工夫の余地がある)一次元配列に押しこむことを考える。
有名なものとしては Google が使っているダブル配列法が
あるが、その原形であるトリプル配列法のほうが、マルチ
バイト文字を考えると、かえってスペースファクターが
向上するケースがあることがわかっている。
2018/09/06(木) 05:08:43.23ID:8UoLzWRo
一次元配列の要素は、
バイアス、アドレス、データ識別子である。
ここで、添字0を起点としよう。バイアスとアドレスは
添字であるとする。(なお、以下の方法にはバリエーションが
あるが、ここではもっとも素朴な例を示す)
ある添字 X が、文字列のどこか(たとえば、元文字列のどこか
にある “ab”)のどこかを指しているとする。
そのとき、次の文字 c が続く文字列 “abc” が辞書にあるか
どうかを調べるとき、X+c 要素のバイアスが c に等しいかを
見る。これは、X+c が X を指しているということなので、
データ識別子の先に語彙データが存在する(もちろん “abcd” が
辞書にあって "abc" がないこともあるので、そこはチェックが
必要だ)。さらに、その先を探すためには、要素 X+c のアドレス
部を見る。その値がアドレスで無意味だったら、その先に続く
文字列は辞書にない、ということになる。
2018/09/06(木) 06:02:39.83ID:8UoLzWRo
辞書引きは一応片付いたことにして、次は形態素解析だ。
語彙の部分には、品詞の分類というものがある。ただ、
これがなかなかの難物なのだ。
たとえば日本人なら、日本語の動詞をそのまんま
書いて「動詞」と書いておけば辞書として役に立つ。
ただ、外国人やコンピュータ様は動詞の語幹部分を
別々の形態素として辞書登録しておいて、辞書引きが
終わった段階でパーツを組み立てて「これはどういう
品詞のナニナニ形だ」と提示しなければならない。
するってぇと、たとえば「書かされたがらなかった」
はどうなるかというと「動詞・書k+使役・as+
受動・aれ+欲求・た+表出・が+否定・なk+
過去または完了・aった」と、別々の品詞として
辞書登録しておかなければならなくなる。
「こんなんやっとれるかぁ!」と怒りだす奴が
いそうだが、これは辞書を「形態素(=名前のない
形態素)」の辞書と「品詞(=名前のある形態素)」に
分けて、前者は「開始点の文法属性+マッチング文字列+
終点の文法属性」として管理し、後者は「品詞+辞書登録形」
で辞書かしておいて、適当なツールで「開始点の文法属性+
マッチング文字列+終点の文法属性」に変換してやる(もちろん、
マッチングに不必要な活用語尾は取り去る)という操作を
行なうわけだ。
これによって、解析開始点から「解析開始点の属性」→
「開始点属性」→「マッチング文字列」→「終点属性」ときて、
ここから次々と「終点属性」を「開始点属性」とみて
探索を行なってゆけば、自動的に形態素解析が行なえてしまう、
ということになる。
なお、単なる「かな漢字変換」レベルの処理だったら、
これだけで市販の IME が吹っ飛ぶくらいの威力のある
変換システムができあがる。もちろん、候補の優先度とかいった
塩梅は必要ではあるのだが。
2018/09/06(木) 07:09:53.36ID:8UoLzWRo
この処理系の実装にあたっては、再帰を使って
木探索(ツリー・リトリーブ)で書くのが簡単だが、
それでは面白みに欠ける。
「どの点のどの開始属性から探索する」という
タスクを何らかのデータ構造(C なら構造体、
Java ならオブジェクト)の形で表現しておいて、
データプール(コンテナ)に放り込み、
一個取り出しては探索処理を行なって、
次の探索店をまたデータプールに突っ込む、
ということをする。
これがスタックだと深さ優先探索、
これがキューだと幅優先探索になるので、
プッシュとポップを工夫するだけで、
探索戦略を切り替えることができる。
こういう手法を「チャート法」といい、
構文解析(形態素解析ではなく、だ)の
分野ではよく知られた手法だ。

なお、この手法、ビットマップ上の
領域の塗りつぶしや迷路探索にも
使える。横溝正史の『八つ墓村』に、
金田一耕助がチャート法を使って
巨大洞穴を探索する場面が出てくる。
2018/09/06(木) 09:11:04.07ID:8UoLzWRo
>>729 の話は、要するに「文法属性の始めと終わりを
マッチング文字列で橋渡しする」ことで文法定義を
しちゃって、チャート法の解析エンジンだけで処理を
片づけるという、無精ったらしいことをしているわけだ。
このとき、「マッチング文字列がヌルストリングのとき、
うっかり循環参照かなんかを作りこんじゃったら
無限ループに陥っちゃうだろうが!」という
話になる。
文法そのものがそんなに大袈裟なものじゃない(二千行あれば、
充分書ける)ので、あんまり気にしなくていいのだが、
それでもチェックは入れておいたほうがいい。
2018/09/06(木) 09:16:30.21ID:8UoLzWRo
>>731
これには二つの方策があって、
1)実行前に、スクリプトから実行形式にコンバートするときに、
チェックして対処する。
2)実行時に、同じ位置に同じ文法属性が来たら、そこでハネる。
のどっちか、という話になって、(1)は実行時のオーバーヘッドが
なく、(2)は実行時のチェックのためのオーバーヘッドが生じる。
これはどっちでもよさそうだが、どのみち「辞書と文法を区別しない」の
で、(1)で工夫はするとして、いちおう(2)の機能も組込んで
おくのが安全。
2018/09/06(木) 09:26:43.74ID:8UoLzWRo
>>732 については、一度、大騒ぎしたことがある。
「書いてる」は「書いている」の省略形なので、
「『いる』の語幹『い』の省略」と記述したら、
困ったことに「連用形の現在」が、語幹と一致する
「い」だったのだな。
「お持ち帰り」のように、連用形は連用形に接続するので、
「書いてる」が「書いて(ここに「い」が無限個省略されて
いる)る」と解析されて、いきなりスタックオーバーフロー(笑)。
さんざん解析に手間取ったあげく、「ている」「でいる」の
「てい」「でい」をそれぞれ形態素として登録して逃げた。
このあたり、「どう処理するのが本当か」という話はあるのだが、
>>1
> 言語学の話題などは他のスレッドでお願いします。
と言われているので、このスレでの議論は避けることにする。
734デフォルトの名無しさん
垢版 |
2018/09/06(木) 12:35:12.17ID:8UoLzWRo
とりあえず、>>1
> このスレッドでは、「日本語の構文解析・談話理解・情報検索・
> 文章生成」などの技術に関する理論と(おもに)実装を扱います。
> あくまで、「アプリケーション・プログラミング」の
> 技術的な面に重点をおきたい
というコトになっているんだが、よく見れば「形態素解析」と
いうのは「自然言語処理スレッド」からは排除されているんだよな。

そのあたりに関する、スレ民の意見は伺いたいと思う。
2018/09/06(木) 14:51:06.48ID:tPMc56fx
ここまで読みました
2018/09/06(木) 16:16:39.52ID:8UoLzWRo
>>735
ありがとう。
実装は任せた。
ソースコードは
無償で提供する。

「束(そく。Latteice)から束への建艦」が、
一意に成立するかどうかが疑問だったのと、
それが、その程度効率的なのかについて、
充分なデータが揃っていなかったのだ。
どっかの大学(を含む研究機関)で、
マジメに検証してくれれば、
ありがたいと思う。
■ このスレッドは過去ログ倉庫に格納されています