自然言語処理スレッド その4

■ このスレッドは過去ログ倉庫に格納されています
1デフォルトの名無しさん
垢版 |
2014/06/03(火) 05:40:00.54ID:yefNLumx
前前スレ 自然言語処理スレッド その2
http://mimizun.com/log/2ch/tech/1173105287/
前スレ 自然言語処理スレッド その3
http://mimizun.com/log/2ch/tech/1235129481/

このスレッドでは、日本語の構文解析、談話理解、情報検索、
文章生成などの技術に関する理論と(おもに)実装を扱います。
あくまでアプリケーションプログラミングの技術的な面に重点をおきたいので、
学術的な話はアリですが、いわゆる人工無能や哲学的AI話、
言語学の話題などは他のスレッドでお願いします。
662Mr.Moto
垢版 |
2018/08/08(水) 21:46:41.52ID:l+OzLrq9
>>661
おまいも上から目線でコメすだけじゃなくて、
なんか具体的な意見出せや
663デフォルトの名無しさん
垢版 |
2018/08/09(木) 12:51:14.04ID:a88nmHyC
このスレさあ、最近俺とお前しか書き込んでないよ
664デフォルトの名無しさん
垢版 |
2018/08/09(木) 12:56:18.84ID:NXkdt6vr
ごみん
665Mr.Moto
垢版 |
2018/08/09(木) 22:08:36.40ID:RMQfHlDH
形態素解析って、流行ってねぇんだなぁ ……
真面目にやると面白いんだけどな。
666Mr.Moto
垢版 |
2018/08/09(木) 22:15:20.21ID:RMQfHlDH
そういやぁ「三階」を「さんがい」って言う奴はいるけど、
「三回」は「さんかい」なんだよな。
そういうのって自然言語処理の世界で真面目に研究してる
奴っておるんかな?
AI も方言でインタフェースが成立すりゃあ可愛げがあるのに。
667デフォルトの名無しさん
垢版 |
2018/08/10(金) 10:58:25.21ID:x87YEa9j
>>666
言語学ではそういう感じの論文はよくあるよね。
668Mr.Moto
垢版 |
2018/08/10(金) 15:24:14.22ID:a1LHeoak
>>667
あるのか!
繰返しになるが、人間って、文法というものを所与のものとして
受入れているので、「形態素解析でイレギュラーなものを拾う」
っていうのは、けっこう困難なんだよ。
だけど、メジャーな形態素解析システムって、そういうのを
スクリーニングするようにできてないので、インターネット
のおかげで言語データが大量にあるのに、そういう例外を
掬うのって、なかなか手段がないんだよ。
昨今のパーソナルコンピュータは、そういうのに使えるだけの
性能を持ってるのに、研究者がそういうツールを使いこなせない、
っていうのは(研究者に対して言ってんじゃなく、サポートする
体制のほうに言ってんだが)イカンと思う。
2018/08/10(金) 15:41:04.46ID:XouIcNJM
最近の研究に触れてないの?
670Maria
垢版 |
2018/08/10(金) 15:54:03.82ID:a1LHeoak
>>669
研究者が、あらかた、意味論とかそっちの方に逃げちゃってるので、
記述文法とかの話になると、誰も相手をしてくれないんだよねー。
昔は大修館の『言語』の『言語空間』で、国広哲弥先生とガチのバトルとか
してたんだけどねー。
「相撲好き」っていうのかなぁ? がっぷり四つに組んで、「おまえの
底力を見せてみろ!」みたいなヒトって、最近は見ないでしょう?
671デフォルトの名無しさん
垢版 |
2018/08/11(土) 20:51:29.75ID:lNetj8kV
ところでだ。「チンボがシコシコする」という日本語表現は、文法的に正しいのか?

チンボ「を」シコシコするのではなくて、チンボ「が」シコシコする。この場合、「チンボ」は主語となる。

オブジェクト指向で言う「集約」は2種類あって、全体(俺)と部分(チンボ)が繋がっている場合と、
全体(俺)と部分(チンボ)が別々になっている場合とが考えられる。けれども「チンボ」はそれ自体
が独立した生き物であり、所有者の意思とは無関係に、勃起して「シコシコする」。
例えば寝てる時にエロい夢みて朝起きてみたらチンコが勃起して射精してたとか。

違うか?

「頭がズキズキする」は良いが、「チンボがシコシコする」はダメな理由を、50字以内で述べろ!>>98
2018/08/11(土) 21:00:32.98ID:vW2Ha+vq
>>671
チンボがシクシクする

なら、ありだと思います
673Mr.Moto
垢版 |
2018/08/11(土) 21:23:15.94ID:Rp7CVdHg
>>671
それは運用論の話だな。たしか
城生 佰太郎『言語学は科学である ―「象ガ国会デ宿題ヲ忘レル」
不思議への招待』で「なぜ『元祖ゴキブリラーメン』がないのか?」
みたいな話で論考してたと思う。
674Maria
垢版 |
2018/08/11(土) 21:31:55.39ID:Rp7CVdHg
>>671
あんた、どっかの大学の自然言語処理系の研究室から、鉄砲玉として
送り込まれてきたんだろうけどさぁ、命(タマ)ぁ獲れなかったら、
どういう目に遭うか、覚悟はできてるんだよね?
逃げるんじゃないわよぉ? ほら、こっちはいくらでも
相手になろうって言ってるのよ?
2018/08/11(土) 21:38:52.01ID:vW2Ha+vq
>>674
戯言はいいから、はやく!
676Maria
垢版 |
2018/08/11(土) 22:01:16.57ID:Rp7CVdHg
>>675
だから、質問しなさいって言ってるのよ。
仁義切って、啖呵切って、勝負はそれからでしょう?
「お控えなすって」
「早速のお控え、ありがとうござんす。手前、生国は …」
から始めるのが仁義でしょう?
せめて、どんな研究してて、どういう分野に興味があって、
どういう点に疑問やら反論やらがあるのか、
はっきりしなさいよ!
どこの所属とかは訊かないけどさ、
「この分野だったらおれのほうが上だ!
白黒つけてやるから勝負しろ!」くらいの
勢いでかかってきなさいよ。
2018/08/11(土) 22:02:45.90ID:8JECWN+f
「シコシコ」は対象と他の物体の摩擦を表す擬音。
「ズキズキ」は対象が発してる状態の擬音。
よって対象そのものについて述べるのに
外部要因がある「シコシコ」を使うのは適切じゃない。





つまり50文字で纏めると

全く自然言語処理をやってないプログラマですが
いつも楽しく拝見しています
ところでスレチじゃないですかね

となる
678Maria
垢版 |
2018/08/11(土) 22:28:42.02ID:Rp7CVdHg
>>677
あー、こういう方がいらっしゃって下さると、
ありがたいわー。

「背中がヒリヒリする」とか「喉がイガイガする」とかは、
内部なのか外部なのかが判然としないけど、「シコシコ」は
内部化がしにくい、っていうコトですよね?
とはいえ、肩凝りなんかだと、「僧帽筋と菱形筋と最長筋が
“シコシコ”してるんですよ」とかいう表現は、運用上は“あり”だと
思うわけです。

となると、これは自然言語処理というよりも、意味論のほうの
話になると思うんですよ。

「できる」の命令形「できろ」は、文法上は禁止されていませんが、
運用上は「それ、無理でしょ?」っていう話になってしまいます。
それと同じことだと思うんですよ。
679デフォルトの名無しさん
垢版 |
2018/08/12(日) 02:28:21.41ID:/WZyCUyT
>>671
(´・ω・`)頭は自分の意思とは関係なくズキズキするから「が」
(´・ω・`)ちんぽは自分の意思でシコシコするから「を」
自分の意思かどうかで主語が変わる
2018/08/12(日) 02:58:57.41ID:jpwoxOLr
最近気になるのは、DVDが発売する、だな
2018/08/12(日) 09:56:42.76ID:ULAI4zx4
>>680
> 最近気になるのは、DVDが発売する、だな
それは「DVD が発売される」じゃなくってか?
たしかに「DVD が出る」みたいな表現はあるから
なんかしらの説明はあるのかもしれんけど。
強いていえば「DVD を発売する」の「DVD」が
強調されて「DVD “が” 発売する」になった、
あたりかな? そうでなければ「発売する」に
自発の意味がある、という解釈だな。
682Mr.Moto
垢版 |
2018/08/12(日) 10:29:17.36ID:ULAI4zx4
「おいしいおでんの作り方」と
「おでんをおいしく作る方法」は
意味がほぼ同じであるように見えるのに、
文構造がかなり違う (-_-!)
どこかに「食べる」が省略されているとでも
考えないといかんのか? 食べなかったら
「おいしい」というのが判断できないわけだから。
「(食べて)おいしいおでんの作り方」はともかく、
「おでんをおいしく作る方法」は、ちょっと
珍しい形の転置が起きた結果、文の構造が
見えにくくなっている感じがする。
「おいしく食べられるおでんが作れる方法」を
どうひねくったら「おでんをおいしく作る方法」に
なるのかがわからん。
683Mr.Moto
垢版 |
2018/08/12(日) 12:47:07.64ID:ULAI4zx4
>>682
ようやく解ってきた。
述語にかかる句には、
「文法格をもつ句」(主語とか目的語とか)と、
「修飾句」(「さっぱり」「あっさり」「粛々と」)と、
「相」(「夏に」「谷川岳で」)があるという分類が
立っているのだが、いわゆる「具格」は、文法格ではなくて
相であり、体言が述語にかかるときに「で」が附属するので
あって、「で」は「具格を表す格助詞」ではないっちゅー
コトなんだな?
文法格がないんで、述語に対する一意性もないわけで、
「〜で〜で」みたいなのもアリ(なかなか実例が
示せないんだが)なんだと思う。
「鶏は鍋でおろし醤油で食うのが好きだ」の場合、
「鍋」と「おろし醤油」が助詞「で」によって
述語「食う」に係っているわけで、これを
「鶏は鍋と おろし醤油で食うのが好きだ」とすると
語感がおかしくなる。そう考えると、
「方法」というのは、「場所」や「時刻」「季節」と
同じように、「相」であると考えたほうが、
動詞の型分けがすっきりしそうだ。
684デフォルトの名無しさん
垢版 |
2018/08/12(日) 17:57:06.47ID:PIG+WPz5
おいしいおでんの作り方=how to make おいしい おでん
「おいしい」は「おでん」に対する修飾語

おでんをおいしく作る方法=how to make おでん (to be) おいしい
「おいしい」は「おでん」に対する述語

「おいしく作る」は「穴を掘る」と同じように考えればよく
「食べる」が省略されているなどと考える必要はない。
685Mr.Moto
垢版 |
2018/08/12(日) 18:01:52.82ID:ULAI4zx4
>>684
よし、解った。
「鮟鱇は土鍋で出汁で煮る」はオッケーだが、「土鍋と出汁で煮る」は NG。
「鮟鱇は土鍋でかえしと出汁で煮る」もオッケー。
「鮟鱇は土鍋でかえしと出汁で強火で煮る」もオッケー。

つーことは、具格は文法格ではないから、なんかしら別の呼び名を
立てたほうがいい、っちゅーこっちゃね。するってぇと「具相」とかに
なるのかな。
686Mr.Moto
垢版 |
2018/08/12(日) 18:18:00.76ID:ULAI4zx4
>>684
> 「おいしい」は「おでん」に対する述語
なるほど。そこへ来たか。
確かに文語では形容詞は述語になる(終止形もある)
よなぁ。
うん。反論を考えてみる。
687Mr.Moto
垢版 |
2018/08/12(日) 18:35:32.47ID:ULAI4zx4
>>684
> おでんをおいしく作る方法=how to make おでん (to be) おいしい
うん。
ひょっとしたら、The way of make おいしい おでん
みたいな脳内変換が行なわれているかもしれない、という
可能性を考慮する必要はあるだろうな、と思っている。

強調転置は、とりたて詞「は」「が」を “常に” 伴うと、ずっと
思っていたので、「を」がそのまま使われて
強調転置が行なわれる、というケースを考えていなかった。
やっぱり、形態素解析 “だけ” を考えて自然言語処理を
行なおうとすると、どっかしらに無理がくるということか。
688Mr.Moto
垢版 |
2018/08/12(日) 18:41:17.81ID:ULAI4zx4
>>687
「The way of make」とか書いたらダメだな(^_^;)。
俗語・口語に慣れちゃってるんで、気づかなかった。
「The way of to make」とか「The way of how to make」
とか書かないと、英語教師には叱られそうだ。
689デフォルトの名無しさん
垢版 |
2018/08/13(月) 16:13:26.37ID:obMX332h
666
読みで揺らいでるけど
「依存」は「いぞん」がいつのまにか「いそん」に変わってしまった
「マスゴミ」は「マスコミュ」
でないといけない
690684
垢版 |
2018/08/13(月) 17:13:57.48ID:GO6p/lGf
> Mr.Moto

> 「おいしく作る」は「穴を掘る」と同じように考えればよく
と書いたこちらの意図がまったく伝わっていないようだが。
穴を掘る、湯を沸かすなどと同じく、ただの結果を先取りした表現。
「壁を白く塗る」と同じといってもよい。
691Mr.Moto
垢版 |
2018/08/13(月) 17:28:37.19ID:AihWjEg3
>>690
おれは、形容詞は(暗黙の)主語を要求するという点に着目した。
「おいしいおでん」の「おいしい」の主語は、「そのコンビニの店員」
ではなくて、「そのコンビニの系列の店で、リピーターになってくださる
お客様」だと思うんだよ。
ペットショップでミジンコとかコオロギとかゴキブリとか
冷凍のヌードマウスを買ってくお客さんが、「おいしい」っていうのは
また別な意味だろう?
プロの料理人が言ってたけど、「うまみ調味料は、半分までだったら
バレないけど、肝心な出汁の味がマスクされちゃうので、味がブレた
ときに、しかたなく使う」「塩味は、ギリギリまで強くすりゃあ、
客は『うまい』って言ってくれるんだけど、外で食うなら
ともかく、家で毎日食うんだったら、『ちょっと物足りない』
くらいが普通」だそうだ。
692Maria
垢版 |
2018/08/13(月) 17:30:28.58ID:AihWjEg3
>>689
それ言ったら、「寄贈」だって「きぞう」じゃなくて「きそう」でしょ?
693Maria
垢版 |
2018/08/13(月) 17:41:26.57ID:AihWjEg3
>>689
正確にいうと、「いそん」が正で、「いぞん」は “百姓読み” と
呼ばれる俗語の訓なのよねー。
「マスゴミ」も、「マス・コミュネーション」+「ゴミクズ」
の合成語であって、「マス・コミュネーション」=「マスゴミ」では
ないんですよ。「ミニコミ」⇔「マスコミ」っていう対義語関係も
あるしね。
2018/08/13(月) 20:20:51.00ID:AihWjEg3
>>693
×マス・コミュネーション
〇マス・コミュニケーション

失礼いたしました m(_ _)m
2018/08/15(水) 01:38:57.48ID:zh9hArng
>>689
君は存在をぞんざいと読むのかね?
696Maria
垢版 |
2018/08/15(水) 10:39:21.70ID:vp8/ud0K
>>695
「ぞんさい」と「そんさい」はあるかもしれない。
「無人島」も、「むにんとう」「ぶにんとう」「むじんとう」
の訓があるわけだし。小笠原には「ムニンノボタン」が
生えているし、英語だと「ぶにんとう」→「ボーニン・アイランド」だし。
2018/08/15(水) 14:37:14.24ID:ai0gypJB
理屈っぽさと独創的なプログラミングスキルには負の相関がある、
と誰かが言ってたな
理屈こねて長文レスしまくってる人はもうプログラミングやめた方がいいかも
698Mr.Moto
垢版 |
2018/08/15(水) 16:21:40.83ID:vp8/ud0K
>>697
ご意見はありがたく拝聴しておくが、
「じゃあ、おまえはどんなプログラムを書いたんだ?」と
質問しておこう。
せめて、まともな理屈くらいこねてくれ。
699デフォルトの名無しさん
垢版 |
2018/08/16(木) 04:30:16.20ID:Wl8UzWlX
>>679
>ちんぽは自分の意思でシコシコするから

ならオシッコを我慢するときは?
700デフォルトの名無しさん
垢版 |
2018/08/16(木) 04:33:08.06ID:Wl8UzWlX
>>496
>テレビゲームのような仮想世界をインプットして、

人体というのは宇宙のように広大で、コンピューターには入り切らないぞ?

>>485
>CycはFredがひげをそっている間、Fredはそれでも人間なのかと尋ねた。

人間の動作というのはそれだけ複雑だってことだな。
2018/08/16(木) 09:58:38.18ID:odc/xF8f
>>700
SF だけど、『未来の二つの顔』でやってたな。
星野之宣さんのマンガでやってたけど、
仮想空間の中でコンピュータに目玉焼を作らせようと
したら、フライパンの中に割らずに卵を載せて
しまうとか …。
で、「これは、やっぱり実際の空間の中でやんなきゃ
ダメだ!」っつーんで、コンピュータ制御の戦闘用ドローンと
武器を持った人間が、宇宙ステーションの中で
ドンパチをやるという話。
2018/08/16(木) 10:03:34.87ID:odc/xF8f
自然言語処理と関係なくなっちゃいそうだから、
それっぽいものも足しておこう。
『2001:宇宙のオデッセイ』
『ヴァレンティーナ』
『月は無慈悲な夜の女王』
『ウォー・ゲーム』(映画)
『ノーラの方舟』
『アメリカの黒船』(笑)
2018/08/16(木) 13:54:12.85ID:odc/xF8f
>>703
×『アメリカの黒船』
〇『マンハッタンの黒船』
諸星大二郎。「デモクラシー・マシン」という、
国民に端子を埋め込んでおいて、その測定値を
もとに、コンピュータが政策決定をするという話。
あれ読んどくと、幕末史がかなりよくわかる。
ついでに、『ゴースト・バスターズ2』を観ると、
けっこう笑える。

こう、どうしようもなく暑いと「ドンマイ・ダンス」(=ええじゃないか)を
踊りたくなるよなぁ。川原泉も『笑う大天使(ミカエル)』で、
ウルトラマンと鉄腕アトムと超人ロックにドンマイ・ダンスを
踊らせてたし。
704デフォルトの名無しさん
垢版 |
2018/08/16(木) 18:48:54.08ID:zg++OkBY
>>699
腹筋運動で腹に力を入れるってのと同じ。
705デフォルトの名無しさん
垢版 |
2018/08/16(木) 18:52:01.50ID:zg++OkBY
>>701
>フライパンの中に割らずに卵を載せてしまうとか …。

ゆでたまごとは違うからなあ。
706デフォルトの名無しさん
垢版 |
2018/08/16(木) 18:55:36.47ID:y4swezJj
>>704
ゲロ吐くときも腹に力を入れるけどな。
2018/08/17(金) 10:03:25.37ID:gqiCzic7
日本語処理をやってて困るのは、
「葱」を「ネギ」と訓むと気持が悪く、
「キ」と訓みたくなることと、
「タマネギ」を漢字で書くときに、
「玉葱」ではなく「玉根葱」と
書きたくなることだな。
708デフォルトの名無しさん
垢版 |
2018/08/17(金) 10:24:20.58ID:7A6IqWlB
>>699
オシッコの時とオナニーの時とでは、役割が全然違う。
709デフォルトの名無しさん
垢版 |
2018/08/17(金) 14:08:30.32ID:gqiCzic7
>>708
今はただ 小便だけの 道具かな
710デフォルトの名無しさん
垢版 |
2018/08/22(水) 18:11:57.81ID:dTPH0Jpn
第13回テキストアナリティクス・シンポジウム
あたりに出てみたら?
2018/08/23(木) 19:19:43.19ID:bB8SnTwz
そういうのは興味ないんだな
712デフォルトの名無しさん
垢版 |
2018/08/31(金) 12:25:09.97ID:jw7g7wHs
いまのところ思いつきでしかないんだが、
日本語の「文語」「旧漢字」「旧かなづかい」と
いうのは、自然言語処理における暫定的な
ピボット言語として、けっこう実用的なのでは
ないか、と思う。

戦後に教えられている、日本語の現代国語の文法は、
文語文法ほど厳密ではない。
「常用漢字への置き換え」のせいで、本来の字義が
わかりづらい文字がある。
旧かなづかひには、文語文との歴史的な関連があり、
合理性がある。
で、「現代語」「常用漢字」「新かなづかい」への
変換は、わりと標準的辞書とそれなりのアルゴリズム、
そこそこのマシン環境があれば、実用上は不自由な
感じがなく可能だ。

いけそうに思うのだが、どうだろう。
2018/09/03(月) 06:46:31.57ID:U0kvs2wf
会議で議論しろよ
714デフォルトの名無しさん
垢版 |
2018/09/03(月) 19:36:30.73ID:EdX2r8s2
>>713
どこの?
おれは出席できるのか?
発言権とか議決権とかはあるのか?
どういう影響力があるのか?
2018/09/04(火) 15:08:16.42ID:4C0xHapn
>>714
会議って学会のでしょ。
論文書いて採択されたら誰でも発表できるはず。
716デフォルトの名無しさん
垢版 |
2018/09/04(火) 19:38:35.15ID:1ahLzDkT
>>715
日本ソフトウェア科学会の自然言語処理の
分科会で、ボロクソに叩かれたのが、いまだに
トラウマになっている。

当時は JUMAN 以外の形態素解析システムは
認められていなかったので、分科会の座長に
「益岡 隆志 ・田窪 行則の『基礎日本語文法』を
読んでから来なさい」と一蹴されてそれっきり。

資料をほじくり返せば、どっかから名前が
出てくるだろうが、それも野暮な話だろうと
思って遠慮している。

形態素解析で、おれらに勝てると思ってる
奴がいたら、喧嘩売ってこい。ぜんぶ
買ってやる。
717デフォルトの名無しさん
垢版 |
2018/09/04(火) 19:42:49.40ID:1ahLzDkT
ついでながら、大修館の『言語』の
『言語空間』で、国広哲弥先生と
がっぷり四つに組んでバトルをしたのは、
うちらの親玉だ。
718デフォルトの名無しさん
垢版 |
2018/09/04(火) 20:55:35.67ID:L4gEVvGM
>>714
>発言権とか議決権とかはあるのか?

人工知能研究は何とか大学で何とか言う学位を得たとかいう専門家達の小難しい数式ではなく、
こうした何気ない日常生活の中から何かを発見していくことのほうが大切と思われる。


485 デフォルトの名無しさん 2018/03/24(土) 22:53:15.70 ID:6mZ6T11K
(第1章 はじめに 2頁)
たとえば、CycはFredという名前の男が朝にひげをそるという話が理解できなかった。
Cycの推論エンジンは、この話の中に矛盾を見つけた。Cycは人間には電気の部品がないことは知っているが、
Fredが電気カミソリを持っていたので、エンティティ「Fredがひげそり中(FredWhileShaving)」
には電気の部品が含まれていると考えた。したがって、CycはFredがひげをそっている間、
Fredはそれでも人間なのかと尋ねた。

『深層学習』
著者:
Ian Goodfellow, イアングッドフェロー,
Yoshua Bengio, ヨシュアベンジオ,
Aaron Courville, アーロンカービル
2018/09/04(火) 21:19:40.95ID:1ahLzDkT
>>718
「日本語の動詞の活用は、
末尾の音との対応によって決まる」
んだが、しょっちゅう使う動詞に関しては、
この対応関係が崩れることがある、という
話をした。
いわゆる「サ変(する)」「カ変(「来る」)」は
知られているが、それ以外に「言う」「行く」と、
「乞う」「問う」は、その原則から外れていると
いうのを、実際のテキストデータ(コーパス)を
コンピュータによって篩にかけて実証したんだが、
侮辱されただけで終わった。

> こうした何気ない日常生活の中から何かを
> 発見していくことのほうが大切と思われる。
たしかに大切だと思うのだが、それが学会で
評価されると信じるのは、「いつか王子様が」
みたいなファンタジーでしかない。
2018/09/04(火) 21:28:33.77ID:1ahLzDkT
「創傷熱や産褥熱は、医者や看護師の手を
介在して感染するので、医療行為を行う人間は
よく手を洗え」と主張したイグナーツ・ゼンメルワイスは、
精神病院に収容されたあげく、看護人に殴られて
死んだ。

世の中はそんなもんだ。過去にではなく、
現在もだ。
2018/09/05(水) 08:19:26.23ID:sGefZ1lw
あんたの考えてることが他人に説明できないなら戯言でしかない
それすらできないくせに歴史的英雄に自分を重ねてこんなとこで自慰をするのは無様で恥知らずとしか言いようがない
人工知能学会でも自然言語処理学会でもいいから論文を出せ
日本でダメなら国際会議で訴えろ
甘利ににらまれた金谷は国際会議で訴えた
722デフォルトの名無しさん
垢版 |
2018/09/05(水) 08:39:26.69ID:TGJHl4wU
>>721
>こんなとこで自慰をするのは

ところでだ。「チンボがシコシコする」という日本語表現は、文法的に正しいのか?

チンボ「を」シコシコするのではなくて、チンボ「が」シコシコする。この場合、「チンボ」は主語となる。

オブジェクト指向で言う「集約」は2種類あって、全体(俺)と部分(チンボ)が繋がっている場合と、
全体(俺)と部分(チンボ)が別々になっている場合とが考えられる。けれども「チンボ」はそれ自体
が独立した生き物であり、所有者の意思とは無関係に、勃起して「シコシコする」。
例えば寝てる時にエロい夢みて朝起きてみたらチンコが勃起して射精してたとか。

違うか?

「頭がズキズキする」は良いが、「チンボがシコシコする」はダメな理由を、50字以内で述べろ!>>98
723デフォルトの名無しさん
垢版 |
2018/09/05(水) 08:42:52.59ID:TGJHl4wU
人間発見国立情報学研究所教授 新井紀子さん AI時代を生き抜く力(3)
ttps://www.nikkei.com/article/DGKKZO33940070Y8A800C1EAC000/ 
 娘の身を案じ猛反対する両親を押し切って米国へ留学。大学院に進んだが教官のセクハラに遭い、一度は研究者の道をあきらめ
かけた。
 1年後には帰国して就職か結婚をする、と約束し、ようやく両親に留学の許可をもらいました。大学4年の1984年7月に日本を出発、
数学基礎論が盛んだったイリノイ大学に入学しました。イリノイ大は1年で卒業。卒業時に優秀賞をとり、奨学金を得たので大学院に
進学しました。
 ところが大学院では指導教官からのセクハラに遭い、つらい日々を過ごしました。遠距離結婚して間もない夫も心配して米国に来て
くれましたが、セクハラが止むことがなく、学内で訴えを起こしました。当時は米国でもようやくセクハラへの関心が高まり始めたばかり。
当時は米国でもようやくセクハラへの関心が高まり始めたばかり。学内規則が不十分だったこともあり、決着をつけることはできず、
博士号をとれずに失意のまま帰国することになりました。
 帰国後、娘が生まれたこともあり、一度は家庭に入って専業主婦になろうと考えました。今も研究を続けているのは、このとき夫が
「あきらめるな」と励ましてくれたからです。広島市立大学に情報科学部が新設されることを知った夫は、応募してはどうかと勧めて
くれました。「もう一度やってみよう」とタイプライターを買い込んで論文を書き始め、一橋大の先生方のサポートもいただいて完成。
助手に採用されました。
2018/09/05(水) 09:40:09.05ID:cB1vOB+w
>>772
構文的には正しいが、運用論的には疑問がある。
【解説】
「目がシパシパする」は構文的に正しいので、
「チンポがシコシコする」も構文的に間違っているとは
いえない。「麺がシコシコしている」は運用論的に
正しいが、語彙的に「シコシコする」が一般的な
用法に含まれているか、には疑問の余地がある。
725デフォルトの名無しさん
垢版 |
2018/09/05(水) 09:54:01.99ID:lHAOj/Nm
プログラミング学ぶなら

https://site.moshimo.com/rhino/0002.html
2018/09/05(水) 12:24:18.47ID:cB1vOB+w
>>721
> あんたの考えてることが他人に説明できないなら
説明して理解できる奴が日本中探しても おそらく十人以下だ(笑)
> 歴史的英雄に自分を重ねて
ゼンメルワイスは説が入れられず不遇のうちに生涯を終えた。
看護師でもゼンメルワイスの名前を知らない奴が多い。
> 人工知能学会でも自然言語処理学会でもいいから論文を出せ
記述文法をやってる奴がそもそもいない。
> 日本でダメなら国際会議で訴えろ
膠着語の記述文法は欧米人に理解できるとも思わん。

そんなわけで実装して製品化を試みたが、
ある会社は会社が分裂してプロジェクトが頓挫、
ある会社は業績が悪化してプロジェクトから撤退、
ある会社は不正経理のせいで他の会社に乗っ取られて
プロジェクトが消滅、
ある会社は資金がショートしてチーム解散、
ある会社は別プロジェクトが大手の企画と
バッティングして経営難になり、チームのメンバーが
逃走、
その他もろもろあって、「呪われたシステム」と
謂われている。
2018/09/06(木) 04:51:25.22ID:8UoLzWRo
n バイトの文字列に対して、 n バイト以下のコードから
なる単語辞書を用いて、「すべての部分文字列に対する
辞書引き(これを、直積検索:ダイレクト・プロダクション
検索、または全件検索という)」を行なうことを考える。
このとき、最悪の場合でも n^2 + n の手間しかからない
アルゴリズムが存在する。
もちろん、バイト単位で考えれば 256 分木で表現すれば
いいのだが、それをやるとデータがやたらに大きくなる
(スペースファクターが悪い)ので、これを圧縮して
(木の末端部はスパースなので、重ならないように格納
する工夫の余地がある)一次元配列に押しこむことを考える。
有名なものとしては Google が使っているダブル配列法が
あるが、その原形であるトリプル配列法のほうが、マルチ
バイト文字を考えると、かえってスペースファクターが
向上するケースがあることがわかっている。
2018/09/06(木) 05:08:43.23ID:8UoLzWRo
一次元配列の要素は、
バイアス、アドレス、データ識別子である。
ここで、添字0を起点としよう。バイアスとアドレスは
添字であるとする。(なお、以下の方法にはバリエーションが
あるが、ここではもっとも素朴な例を示す)
ある添字 X が、文字列のどこか(たとえば、元文字列のどこか
にある “ab”)のどこかを指しているとする。
そのとき、次の文字 c が続く文字列 “abc” が辞書にあるか
どうかを調べるとき、X+c 要素のバイアスが c に等しいかを
見る。これは、X+c が X を指しているということなので、
データ識別子の先に語彙データが存在する(もちろん “abcd” が
辞書にあって "abc" がないこともあるので、そこはチェックが
必要だ)。さらに、その先を探すためには、要素 X+c のアドレス
部を見る。その値がアドレスで無意味だったら、その先に続く
文字列は辞書にない、ということになる。
2018/09/06(木) 06:02:39.83ID:8UoLzWRo
辞書引きは一応片付いたことにして、次は形態素解析だ。
語彙の部分には、品詞の分類というものがある。ただ、
これがなかなかの難物なのだ。
たとえば日本人なら、日本語の動詞をそのまんま
書いて「動詞」と書いておけば辞書として役に立つ。
ただ、外国人やコンピュータ様は動詞の語幹部分を
別々の形態素として辞書登録しておいて、辞書引きが
終わった段階でパーツを組み立てて「これはどういう
品詞のナニナニ形だ」と提示しなければならない。
するってぇと、たとえば「書かされたがらなかった」
はどうなるかというと「動詞・書k+使役・as+
受動・aれ+欲求・た+表出・が+否定・なk+
過去または完了・aった」と、別々の品詞として
辞書登録しておかなければならなくなる。
「こんなんやっとれるかぁ!」と怒りだす奴が
いそうだが、これは辞書を「形態素(=名前のない
形態素)」の辞書と「品詞(=名前のある形態素)」に
分けて、前者は「開始点の文法属性+マッチング文字列+
終点の文法属性」として管理し、後者は「品詞+辞書登録形」
で辞書かしておいて、適当なツールで「開始点の文法属性+
マッチング文字列+終点の文法属性」に変換してやる(もちろん、
マッチングに不必要な活用語尾は取り去る)という操作を
行なうわけだ。
これによって、解析開始点から「解析開始点の属性」→
「開始点属性」→「マッチング文字列」→「終点属性」ときて、
ここから次々と「終点属性」を「開始点属性」とみて
探索を行なってゆけば、自動的に形態素解析が行なえてしまう、
ということになる。
なお、単なる「かな漢字変換」レベルの処理だったら、
これだけで市販の IME が吹っ飛ぶくらいの威力のある
変換システムができあがる。もちろん、候補の優先度とかいった
塩梅は必要ではあるのだが。
2018/09/06(木) 07:09:53.36ID:8UoLzWRo
この処理系の実装にあたっては、再帰を使って
木探索(ツリー・リトリーブ)で書くのが簡単だが、
それでは面白みに欠ける。
「どの点のどの開始属性から探索する」という
タスクを何らかのデータ構造(C なら構造体、
Java ならオブジェクト)の形で表現しておいて、
データプール(コンテナ)に放り込み、
一個取り出しては探索処理を行なって、
次の探索店をまたデータプールに突っ込む、
ということをする。
これがスタックだと深さ優先探索、
これがキューだと幅優先探索になるので、
プッシュとポップを工夫するだけで、
探索戦略を切り替えることができる。
こういう手法を「チャート法」といい、
構文解析(形態素解析ではなく、だ)の
分野ではよく知られた手法だ。

なお、この手法、ビットマップ上の
領域の塗りつぶしや迷路探索にも
使える。横溝正史の『八つ墓村』に、
金田一耕助がチャート法を使って
巨大洞穴を探索する場面が出てくる。
2018/09/06(木) 09:11:04.07ID:8UoLzWRo
>>729 の話は、要するに「文法属性の始めと終わりを
マッチング文字列で橋渡しする」ことで文法定義を
しちゃって、チャート法の解析エンジンだけで処理を
片づけるという、無精ったらしいことをしているわけだ。
このとき、「マッチング文字列がヌルストリングのとき、
うっかり循環参照かなんかを作りこんじゃったら
無限ループに陥っちゃうだろうが!」という
話になる。
文法そのものがそんなに大袈裟なものじゃない(二千行あれば、
充分書ける)ので、あんまり気にしなくていいのだが、
それでもチェックは入れておいたほうがいい。
2018/09/06(木) 09:16:30.21ID:8UoLzWRo
>>731
これには二つの方策があって、
1)実行前に、スクリプトから実行形式にコンバートするときに、
チェックして対処する。
2)実行時に、同じ位置に同じ文法属性が来たら、そこでハネる。
のどっちか、という話になって、(1)は実行時のオーバーヘッドが
なく、(2)は実行時のチェックのためのオーバーヘッドが生じる。
これはどっちでもよさそうだが、どのみち「辞書と文法を区別しない」の
で、(1)で工夫はするとして、いちおう(2)の機能も組込んで
おくのが安全。
2018/09/06(木) 09:26:43.74ID:8UoLzWRo
>>732 については、一度、大騒ぎしたことがある。
「書いてる」は「書いている」の省略形なので、
「『いる』の語幹『い』の省略」と記述したら、
困ったことに「連用形の現在」が、語幹と一致する
「い」だったのだな。
「お持ち帰り」のように、連用形は連用形に接続するので、
「書いてる」が「書いて(ここに「い」が無限個省略されて
いる)る」と解析されて、いきなりスタックオーバーフロー(笑)。
さんざん解析に手間取ったあげく、「ている」「でいる」の
「てい」「でい」をそれぞれ形態素として登録して逃げた。
このあたり、「どう処理するのが本当か」という話はあるのだが、
>>1
> 言語学の話題などは他のスレッドでお願いします。
と言われているので、このスレでの議論は避けることにする。
734デフォルトの名無しさん
垢版 |
2018/09/06(木) 12:35:12.17ID:8UoLzWRo
とりあえず、>>1
> このスレッドでは、「日本語の構文解析・談話理解・情報検索・
> 文章生成」などの技術に関する理論と(おもに)実装を扱います。
> あくまで、「アプリケーション・プログラミング」の
> 技術的な面に重点をおきたい
というコトになっているんだが、よく見れば「形態素解析」と
いうのは「自然言語処理スレッド」からは排除されているんだよな。

そのあたりに関する、スレ民の意見は伺いたいと思う。
2018/09/06(木) 14:51:06.48ID:tPMc56fx
ここまで読みました
2018/09/06(木) 16:16:39.52ID:8UoLzWRo
>>735
ありがとう。
実装は任せた。
ソースコードは
無償で提供する。

「束(そく。Latteice)から束への建艦」が、
一意に成立するかどうかが疑問だったのと、
それが、その程度効率的なのかについて、
充分なデータが揃っていなかったのだ。
どっかの大学(を含む研究機関)で、
マジメに検証してくれれば、
ありがたいと思う。
2018/09/06(木) 16:25:51.53ID:8UoLzWRo
>>736
×「束(そく。Latteice)から束への建艦」が、
〇「束(そく。Lattice)から束への変換」が、

HyperLisp とかいった、ちょっと古い処理系を
知ってるんなら、説明も楽なんだけど、
有限束から説明すると、半順序構造とか、
いろいろ面倒臭い話があるので、
このスレではパスさせていただく。
2018/09/07(金) 09:04:25.36ID:9e6p+l40
形態素解析は隣接関係だけで
記述できるからいいのだが、
構文解析となると「係り受けの関係
(の非・交差則)」と「文法格の
一意性」っちゅーのがあるので、
処理がワンランク複雑になる。
そうなると冨田法みたいに
スタックが乱立する(スタックが
分岐するので、「カクタス・スタック」、
直訳すると「サボテンスタック」という)
ので非常にややこしく、プログラムを
書くのがややこしい。
BNF で記述して LALR 法かなんか使って
コードに落としこもうとしても、日本語は
省略が多いうえに語順が不定なんで
うまくいかない。
しかたがないので、「なんか分かりやすいシェーマは
ないのか?」と考えたところ、二次元の表を使うことを
思いついた。そうなると、コンピュータ将棋のプログラムが
応用できそう(他の駒の利き筋を通過できないから、
実際はもっと簡単)な感じがしている。
2018/09/07(金) 09:41:44.29ID:n7zqv11M
ok、分かったから
トリップつけろ
740Mr.Moto
垢版 |
2018/09/07(金) 13:54:16.41ID:9e6p+l40
>>739
トリップつけても忘れるんだよな (-_-!)
そもそも、アルゴリズムとかシステム・デザインとかに関する
知的所有権は保護されないし、企業に所属していると
「トレード・シークレット(業務上の秘密)」とか言われて
民事訴訟とか起こされても対抗する手段がない。
原告側(訴えた側)に対抗するには、被告側(訴えられた側)が
証拠を出して反証しないといかんのだが、証拠はたいてい原告側が
握っている。被告側が訴訟に勝てば訴訟費用は取り戻せる
建前にはなっているが、原告側が払ってくれるとは限らないし、
そもそもが「被告側に経済的な負担を与えるために、
金をかけてでも訴訟を起こす(これを SLAPP 訴訟という)」
場合もある。企業は「法人」といって人格権があるので、
企業が原告になることができる。で、倒産しちゃえば「原告が
死亡」したことになるので、けっきょく裁判はチャラになって
しまうので、「計画倒産と SLAPP 訴訟がワンセットで
襲ってくる」みたいなコトも往々にしてある。
で、日本の司法機関は、知的所有権にかかわる訴訟を、あまり
扱ったことがないので、最高裁まで争ってもマトモな判決が
出る可能性は乏しく(企業が個人を訴えた場合、「企業のほうに
理がある」と頭から決めつけるケースが多い。企業には顧問弁護士が
ついてくるが、個人が対抗して弁護士を雇おうとしても、そういう訴訟に
慣れた弁護士はなかなか見つからない)、途中で和解に持ちこもうとして
裁判官がゴネるケースが多々ある。
青色 LED の中村修二さんは、「けっきょく、裁判費用で結果的に
足が出た」とボヤいていらっしゃった。
741Mr.Moto
垢版 |
2018/09/07(金) 14:01:02.08ID:9e6p+l40
そんなワケで、トリップは遠慮しとく。
おれに用があったら、アスキーの西さんとか、
おなじく出版技術部の TEX を維持してるチームとか、
インプレスの井芹さんとか、アップルの元「ことえり」の
チームとか、メタボール・アルゴリズムで有名な大村 皓一さんとか、
そのあたりの人に「JAI-Perser の開発者の
S さんという人に心当たりはありませんか?」と訊いて
もらえば、住所氏名電話番号メールアドレスくらいは
解るはずだ。
2018/09/07(金) 14:17:13.22ID:9e6p+l40
>>741
もっとも、西さんは井芹さんと塚本さんがアスキーを
退社してインプレスを立ち上げたために、ソフトウェア
開発部門が解散してしまったために VJE-β のチームが
解散したとか、井芹さんは会社を立ち上げたばかりで
企業体力がなかったので訴訟を避けたかったとか、
出版技術部はアスキーとインプレスの両方と
関連があったので JAIP プロジェクトとは距離を
置かざるを得なかったとか、「ことえり」チームは
ジョブスが不在だった時期で日本市場に力を入れる
余力がなかったとか、大村 皓一さんは もんたよしのり
とのコラボに関わったら芸能関係の その筋の方々と
モメて行方をくらましていたとか、いろいろと
薄らぐらい事情もあったので、逃げ出すかもしれんが。

いちばん捕まえやすいのは、農工大の小谷善行さんかな?
でも、パズル懇話会のときに、NHK−BS の『パズルへの招待』
の件で話しかけようとしたら、「所長の顔を見るなり逃げ腰に
なっていた」という話を聞いたこともあるしなぁ(笑)
743Mr.Moto
垢版 |
2018/09/07(金) 17:57:59.51ID:9e6p+l40
板違い(本来はム板ではなくてマ板の話題)であり、
スレ汚しでもあり(日本語処理そのものとは、あまり関係がない)、
ひとり語りになってしまう(けっこう長い話なので)のだが、
勘弁してくれい。

時は一九八十年代半ば、まだ代表番号の末尾が「1」だった
時代(電話交換機が、電子交換機ではなく、クロスバー交換機
であり、ステップ・バイ・ステップ交換機が残っていて、
電話回線がトーン回線だった頃)に、現在のファクシミリみたいに
音声回線でデータ通信を行なっていた時代の話である。
通信速度は、300 bps とか 600 bps とか 1200 bps とか 2400 bps
とかだった時代である。
744Mr.Moto
垢版 |
2018/09/07(金) 18:12:14.44ID:9e6p+l40
当時、「草の根 BBS」という「アコースティック・モデム+
音声回線」による電子掲示板が、ちょっとしたブームに
なっており、SONY からも BBS 電話が発売されたり、
アーサー・C・クラークの「二〇〇一年」の続編
にあたる「二〇一〇年」製作にあたって、原作者の
クラークと監督のピーター・ハイアムズがワープロを
使って交信していたり(『オデッセイ・ファイル
― アーサー・C・クラークのパソコン通信のすすめ』と
いう本になっている)していたので、うちの
所長は PC-98 とヘイズ規格の AT モデムを使って、
BBS のホストシステムを構築したそうだ。
745Mr.Moto
垢版 |
2018/09/07(金) 18:18:47.66ID:9e6p+l40
MS-DOS はシングルタスクなので、回線が(不用意に)
切れたときの対処が難しい。しょうがないので
上のプログラムから下のプログラムを起動し、
回線が切れたら下のプログラムが落ちて上のプログラムに
制禦が戻る、という形になっていた。
そうしたら、所長の後輩の HASH くんが、「OS/9 は
マルチタスクですよ wwwww」と言って、FM-11/AD2+
と OS/9 を使って BBS のホストシステムを作ってしまった。
のちに、ANA かなんかが同じ構成で航空券の予約システムを
構築したらしいが、関連があるのかどうかは知らない。
746Mr.Moto
垢版 |
2018/09/07(金) 18:25:49.48ID:9e6p+l40
時は移って大喪の礼の当日である。
世の中が静まり返っている休日だが、
同じころに「マンガの神様」である手塚治虫
さんも亡くなっていた。そこで、ネットで
知りあったHASH くんを交えたハッカー四人が
「手塚アニメ追悼上映会をしよう」というので、
HASH くん宅に集まった。
そのとき、『ToolBox 100 の定跡』の小池 邦人さんが
そこに加わっていた。
747Mr.Moto
垢版 |
2018/09/07(金) 18:30:12.54ID:9e6p+l40
じつは、そのとき小池さんがそこにいたと
いうことを、所長はすっからかんに忘れて
おり、後にそれを小池さんに言われて大いに
狼狽した、という話を聞いている。
で、「Mac の ToolBox には、ISAM
(順編成索引つきファイル)が入っている」
という話があったらしい。その話は所長も
憶えていないという。
このあたりから、自然言語処理の話になる。
748Mr.Moto
垢版 |
2018/09/07(金) 19:28:19.24ID:9e6p+l40
当時、Macintosh は高価だった。そんなわけで、
グァム島とかハワイとかに、観光ついでの
Mac 買い出しツアーとかがあった。
ところが、問題なのは、マニュアルが英語で
あることのである。電子データでそれなりの
情報は入ってくるのだが、困ったことに、
専門用語交じりなのである。
This is a Pen とか I have an apple. なら
分かるのだが、コンピュータ関係の専門用語は、
そこいらの辞書には載っていないのだ。
しかも、辞書を引くのはめんどくさい。
「コンピュータ関係の専門語だけでも
辞書引きをやってくれるような、
お手軽なシステムはないのか?」
という話になった。
749Mr.Moto
垢版 |
2018/09/07(金) 19:33:45.67ID:9e6p+l40
「なんとかならんか?」
「簡単だよ。ISAM 載ってんだろ?」
「だって、ISAM は完全一致だろう?
語尾が変化したら一致しないんじゃないか?」
「変化しそうな部分を取っちゃってから
検索すればいい。坂井 利之先生の
『翻訳するコンピュタ ー 情報革命と
語学の壁に挑む』(講談社ブルーバックス)に
書いてある」
「だけど、一致しても、複数の候補がヒット
しちゃうだろう」
「大した数じゃねぇから、一個一個チェックすりゃあいい」
750Mr.Moto
垢版 |
2018/09/07(金) 19:39:36.52ID:9e6p+l40
「…… だけど、末尾から語尾を削ったら
本体がなくなっちゃったらどうする?」
「ヌルストリングはキーにならないのか?」
「― なるな。じゃあ、そういうプログラム書けるか?」
「書こうか?」
というので、辞書引きツール “rStone” というツールがで
きた。最初は「ロゼッタ・ストーン」という名前にしたのだが、
なんか商標登録の関係で引っかかった、という。
751Mr.Moto
垢版 |
2018/09/07(金) 19:44:14.38ID:9e6p+l40
rStone は、“BeerWare” として配布された。
「使って、気にいったらビール券を送ってこい」。
そうしたら、ユーザから、「正式に製品化して
サポートしてくれ」という話になった。
当時は知的所有権関係の法整備が進んでいなかったので、
しょうがないから、当時勤務していた企業から
製品としてリリースすることになった。
2018/09/07(金) 19:49:00.16ID:9e6p+l40
rStone は、売れた。
そうしたら、会社が「英和があるんなら、
和英が欲しくなるよな?」と言いだして、
たしか四か月くらいかけて、「日本語の
形態素解析システムを搭載した、日本語の
漢字かな交じり文/かな表記文両用の
辞書引きシステム」を開発した。
このあたりの話は面白いんだが、長くなるので省略。
あっちゃこっちゃに書いているので、たぶん
自然言語処理をやってる人間なら知ってると
思う。
753Mr.Moto
垢版 |
2018/09/07(金) 19:54:11.64ID:9e6p+l40
この、「rStone 和英版」(rStone-JE)は、
C 言語で記述されていて、中身は再帰呼び出し
を使った木探索プログラムだった。
これが非常にめんどくさい。人工知能システムでいう
プロダクション・システムで、IF 〜 THEN 〜 ELSE が
延々と続く砂漠のようなコードであり、しかも相互に
影響しあっているので、メンテナンスが大変なんである。
そういうわけで、「こんなんやっとれるかぁ!」と
所長がキレた。
754Mr.Moto
垢版 |
2018/09/07(金) 20:03:55.18ID:9e6p+l40
で、「文法記述用のスクリプト言語」
「プロダクション・システム駆動用の
チャート法エンジン」
「辞書管理用のツール群」
を統合したシステムをインプリメントした。

このあたりから、アスキーの VJE-Pen の
開発チームおよび出版技術部の TEX 維持チーム、
それにアップルコンピュータ・ジャパンの
「ことえり」開発チームとのコラボレーションが
始まった。

こっから先は、商売がらみのすったもんだの
話になるので、本スレの趣旨に合わない。
そんなわけで、この件はここで終わり。
辞書管理の労苦とか、形態素解析システムと
構文解析システムとの統合、みたいな技術的な
話は、興味があったら随時質問してくれ。
2018/09/08(土) 02:41:35.08ID:sw3hSwfT
要らない
個人ブログでやって
産廃みたいな話しかできないみたいだから
756Mr.Moto
垢版 |
2018/09/08(土) 03:56:49.86ID:Hj3WpMqo
ここで、自然言語処理における
形態素解析システムについて、
あらためて考えよう。
「日本語の(構文文法未満の)文法は
{始点属性、マッチング文字列、終点属性}という
三つ組みデータで記述できて、チャート法によって
処理できる」ということが謂える。
で、ここから「日本語でなくても、同じことができる」
が謂える。
つまり、「同じシステムで、ローマ字かな変換も
できてしまう」。数学者の島内 剛一先生による
ローマ字かな変換は、そのまんま記述可能で、
あっさり動いた。
757Mr.Moto
垢版 |
2018/09/08(土) 04:09:17.50ID:Hj3WpMqo
つぎに、「経路探索ができる」というのも指摘しておこう。
共立出版のコンピュータ・サイエンス専門誌『bit』の
『ナノピコ教室』に「十三階段への道」という問題が出た。
十三階段を上るのに、「一歩で一段」「一段抜かしをして、
一歩で二段」「二段抜かしをして、一歩で三段」の三通りの
やりかたがある場合に、「十三段を上がるのに、何通りの
やりかたがあるか、という問題である。
この問題は、要するに、“*”、“**”、“***” という単語が
あったとして、"*************" は何通りの表し方が
あるか、という問題に帰着する。「すもももももももものうち」
を「李(すもも)」「桃(もも)」「酢(す)」「藻(も)」
「も(助詞)」「の(助詞)」「内(うち)」で表すやりかたの
候補を全部挙げろ、と言ってるのと同じことなのだから。
758Mr.Moto
垢版 |
2018/09/08(土) 04:15:51.99ID:Hj3WpMqo
「かな漢字変換システムは間に合っているし、
パズルにも興味がない」という人は多いだろう。
とはいえ、このスレは自然言語処理スレッドなのである。
そうすると、当然のように辞書は使ってるよな?
で、その辞書は たいていテキストの形で持ってるよな?
(中には「DBに入れてる」という人もいるだろうが、
出力することくらいあるだろうから同じだ)
そのとき、順番はどうなるか。単語とえば読みがなの順で
出力したいときに、どうやって整列させたらいいのか。
759Mr.Moto
垢版 |
2018/09/08(土) 04:26:13.30ID:Hj3WpMqo
このとき、読みがなをキーにして単純に整列してしまうと、
うまくない。文字コードの大小で整列すると、普通の
紙の辞書の見出し語順にならない。
「蚊」「蛾」「梶田」「鹿島」が「か」「かしま」
「が」「かじた」の順になる。こうなると、データと
紙の辞書を突き合わせるのが非常にめんどくさい。
そうなると、「辞書順にソートするのに必要な比較関数」
(要するにコンパレータ)を書きゃあいいじゃねぇか、
という話になりそうだが、実際にやると大抵失敗する。
順序関係が循環して、整列が終わらなくなる。
じゃあ、どうするか、だ。
2018/09/08(土) 04:31:58.44ID:xpw/+eIi
>>755
今は形態素解析って
ライブラリで済ませちゃうからな
その先が知りたい
761Mr.Moto
垢版 |
2018/09/08(土) 04:42:26.70ID:Hj3WpMqo
辞書を出版している出版社や、ビジネスソフト
(顧客名とかでソートすることだってあるだろう)を
開発している会社ではどうやっているのか、といえば、
「読みがなから、整列用のキー文字列を生成する」
という手法を用いている。このキー文字列で辞書順
整列ができてしまう。
このとき、生成する文字列はふたつ。AとBを
生成したとして、Aのあとに読み仮名のコードよりも
小さい文字をくっつけて、Bにくっつける。なお、
Shift-JIS と UNICODE では、かなと記号の
位置関係が違うので、注意すること。
で、この「整列用のキー」の生成に、やっぱり
先の形態素解析エンジンが使えてしまう。
JUMANだの茶筅だのといった
形態素解析システムを使っていても、この手の汎用の
ツールはひとつ持っておくと便利だ。
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況