前前スレ 自然言語処理スレッド その2
http://mimizun.com/log/2ch/tech/1173105287/
前スレ 自然言語処理スレッド その3
http://mimizun.com/log/2ch/tech/1235129481/
このスレッドでは、日本語の構文解析、談話理解、情報検索、
文章生成などの技術に関する理論と(おもに)実装を扱います。
あくまでアプリケーションプログラミングの技術的な面に重点をおきたいので、
学術的な話はアリですが、いわゆる人工無能や哲学的AI話、
言語学の話題などは他のスレッドでお願いします。
探検
自然言語処理スレッド その4
■ このスレッドは過去ログ倉庫に格納されています
1デフォルトの名無しさん
2014/06/03(火) 05:40:00.54ID:yefNLumx652Mr.Moto
2018/08/06(月) 06:44:57.20ID:C/D04uYr スキーマと辞書の扱いを、どうすりゃいいのかな?
A)田中は台所でカップ焼きそばを作っている。
B)田中は工場でカップ焼きそばを作っている。
があって、
C)田中は栃木でカップ焼きそばを作っている。
は、どう解釈するか、っちゅーのが問題なんだが。
A)田中は台所でカップ焼きそばを作っている。
B)田中は工場でカップ焼きそばを作っている。
があって、
C)田中は栃木でカップ焼きそばを作っている。
は、どう解釈するか、っちゅーのが問題なんだが。
653Mr.Moto
2018/08/06(月) 13:59:40.47ID:C/D04uYr 漢字二字熟語で置きかえるというのはひとつの手段ではあるのだが、
A)田中は台所でカップ焼きそばを作っている。
→田中は台所でカップ焼きそばを調理している。
B)田中は工場でカップ焼きそばを作っている。
→製造している/開発している。
くらいはOKとして、
「子供を作っている」とか「家庭を作っている」とか
いうのは、なかなか説明しづらいものがあるように思う。
A)田中は台所でカップ焼きそばを作っている。
→田中は台所でカップ焼きそばを調理している。
B)田中は工場でカップ焼きそばを作っている。
→製造している/開発している。
くらいはOKとして、
「子供を作っている」とか「家庭を作っている」とか
いうのは、なかなか説明しづらいものがあるように思う。
654デフォルトの名無しさん
2018/08/07(火) 09:52:26.98ID:kx2eUWnl 昔ながらの方法だな
いずれ収拾がつかなくなるだろう
いずれ収拾がつかなくなるだろう
655デフォルトの名無しさん
2018/08/07(火) 12:45:26.68ID:DcjP7j/S656Mr.Moto
2018/08/07(火) 19:12:08.68ID:DcjP7j/S かなり昔の話だが、
『ぼんさんがへをこいた』というパソコンの
ソフトがあった。
今日、近所のローソンへ行ったら、なんかしら
レジのところに『おいしいおでんのつくり方』という
のが置いてあって、「これって書籍ですか? それとも
店内のマニュアルですか?」と訊いたら、「あ、これは
店内用のマニュアルです」という返答だった。
「おいしいおでんのつくり方」をコンピュータに説明できるか、
というのは、けっこうテーマになりそうに思う。
『ぼんさんがへをこいた』というパソコンの
ソフトがあった。
今日、近所のローソンへ行ったら、なんかしら
レジのところに『おいしいおでんのつくり方』という
のが置いてあって、「これって書籍ですか? それとも
店内のマニュアルですか?」と訊いたら、「あ、これは
店内用のマニュアルです」という返答だった。
「おいしいおでんのつくり方」をコンピュータに説明できるか、
というのは、けっこうテーマになりそうに思う。
657デフォルトの名無しさん
2018/08/07(火) 19:49:55.57ID:UzMr++cp つまなさう
658Mr.Moto
2018/08/07(火) 20:07:35.64ID:DcjP7j/S659デフォルトの名無しさん
2018/08/08(水) 08:24:21.25ID:P8peofBj 知識ベースに疑問を持てよ
660Mr.Moto
2018/08/08(水) 13:13:47.75ID:l+OzLrq9 >>659
知識ベース=プロダクション・システムという
昨今の決めつけには疑問を持ってる。
とはいえ、様相論理とかフレーム理論とか、
そのあたりを取り込みゃあうまくいくかというと、
そうでもなさそうな気はする。
なんか、そこいらを統合するコンセプトが
ありそうな気はするんだが、おれには今のところ
思いつかない。
知識ベース=プロダクション・システムという
昨今の決めつけには疑問を持ってる。
とはいえ、様相論理とかフレーム理論とか、
そのあたりを取り込みゃあうまくいくかというと、
そうでもなさそうな気はする。
なんか、そこいらを統合するコンセプトが
ありそうな気はするんだが、おれには今のところ
思いつかない。
661デフォルトの名無しさん
2018/08/08(水) 20:15:37.89ID:DgDhxyY4 正直でよろしい
663デフォルトの名無しさん
2018/08/09(木) 12:51:14.04ID:a88nmHyC このスレさあ、最近俺とお前しか書き込んでないよ
664デフォルトの名無しさん
2018/08/09(木) 12:56:18.84ID:NXkdt6vr ごみん
665Mr.Moto
2018/08/09(木) 22:08:36.40ID:RMQfHlDH 形態素解析って、流行ってねぇんだなぁ ……
真面目にやると面白いんだけどな。
真面目にやると面白いんだけどな。
666Mr.Moto
2018/08/09(木) 22:15:20.21ID:RMQfHlDH そういやぁ「三階」を「さんがい」って言う奴はいるけど、
「三回」は「さんかい」なんだよな。
そういうのって自然言語処理の世界で真面目に研究してる
奴っておるんかな?
AI も方言でインタフェースが成立すりゃあ可愛げがあるのに。
「三回」は「さんかい」なんだよな。
そういうのって自然言語処理の世界で真面目に研究してる
奴っておるんかな?
AI も方言でインタフェースが成立すりゃあ可愛げがあるのに。
667デフォルトの名無しさん
2018/08/10(金) 10:58:25.21ID:x87YEa9j >>666
言語学ではそういう感じの論文はよくあるよね。
言語学ではそういう感じの論文はよくあるよね。
668Mr.Moto
2018/08/10(金) 15:24:14.22ID:a1LHeoak >>667
あるのか!
繰返しになるが、人間って、文法というものを所与のものとして
受入れているので、「形態素解析でイレギュラーなものを拾う」
っていうのは、けっこう困難なんだよ。
だけど、メジャーな形態素解析システムって、そういうのを
スクリーニングするようにできてないので、インターネット
のおかげで言語データが大量にあるのに、そういう例外を
掬うのって、なかなか手段がないんだよ。
昨今のパーソナルコンピュータは、そういうのに使えるだけの
性能を持ってるのに、研究者がそういうツールを使いこなせない、
っていうのは(研究者に対して言ってんじゃなく、サポートする
体制のほうに言ってんだが)イカンと思う。
あるのか!
繰返しになるが、人間って、文法というものを所与のものとして
受入れているので、「形態素解析でイレギュラーなものを拾う」
っていうのは、けっこう困難なんだよ。
だけど、メジャーな形態素解析システムって、そういうのを
スクリーニングするようにできてないので、インターネット
のおかげで言語データが大量にあるのに、そういう例外を
掬うのって、なかなか手段がないんだよ。
昨今のパーソナルコンピュータは、そういうのに使えるだけの
性能を持ってるのに、研究者がそういうツールを使いこなせない、
っていうのは(研究者に対して言ってんじゃなく、サポートする
体制のほうに言ってんだが)イカンと思う。
669デフォルトの名無しさん
2018/08/10(金) 15:41:04.46ID:XouIcNJM 最近の研究に触れてないの?
670Maria
2018/08/10(金) 15:54:03.82ID:a1LHeoak >>669
研究者が、あらかた、意味論とかそっちの方に逃げちゃってるので、
記述文法とかの話になると、誰も相手をしてくれないんだよねー。
昔は大修館の『言語』の『言語空間』で、国広哲弥先生とガチのバトルとか
してたんだけどねー。
「相撲好き」っていうのかなぁ? がっぷり四つに組んで、「おまえの
底力を見せてみろ!」みたいなヒトって、最近は見ないでしょう?
研究者が、あらかた、意味論とかそっちの方に逃げちゃってるので、
記述文法とかの話になると、誰も相手をしてくれないんだよねー。
昔は大修館の『言語』の『言語空間』で、国広哲弥先生とガチのバトルとか
してたんだけどねー。
「相撲好き」っていうのかなぁ? がっぷり四つに組んで、「おまえの
底力を見せてみろ!」みたいなヒトって、最近は見ないでしょう?
671デフォルトの名無しさん
2018/08/11(土) 20:51:29.75ID:lNetj8kV ところでだ。「チンボがシコシコする」という日本語表現は、文法的に正しいのか?
チンボ「を」シコシコするのではなくて、チンボ「が」シコシコする。この場合、「チンボ」は主語となる。
オブジェクト指向で言う「集約」は2種類あって、全体(俺)と部分(チンボ)が繋がっている場合と、
全体(俺)と部分(チンボ)が別々になっている場合とが考えられる。けれども「チンボ」はそれ自体
が独立した生き物であり、所有者の意思とは無関係に、勃起して「シコシコする」。
例えば寝てる時にエロい夢みて朝起きてみたらチンコが勃起して射精してたとか。
違うか?
「頭がズキズキする」は良いが、「チンボがシコシコする」はダメな理由を、50字以内で述べろ!>>98
チンボ「を」シコシコするのではなくて、チンボ「が」シコシコする。この場合、「チンボ」は主語となる。
オブジェクト指向で言う「集約」は2種類あって、全体(俺)と部分(チンボ)が繋がっている場合と、
全体(俺)と部分(チンボ)が別々になっている場合とが考えられる。けれども「チンボ」はそれ自体
が独立した生き物であり、所有者の意思とは無関係に、勃起して「シコシコする」。
例えば寝てる時にエロい夢みて朝起きてみたらチンコが勃起して射精してたとか。
違うか?
「頭がズキズキする」は良いが、「チンボがシコシコする」はダメな理由を、50字以内で述べろ!>>98
672デフォルトの名無しさん
2018/08/11(土) 21:00:32.98ID:vW2Ha+vq673Mr.Moto
2018/08/11(土) 21:23:15.94ID:Rp7CVdHg >>671
それは運用論の話だな。たしか
城生 佰太郎『言語学は科学である ―「象ガ国会デ宿題ヲ忘レル」
不思議への招待』で「なぜ『元祖ゴキブリラーメン』がないのか?」
みたいな話で論考してたと思う。
それは運用論の話だな。たしか
城生 佰太郎『言語学は科学である ―「象ガ国会デ宿題ヲ忘レル」
不思議への招待』で「なぜ『元祖ゴキブリラーメン』がないのか?」
みたいな話で論考してたと思う。
674Maria
2018/08/11(土) 21:31:55.39ID:Rp7CVdHg >>671
あんた、どっかの大学の自然言語処理系の研究室から、鉄砲玉として
送り込まれてきたんだろうけどさぁ、命(タマ)ぁ獲れなかったら、
どういう目に遭うか、覚悟はできてるんだよね?
逃げるんじゃないわよぉ? ほら、こっちはいくらでも
相手になろうって言ってるのよ?
あんた、どっかの大学の自然言語処理系の研究室から、鉄砲玉として
送り込まれてきたんだろうけどさぁ、命(タマ)ぁ獲れなかったら、
どういう目に遭うか、覚悟はできてるんだよね?
逃げるんじゃないわよぉ? ほら、こっちはいくらでも
相手になろうって言ってるのよ?
675デフォルトの名無しさん
2018/08/11(土) 21:38:52.01ID:vW2Ha+vq >>674
戯言はいいから、はやく!
戯言はいいから、はやく!
676Maria
2018/08/11(土) 22:01:16.57ID:Rp7CVdHg >>675
だから、質問しなさいって言ってるのよ。
仁義切って、啖呵切って、勝負はそれからでしょう?
「お控えなすって」
「早速のお控え、ありがとうござんす。手前、生国は …」
から始めるのが仁義でしょう?
せめて、どんな研究してて、どういう分野に興味があって、
どういう点に疑問やら反論やらがあるのか、
はっきりしなさいよ!
どこの所属とかは訊かないけどさ、
「この分野だったらおれのほうが上だ!
白黒つけてやるから勝負しろ!」くらいの
勢いでかかってきなさいよ。
だから、質問しなさいって言ってるのよ。
仁義切って、啖呵切って、勝負はそれからでしょう?
「お控えなすって」
「早速のお控え、ありがとうござんす。手前、生国は …」
から始めるのが仁義でしょう?
せめて、どんな研究してて、どういう分野に興味があって、
どういう点に疑問やら反論やらがあるのか、
はっきりしなさいよ!
どこの所属とかは訊かないけどさ、
「この分野だったらおれのほうが上だ!
白黒つけてやるから勝負しろ!」くらいの
勢いでかかってきなさいよ。
677デフォルトの名無しさん
2018/08/11(土) 22:02:45.90ID:8JECWN+f 「シコシコ」は対象と他の物体の摩擦を表す擬音。
「ズキズキ」は対象が発してる状態の擬音。
よって対象そのものについて述べるのに
外部要因がある「シコシコ」を使うのは適切じゃない。
つまり50文字で纏めると
全く自然言語処理をやってないプログラマですが
いつも楽しく拝見しています
ところでスレチじゃないですかね
となる
「ズキズキ」は対象が発してる状態の擬音。
よって対象そのものについて述べるのに
外部要因がある「シコシコ」を使うのは適切じゃない。
つまり50文字で纏めると
全く自然言語処理をやってないプログラマですが
いつも楽しく拝見しています
ところでスレチじゃないですかね
となる
678Maria
2018/08/11(土) 22:28:42.02ID:Rp7CVdHg >>677
あー、こういう方がいらっしゃって下さると、
ありがたいわー。
「背中がヒリヒリする」とか「喉がイガイガする」とかは、
内部なのか外部なのかが判然としないけど、「シコシコ」は
内部化がしにくい、っていうコトですよね?
とはいえ、肩凝りなんかだと、「僧帽筋と菱形筋と最長筋が
“シコシコ”してるんですよ」とかいう表現は、運用上は“あり”だと
思うわけです。
となると、これは自然言語処理というよりも、意味論のほうの
話になると思うんですよ。
「できる」の命令形「できろ」は、文法上は禁止されていませんが、
運用上は「それ、無理でしょ?」っていう話になってしまいます。
それと同じことだと思うんですよ。
あー、こういう方がいらっしゃって下さると、
ありがたいわー。
「背中がヒリヒリする」とか「喉がイガイガする」とかは、
内部なのか外部なのかが判然としないけど、「シコシコ」は
内部化がしにくい、っていうコトですよね?
とはいえ、肩凝りなんかだと、「僧帽筋と菱形筋と最長筋が
“シコシコ”してるんですよ」とかいう表現は、運用上は“あり”だと
思うわけです。
となると、これは自然言語処理というよりも、意味論のほうの
話になると思うんですよ。
「できる」の命令形「できろ」は、文法上は禁止されていませんが、
運用上は「それ、無理でしょ?」っていう話になってしまいます。
それと同じことだと思うんですよ。
679デフォルトの名無しさん
2018/08/12(日) 02:28:21.41ID:/WZyCUyT680デフォルトの名無しさん
2018/08/12(日) 02:58:57.41ID:jpwoxOLr 最近気になるのは、DVDが発売する、だな
681デフォルトの名無しさん
2018/08/12(日) 09:56:42.76ID:ULAI4zx4 >>680
> 最近気になるのは、DVDが発売する、だな
それは「DVD が発売される」じゃなくってか?
たしかに「DVD が出る」みたいな表現はあるから
なんかしらの説明はあるのかもしれんけど。
強いていえば「DVD を発売する」の「DVD」が
強調されて「DVD “が” 発売する」になった、
あたりかな? そうでなければ「発売する」に
自発の意味がある、という解釈だな。
> 最近気になるのは、DVDが発売する、だな
それは「DVD が発売される」じゃなくってか?
たしかに「DVD が出る」みたいな表現はあるから
なんかしらの説明はあるのかもしれんけど。
強いていえば「DVD を発売する」の「DVD」が
強調されて「DVD “が” 発売する」になった、
あたりかな? そうでなければ「発売する」に
自発の意味がある、という解釈だな。
682Mr.Moto
2018/08/12(日) 10:29:17.36ID:ULAI4zx4 「おいしいおでんの作り方」と
「おでんをおいしく作る方法」は
意味がほぼ同じであるように見えるのに、
文構造がかなり違う (-_-!)
どこかに「食べる」が省略されているとでも
考えないといかんのか? 食べなかったら
「おいしい」というのが判断できないわけだから。
「(食べて)おいしいおでんの作り方」はともかく、
「おでんをおいしく作る方法」は、ちょっと
珍しい形の転置が起きた結果、文の構造が
見えにくくなっている感じがする。
「おいしく食べられるおでんが作れる方法」を
どうひねくったら「おでんをおいしく作る方法」に
なるのかがわからん。
「おでんをおいしく作る方法」は
意味がほぼ同じであるように見えるのに、
文構造がかなり違う (-_-!)
どこかに「食べる」が省略されているとでも
考えないといかんのか? 食べなかったら
「おいしい」というのが判断できないわけだから。
「(食べて)おいしいおでんの作り方」はともかく、
「おでんをおいしく作る方法」は、ちょっと
珍しい形の転置が起きた結果、文の構造が
見えにくくなっている感じがする。
「おいしく食べられるおでんが作れる方法」を
どうひねくったら「おでんをおいしく作る方法」に
なるのかがわからん。
683Mr.Moto
2018/08/12(日) 12:47:07.64ID:ULAI4zx4 >>682
ようやく解ってきた。
述語にかかる句には、
「文法格をもつ句」(主語とか目的語とか)と、
「修飾句」(「さっぱり」「あっさり」「粛々と」)と、
「相」(「夏に」「谷川岳で」)があるという分類が
立っているのだが、いわゆる「具格」は、文法格ではなくて
相であり、体言が述語にかかるときに「で」が附属するので
あって、「で」は「具格を表す格助詞」ではないっちゅー
コトなんだな?
文法格がないんで、述語に対する一意性もないわけで、
「〜で〜で」みたいなのもアリ(なかなか実例が
示せないんだが)なんだと思う。
「鶏は鍋でおろし醤油で食うのが好きだ」の場合、
「鍋」と「おろし醤油」が助詞「で」によって
述語「食う」に係っているわけで、これを
「鶏は鍋と おろし醤油で食うのが好きだ」とすると
語感がおかしくなる。そう考えると、
「方法」というのは、「場所」や「時刻」「季節」と
同じように、「相」であると考えたほうが、
動詞の型分けがすっきりしそうだ。
ようやく解ってきた。
述語にかかる句には、
「文法格をもつ句」(主語とか目的語とか)と、
「修飾句」(「さっぱり」「あっさり」「粛々と」)と、
「相」(「夏に」「谷川岳で」)があるという分類が
立っているのだが、いわゆる「具格」は、文法格ではなくて
相であり、体言が述語にかかるときに「で」が附属するので
あって、「で」は「具格を表す格助詞」ではないっちゅー
コトなんだな?
文法格がないんで、述語に対する一意性もないわけで、
「〜で〜で」みたいなのもアリ(なかなか実例が
示せないんだが)なんだと思う。
「鶏は鍋でおろし醤油で食うのが好きだ」の場合、
「鍋」と「おろし醤油」が助詞「で」によって
述語「食う」に係っているわけで、これを
「鶏は鍋と おろし醤油で食うのが好きだ」とすると
語感がおかしくなる。そう考えると、
「方法」というのは、「場所」や「時刻」「季節」と
同じように、「相」であると考えたほうが、
動詞の型分けがすっきりしそうだ。
684デフォルトの名無しさん
2018/08/12(日) 17:57:06.47ID:PIG+WPz5 おいしいおでんの作り方=how to make おいしい おでん
「おいしい」は「おでん」に対する修飾語
おでんをおいしく作る方法=how to make おでん (to be) おいしい
「おいしい」は「おでん」に対する述語
「おいしく作る」は「穴を掘る」と同じように考えればよく
「食べる」が省略されているなどと考える必要はない。
「おいしい」は「おでん」に対する修飾語
おでんをおいしく作る方法=how to make おでん (to be) おいしい
「おいしい」は「おでん」に対する述語
「おいしく作る」は「穴を掘る」と同じように考えればよく
「食べる」が省略されているなどと考える必要はない。
685Mr.Moto
2018/08/12(日) 18:01:52.82ID:ULAI4zx4 >>684
よし、解った。
「鮟鱇は土鍋で出汁で煮る」はオッケーだが、「土鍋と出汁で煮る」は NG。
「鮟鱇は土鍋でかえしと出汁で煮る」もオッケー。
「鮟鱇は土鍋でかえしと出汁で強火で煮る」もオッケー。
つーことは、具格は文法格ではないから、なんかしら別の呼び名を
立てたほうがいい、っちゅーこっちゃね。するってぇと「具相」とかに
なるのかな。
よし、解った。
「鮟鱇は土鍋で出汁で煮る」はオッケーだが、「土鍋と出汁で煮る」は NG。
「鮟鱇は土鍋でかえしと出汁で煮る」もオッケー。
「鮟鱇は土鍋でかえしと出汁で強火で煮る」もオッケー。
つーことは、具格は文法格ではないから、なんかしら別の呼び名を
立てたほうがいい、っちゅーこっちゃね。するってぇと「具相」とかに
なるのかな。
686Mr.Moto
2018/08/12(日) 18:18:00.76ID:ULAI4zx4687Mr.Moto
2018/08/12(日) 18:35:32.47ID:ULAI4zx4 >>684
> おでんをおいしく作る方法=how to make おでん (to be) おいしい
うん。
ひょっとしたら、The way of make おいしい おでん
みたいな脳内変換が行なわれているかもしれない、という
可能性を考慮する必要はあるだろうな、と思っている。
強調転置は、とりたて詞「は」「が」を “常に” 伴うと、ずっと
思っていたので、「を」がそのまま使われて
強調転置が行なわれる、というケースを考えていなかった。
やっぱり、形態素解析 “だけ” を考えて自然言語処理を
行なおうとすると、どっかしらに無理がくるということか。
> おでんをおいしく作る方法=how to make おでん (to be) おいしい
うん。
ひょっとしたら、The way of make おいしい おでん
みたいな脳内変換が行なわれているかもしれない、という
可能性を考慮する必要はあるだろうな、と思っている。
強調転置は、とりたて詞「は」「が」を “常に” 伴うと、ずっと
思っていたので、「を」がそのまま使われて
強調転置が行なわれる、というケースを考えていなかった。
やっぱり、形態素解析 “だけ” を考えて自然言語処理を
行なおうとすると、どっかしらに無理がくるということか。
688Mr.Moto
2018/08/12(日) 18:41:17.81ID:ULAI4zx4 >>687
「The way of make」とか書いたらダメだな(^_^;)。
俗語・口語に慣れちゃってるんで、気づかなかった。
「The way of to make」とか「The way of how to make」
とか書かないと、英語教師には叱られそうだ。
「The way of make」とか書いたらダメだな(^_^;)。
俗語・口語に慣れちゃってるんで、気づかなかった。
「The way of to make」とか「The way of how to make」
とか書かないと、英語教師には叱られそうだ。
689デフォルトの名無しさん
2018/08/13(月) 16:13:26.37ID:obMX332h 666
読みで揺らいでるけど
「依存」は「いぞん」がいつのまにか「いそん」に変わってしまった
「マスゴミ」は「マスコミュ」
でないといけない
読みで揺らいでるけど
「依存」は「いぞん」がいつのまにか「いそん」に変わってしまった
「マスゴミ」は「マスコミュ」
でないといけない
690684
2018/08/13(月) 17:13:57.48ID:GO6p/lGf > Mr.Moto
> 「おいしく作る」は「穴を掘る」と同じように考えればよく
と書いたこちらの意図がまったく伝わっていないようだが。
穴を掘る、湯を沸かすなどと同じく、ただの結果を先取りした表現。
「壁を白く塗る」と同じといってもよい。
> 「おいしく作る」は「穴を掘る」と同じように考えればよく
と書いたこちらの意図がまったく伝わっていないようだが。
穴を掘る、湯を沸かすなどと同じく、ただの結果を先取りした表現。
「壁を白く塗る」と同じといってもよい。
691Mr.Moto
2018/08/13(月) 17:28:37.19ID:AihWjEg3 >>690
おれは、形容詞は(暗黙の)主語を要求するという点に着目した。
「おいしいおでん」の「おいしい」の主語は、「そのコンビニの店員」
ではなくて、「そのコンビニの系列の店で、リピーターになってくださる
お客様」だと思うんだよ。
ペットショップでミジンコとかコオロギとかゴキブリとか
冷凍のヌードマウスを買ってくお客さんが、「おいしい」っていうのは
また別な意味だろう?
プロの料理人が言ってたけど、「うまみ調味料は、半分までだったら
バレないけど、肝心な出汁の味がマスクされちゃうので、味がブレた
ときに、しかたなく使う」「塩味は、ギリギリまで強くすりゃあ、
客は『うまい』って言ってくれるんだけど、外で食うなら
ともかく、家で毎日食うんだったら、『ちょっと物足りない』
くらいが普通」だそうだ。
おれは、形容詞は(暗黙の)主語を要求するという点に着目した。
「おいしいおでん」の「おいしい」の主語は、「そのコンビニの店員」
ではなくて、「そのコンビニの系列の店で、リピーターになってくださる
お客様」だと思うんだよ。
ペットショップでミジンコとかコオロギとかゴキブリとか
冷凍のヌードマウスを買ってくお客さんが、「おいしい」っていうのは
また別な意味だろう?
プロの料理人が言ってたけど、「うまみ調味料は、半分までだったら
バレないけど、肝心な出汁の味がマスクされちゃうので、味がブレた
ときに、しかたなく使う」「塩味は、ギリギリまで強くすりゃあ、
客は『うまい』って言ってくれるんだけど、外で食うなら
ともかく、家で毎日食うんだったら、『ちょっと物足りない』
くらいが普通」だそうだ。
693Maria
2018/08/13(月) 17:41:26.57ID:AihWjEg3 >>689
正確にいうと、「いそん」が正で、「いぞん」は “百姓読み” と
呼ばれる俗語の訓なのよねー。
「マスゴミ」も、「マス・コミュネーション」+「ゴミクズ」
の合成語であって、「マス・コミュネーション」=「マスゴミ」では
ないんですよ。「ミニコミ」⇔「マスコミ」っていう対義語関係も
あるしね。
正確にいうと、「いそん」が正で、「いぞん」は “百姓読み” と
呼ばれる俗語の訓なのよねー。
「マスゴミ」も、「マス・コミュネーション」+「ゴミクズ」
の合成語であって、「マス・コミュネーション」=「マスゴミ」では
ないんですよ。「ミニコミ」⇔「マスコミ」っていう対義語関係も
あるしね。
694デフォルトの名無しさん
2018/08/13(月) 20:20:51.00ID:AihWjEg3695デフォルトの名無しさん
2018/08/15(水) 01:38:57.48ID:zh9hArng >>689
君は存在をぞんざいと読むのかね?
君は存在をぞんざいと読むのかね?
696Maria
2018/08/15(水) 10:39:21.70ID:vp8/ud0K >>695
「ぞんさい」と「そんさい」はあるかもしれない。
「無人島」も、「むにんとう」「ぶにんとう」「むじんとう」
の訓があるわけだし。小笠原には「ムニンノボタン」が
生えているし、英語だと「ぶにんとう」→「ボーニン・アイランド」だし。
「ぞんさい」と「そんさい」はあるかもしれない。
「無人島」も、「むにんとう」「ぶにんとう」「むじんとう」
の訓があるわけだし。小笠原には「ムニンノボタン」が
生えているし、英語だと「ぶにんとう」→「ボーニン・アイランド」だし。
697デフォルトの名無しさん
2018/08/15(水) 14:37:14.24ID:ai0gypJB 理屈っぽさと独創的なプログラミングスキルには負の相関がある、
と誰かが言ってたな
理屈こねて長文レスしまくってる人はもうプログラミングやめた方がいいかも
と誰かが言ってたな
理屈こねて長文レスしまくってる人はもうプログラミングやめた方がいいかも
698Mr.Moto
2018/08/15(水) 16:21:40.83ID:vp8/ud0K699デフォルトの名無しさん
2018/08/16(木) 04:30:16.20ID:Wl8UzWlX700デフォルトの名無しさん
2018/08/16(木) 04:33:08.06ID:Wl8UzWlX701デフォルトの名無しさん
2018/08/16(木) 09:58:38.18ID:odc/xF8f >>700
SF だけど、『未来の二つの顔』でやってたな。
星野之宣さんのマンガでやってたけど、
仮想空間の中でコンピュータに目玉焼を作らせようと
したら、フライパンの中に割らずに卵を載せて
しまうとか …。
で、「これは、やっぱり実際の空間の中でやんなきゃ
ダメだ!」っつーんで、コンピュータ制御の戦闘用ドローンと
武器を持った人間が、宇宙ステーションの中で
ドンパチをやるという話。
SF だけど、『未来の二つの顔』でやってたな。
星野之宣さんのマンガでやってたけど、
仮想空間の中でコンピュータに目玉焼を作らせようと
したら、フライパンの中に割らずに卵を載せて
しまうとか …。
で、「これは、やっぱり実際の空間の中でやんなきゃ
ダメだ!」っつーんで、コンピュータ制御の戦闘用ドローンと
武器を持った人間が、宇宙ステーションの中で
ドンパチをやるという話。
702デフォルトの名無しさん
2018/08/16(木) 10:03:34.87ID:odc/xF8f 自然言語処理と関係なくなっちゃいそうだから、
それっぽいものも足しておこう。
『2001:宇宙のオデッセイ』
『ヴァレンティーナ』
『月は無慈悲な夜の女王』
『ウォー・ゲーム』(映画)
『ノーラの方舟』
『アメリカの黒船』(笑)
それっぽいものも足しておこう。
『2001:宇宙のオデッセイ』
『ヴァレンティーナ』
『月は無慈悲な夜の女王』
『ウォー・ゲーム』(映画)
『ノーラの方舟』
『アメリカの黒船』(笑)
703デフォルトの名無しさん
2018/08/16(木) 13:54:12.85ID:odc/xF8f >>703
×『アメリカの黒船』
〇『マンハッタンの黒船』
諸星大二郎。「デモクラシー・マシン」という、
国民に端子を埋め込んでおいて、その測定値を
もとに、コンピュータが政策決定をするという話。
あれ読んどくと、幕末史がかなりよくわかる。
ついでに、『ゴースト・バスターズ2』を観ると、
けっこう笑える。
こう、どうしようもなく暑いと「ドンマイ・ダンス」(=ええじゃないか)を
踊りたくなるよなぁ。川原泉も『笑う大天使(ミカエル)』で、
ウルトラマンと鉄腕アトムと超人ロックにドンマイ・ダンスを
踊らせてたし。
×『アメリカの黒船』
〇『マンハッタンの黒船』
諸星大二郎。「デモクラシー・マシン」という、
国民に端子を埋め込んでおいて、その測定値を
もとに、コンピュータが政策決定をするという話。
あれ読んどくと、幕末史がかなりよくわかる。
ついでに、『ゴースト・バスターズ2』を観ると、
けっこう笑える。
こう、どうしようもなく暑いと「ドンマイ・ダンス」(=ええじゃないか)を
踊りたくなるよなぁ。川原泉も『笑う大天使(ミカエル)』で、
ウルトラマンと鉄腕アトムと超人ロックにドンマイ・ダンスを
踊らせてたし。
704デフォルトの名無しさん
2018/08/16(木) 18:48:54.08ID:zg++OkBY >>699
腹筋運動で腹に力を入れるってのと同じ。
腹筋運動で腹に力を入れるってのと同じ。
705デフォルトの名無しさん
2018/08/16(木) 18:52:01.50ID:zg++OkBY706デフォルトの名無しさん
2018/08/16(木) 18:55:36.47ID:y4swezJj >>704
ゲロ吐くときも腹に力を入れるけどな。
ゲロ吐くときも腹に力を入れるけどな。
707デフォルトの名無しさん
2018/08/17(金) 10:03:25.37ID:gqiCzic7 日本語処理をやってて困るのは、
「葱」を「ネギ」と訓むと気持が悪く、
「キ」と訓みたくなることと、
「タマネギ」を漢字で書くときに、
「玉葱」ではなく「玉根葱」と
書きたくなることだな。
「葱」を「ネギ」と訓むと気持が悪く、
「キ」と訓みたくなることと、
「タマネギ」を漢字で書くときに、
「玉葱」ではなく「玉根葱」と
書きたくなることだな。
708デフォルトの名無しさん
2018/08/17(金) 10:24:20.58ID:7A6IqWlB >>699
オシッコの時とオナニーの時とでは、役割が全然違う。
オシッコの時とオナニーの時とでは、役割が全然違う。
709デフォルトの名無しさん
2018/08/17(金) 14:08:30.32ID:gqiCzic7 >>708
今はただ 小便だけの 道具かな
今はただ 小便だけの 道具かな
710デフォルトの名無しさん
2018/08/22(水) 18:11:57.81ID:dTPH0Jpn 第13回テキストアナリティクス・シンポジウム
あたりに出てみたら?
あたりに出てみたら?
711デフォルトの名無しさん
2018/08/23(木) 19:19:43.19ID:bB8SnTwz そういうのは興味ないんだな
712デフォルトの名無しさん
2018/08/31(金) 12:25:09.97ID:jw7g7wHs いまのところ思いつきでしかないんだが、
日本語の「文語」「旧漢字」「旧かなづかい」と
いうのは、自然言語処理における暫定的な
ピボット言語として、けっこう実用的なのでは
ないか、と思う。
戦後に教えられている、日本語の現代国語の文法は、
文語文法ほど厳密ではない。
「常用漢字への置き換え」のせいで、本来の字義が
わかりづらい文字がある。
旧かなづかひには、文語文との歴史的な関連があり、
合理性がある。
で、「現代語」「常用漢字」「新かなづかい」への
変換は、わりと標準的辞書とそれなりのアルゴリズム、
そこそこのマシン環境があれば、実用上は不自由な
感じがなく可能だ。
いけそうに思うのだが、どうだろう。
日本語の「文語」「旧漢字」「旧かなづかい」と
いうのは、自然言語処理における暫定的な
ピボット言語として、けっこう実用的なのでは
ないか、と思う。
戦後に教えられている、日本語の現代国語の文法は、
文語文法ほど厳密ではない。
「常用漢字への置き換え」のせいで、本来の字義が
わかりづらい文字がある。
旧かなづかひには、文語文との歴史的な関連があり、
合理性がある。
で、「現代語」「常用漢字」「新かなづかい」への
変換は、わりと標準的辞書とそれなりのアルゴリズム、
そこそこのマシン環境があれば、実用上は不自由な
感じがなく可能だ。
いけそうに思うのだが、どうだろう。
713デフォルトの名無しさん
2018/09/03(月) 06:46:31.57ID:U0kvs2wf 会議で議論しろよ
714デフォルトの名無しさん
2018/09/03(月) 19:36:30.73ID:EdX2r8s2715デフォルトの名無しさん
2018/09/04(火) 15:08:16.42ID:4C0xHapn716デフォルトの名無しさん
2018/09/04(火) 19:38:35.15ID:1ahLzDkT >>715
日本ソフトウェア科学会の自然言語処理の
分科会で、ボロクソに叩かれたのが、いまだに
トラウマになっている。
当時は JUMAN 以外の形態素解析システムは
認められていなかったので、分科会の座長に
「益岡 隆志 ・田窪 行則の『基礎日本語文法』を
読んでから来なさい」と一蹴されてそれっきり。
資料をほじくり返せば、どっかから名前が
出てくるだろうが、それも野暮な話だろうと
思って遠慮している。
形態素解析で、おれらに勝てると思ってる
奴がいたら、喧嘩売ってこい。ぜんぶ
買ってやる。
日本ソフトウェア科学会の自然言語処理の
分科会で、ボロクソに叩かれたのが、いまだに
トラウマになっている。
当時は JUMAN 以外の形態素解析システムは
認められていなかったので、分科会の座長に
「益岡 隆志 ・田窪 行則の『基礎日本語文法』を
読んでから来なさい」と一蹴されてそれっきり。
資料をほじくり返せば、どっかから名前が
出てくるだろうが、それも野暮な話だろうと
思って遠慮している。
形態素解析で、おれらに勝てると思ってる
奴がいたら、喧嘩売ってこい。ぜんぶ
買ってやる。
717デフォルトの名無しさん
2018/09/04(火) 19:42:49.40ID:1ahLzDkT ついでながら、大修館の『言語』の
『言語空間』で、国広哲弥先生と
がっぷり四つに組んでバトルをしたのは、
うちらの親玉だ。
『言語空間』で、国広哲弥先生と
がっぷり四つに組んでバトルをしたのは、
うちらの親玉だ。
718デフォルトの名無しさん
2018/09/04(火) 20:55:35.67ID:L4gEVvGM >>714
>発言権とか議決権とかはあるのか?
人工知能研究は何とか大学で何とか言う学位を得たとかいう専門家達の小難しい数式ではなく、
こうした何気ない日常生活の中から何かを発見していくことのほうが大切と思われる。
↓
485 デフォルトの名無しさん 2018/03/24(土) 22:53:15.70 ID:6mZ6T11K
(第1章 はじめに 2頁)
たとえば、CycはFredという名前の男が朝にひげをそるという話が理解できなかった。
Cycの推論エンジンは、この話の中に矛盾を見つけた。Cycは人間には電気の部品がないことは知っているが、
Fredが電気カミソリを持っていたので、エンティティ「Fredがひげそり中(FredWhileShaving)」
には電気の部品が含まれていると考えた。したがって、CycはFredがひげをそっている間、
Fredはそれでも人間なのかと尋ねた。
『深層学習』
著者:
Ian Goodfellow, イアングッドフェロー,
Yoshua Bengio, ヨシュアベンジオ,
Aaron Courville, アーロンカービル
>発言権とか議決権とかはあるのか?
人工知能研究は何とか大学で何とか言う学位を得たとかいう専門家達の小難しい数式ではなく、
こうした何気ない日常生活の中から何かを発見していくことのほうが大切と思われる。
↓
485 デフォルトの名無しさん 2018/03/24(土) 22:53:15.70 ID:6mZ6T11K
(第1章 はじめに 2頁)
たとえば、CycはFredという名前の男が朝にひげをそるという話が理解できなかった。
Cycの推論エンジンは、この話の中に矛盾を見つけた。Cycは人間には電気の部品がないことは知っているが、
Fredが電気カミソリを持っていたので、エンティティ「Fredがひげそり中(FredWhileShaving)」
には電気の部品が含まれていると考えた。したがって、CycはFredがひげをそっている間、
Fredはそれでも人間なのかと尋ねた。
『深層学習』
著者:
Ian Goodfellow, イアングッドフェロー,
Yoshua Bengio, ヨシュアベンジオ,
Aaron Courville, アーロンカービル
719デフォルトの名無しさん
2018/09/04(火) 21:19:40.95ID:1ahLzDkT >>718
「日本語の動詞の活用は、
末尾の音との対応によって決まる」
んだが、しょっちゅう使う動詞に関しては、
この対応関係が崩れることがある、という
話をした。
いわゆる「サ変(する)」「カ変(「来る」)」は
知られているが、それ以外に「言う」「行く」と、
「乞う」「問う」は、その原則から外れていると
いうのを、実際のテキストデータ(コーパス)を
コンピュータによって篩にかけて実証したんだが、
侮辱されただけで終わった。
> こうした何気ない日常生活の中から何かを
> 発見していくことのほうが大切と思われる。
たしかに大切だと思うのだが、それが学会で
評価されると信じるのは、「いつか王子様が」
みたいなファンタジーでしかない。
「日本語の動詞の活用は、
末尾の音との対応によって決まる」
んだが、しょっちゅう使う動詞に関しては、
この対応関係が崩れることがある、という
話をした。
いわゆる「サ変(する)」「カ変(「来る」)」は
知られているが、それ以外に「言う」「行く」と、
「乞う」「問う」は、その原則から外れていると
いうのを、実際のテキストデータ(コーパス)を
コンピュータによって篩にかけて実証したんだが、
侮辱されただけで終わった。
> こうした何気ない日常生活の中から何かを
> 発見していくことのほうが大切と思われる。
たしかに大切だと思うのだが、それが学会で
評価されると信じるのは、「いつか王子様が」
みたいなファンタジーでしかない。
720デフォルトの名無しさん
2018/09/04(火) 21:28:33.77ID:1ahLzDkT 「創傷熱や産褥熱は、医者や看護師の手を
介在して感染するので、医療行為を行う人間は
よく手を洗え」と主張したイグナーツ・ゼンメルワイスは、
精神病院に収容されたあげく、看護人に殴られて
死んだ。
世の中はそんなもんだ。過去にではなく、
現在もだ。
介在して感染するので、医療行為を行う人間は
よく手を洗え」と主張したイグナーツ・ゼンメルワイスは、
精神病院に収容されたあげく、看護人に殴られて
死んだ。
世の中はそんなもんだ。過去にではなく、
現在もだ。
721デフォルトの名無しさん
2018/09/05(水) 08:19:26.23ID:sGefZ1lw あんたの考えてることが他人に説明できないなら戯言でしかない
それすらできないくせに歴史的英雄に自分を重ねてこんなとこで自慰をするのは無様で恥知らずとしか言いようがない
人工知能学会でも自然言語処理学会でもいいから論文を出せ
日本でダメなら国際会議で訴えろ
甘利ににらまれた金谷は国際会議で訴えた
それすらできないくせに歴史的英雄に自分を重ねてこんなとこで自慰をするのは無様で恥知らずとしか言いようがない
人工知能学会でも自然言語処理学会でもいいから論文を出せ
日本でダメなら国際会議で訴えろ
甘利ににらまれた金谷は国際会議で訴えた
722デフォルトの名無しさん
2018/09/05(水) 08:39:26.69ID:TGJHl4wU >>721
>こんなとこで自慰をするのは
ところでだ。「チンボがシコシコする」という日本語表現は、文法的に正しいのか?
チンボ「を」シコシコするのではなくて、チンボ「が」シコシコする。この場合、「チンボ」は主語となる。
オブジェクト指向で言う「集約」は2種類あって、全体(俺)と部分(チンボ)が繋がっている場合と、
全体(俺)と部分(チンボ)が別々になっている場合とが考えられる。けれども「チンボ」はそれ自体
が独立した生き物であり、所有者の意思とは無関係に、勃起して「シコシコする」。
例えば寝てる時にエロい夢みて朝起きてみたらチンコが勃起して射精してたとか。
違うか?
「頭がズキズキする」は良いが、「チンボがシコシコする」はダメな理由を、50字以内で述べろ!>>98
>こんなとこで自慰をするのは
ところでだ。「チンボがシコシコする」という日本語表現は、文法的に正しいのか?
チンボ「を」シコシコするのではなくて、チンボ「が」シコシコする。この場合、「チンボ」は主語となる。
オブジェクト指向で言う「集約」は2種類あって、全体(俺)と部分(チンボ)が繋がっている場合と、
全体(俺)と部分(チンボ)が別々になっている場合とが考えられる。けれども「チンボ」はそれ自体
が独立した生き物であり、所有者の意思とは無関係に、勃起して「シコシコする」。
例えば寝てる時にエロい夢みて朝起きてみたらチンコが勃起して射精してたとか。
違うか?
「頭がズキズキする」は良いが、「チンボがシコシコする」はダメな理由を、50字以内で述べろ!>>98
723デフォルトの名無しさん
2018/09/05(水) 08:42:52.59ID:TGJHl4wU 人間発見国立情報学研究所教授 新井紀子さん AI時代を生き抜く力(3)
ttps://www.nikkei.com/article/DGKKZO33940070Y8A800C1EAC000/
娘の身を案じ猛反対する両親を押し切って米国へ留学。大学院に進んだが教官のセクハラに遭い、一度は研究者の道をあきらめ
かけた。
1年後には帰国して就職か結婚をする、と約束し、ようやく両親に留学の許可をもらいました。大学4年の1984年7月に日本を出発、
数学基礎論が盛んだったイリノイ大学に入学しました。イリノイ大は1年で卒業。卒業時に優秀賞をとり、奨学金を得たので大学院に
進学しました。
ところが大学院では指導教官からのセクハラに遭い、つらい日々を過ごしました。遠距離結婚して間もない夫も心配して米国に来て
くれましたが、セクハラが止むことがなく、学内で訴えを起こしました。当時は米国でもようやくセクハラへの関心が高まり始めたばかり。
当時は米国でもようやくセクハラへの関心が高まり始めたばかり。学内規則が不十分だったこともあり、決着をつけることはできず、
博士号をとれずに失意のまま帰国することになりました。
帰国後、娘が生まれたこともあり、一度は家庭に入って専業主婦になろうと考えました。今も研究を続けているのは、このとき夫が
「あきらめるな」と励ましてくれたからです。広島市立大学に情報科学部が新設されることを知った夫は、応募してはどうかと勧めて
くれました。「もう一度やってみよう」とタイプライターを買い込んで論文を書き始め、一橋大の先生方のサポートもいただいて完成。
助手に採用されました。
ttps://www.nikkei.com/article/DGKKZO33940070Y8A800C1EAC000/
娘の身を案じ猛反対する両親を押し切って米国へ留学。大学院に進んだが教官のセクハラに遭い、一度は研究者の道をあきらめ
かけた。
1年後には帰国して就職か結婚をする、と約束し、ようやく両親に留学の許可をもらいました。大学4年の1984年7月に日本を出発、
数学基礎論が盛んだったイリノイ大学に入学しました。イリノイ大は1年で卒業。卒業時に優秀賞をとり、奨学金を得たので大学院に
進学しました。
ところが大学院では指導教官からのセクハラに遭い、つらい日々を過ごしました。遠距離結婚して間もない夫も心配して米国に来て
くれましたが、セクハラが止むことがなく、学内で訴えを起こしました。当時は米国でもようやくセクハラへの関心が高まり始めたばかり。
当時は米国でもようやくセクハラへの関心が高まり始めたばかり。学内規則が不十分だったこともあり、決着をつけることはできず、
博士号をとれずに失意のまま帰国することになりました。
帰国後、娘が生まれたこともあり、一度は家庭に入って専業主婦になろうと考えました。今も研究を続けているのは、このとき夫が
「あきらめるな」と励ましてくれたからです。広島市立大学に情報科学部が新設されることを知った夫は、応募してはどうかと勧めて
くれました。「もう一度やってみよう」とタイプライターを買い込んで論文を書き始め、一橋大の先生方のサポートもいただいて完成。
助手に採用されました。
724デフォルトの名無しさん
2018/09/05(水) 09:40:09.05ID:cB1vOB+w >>772
構文的には正しいが、運用論的には疑問がある。
【解説】
「目がシパシパする」は構文的に正しいので、
「チンポがシコシコする」も構文的に間違っているとは
いえない。「麺がシコシコしている」は運用論的に
正しいが、語彙的に「シコシコする」が一般的な
用法に含まれているか、には疑問の余地がある。
構文的には正しいが、運用論的には疑問がある。
【解説】
「目がシパシパする」は構文的に正しいので、
「チンポがシコシコする」も構文的に間違っているとは
いえない。「麺がシコシコしている」は運用論的に
正しいが、語彙的に「シコシコする」が一般的な
用法に含まれているか、には疑問の余地がある。
725デフォルトの名無しさん
2018/09/05(水) 09:54:01.99ID:lHAOj/Nm726デフォルトの名無しさん
2018/09/05(水) 12:24:18.47ID:cB1vOB+w >>721
> あんたの考えてることが他人に説明できないなら
説明して理解できる奴が日本中探しても おそらく十人以下だ(笑)
> 歴史的英雄に自分を重ねて
ゼンメルワイスは説が入れられず不遇のうちに生涯を終えた。
看護師でもゼンメルワイスの名前を知らない奴が多い。
> 人工知能学会でも自然言語処理学会でもいいから論文を出せ
記述文法をやってる奴がそもそもいない。
> 日本でダメなら国際会議で訴えろ
膠着語の記述文法は欧米人に理解できるとも思わん。
そんなわけで実装して製品化を試みたが、
ある会社は会社が分裂してプロジェクトが頓挫、
ある会社は業績が悪化してプロジェクトから撤退、
ある会社は不正経理のせいで他の会社に乗っ取られて
プロジェクトが消滅、
ある会社は資金がショートしてチーム解散、
ある会社は別プロジェクトが大手の企画と
バッティングして経営難になり、チームのメンバーが
逃走、
その他もろもろあって、「呪われたシステム」と
謂われている。
> あんたの考えてることが他人に説明できないなら
説明して理解できる奴が日本中探しても おそらく十人以下だ(笑)
> 歴史的英雄に自分を重ねて
ゼンメルワイスは説が入れられず不遇のうちに生涯を終えた。
看護師でもゼンメルワイスの名前を知らない奴が多い。
> 人工知能学会でも自然言語処理学会でもいいから論文を出せ
記述文法をやってる奴がそもそもいない。
> 日本でダメなら国際会議で訴えろ
膠着語の記述文法は欧米人に理解できるとも思わん。
そんなわけで実装して製品化を試みたが、
ある会社は会社が分裂してプロジェクトが頓挫、
ある会社は業績が悪化してプロジェクトから撤退、
ある会社は不正経理のせいで他の会社に乗っ取られて
プロジェクトが消滅、
ある会社は資金がショートしてチーム解散、
ある会社は別プロジェクトが大手の企画と
バッティングして経営難になり、チームのメンバーが
逃走、
その他もろもろあって、「呪われたシステム」と
謂われている。
727デフォルトの名無しさん
2018/09/06(木) 04:51:25.22ID:8UoLzWRo n バイトの文字列に対して、 n バイト以下のコードから
なる単語辞書を用いて、「すべての部分文字列に対する
辞書引き(これを、直積検索:ダイレクト・プロダクション
検索、または全件検索という)」を行なうことを考える。
このとき、最悪の場合でも n^2 + n の手間しかからない
アルゴリズムが存在する。
もちろん、バイト単位で考えれば 256 分木で表現すれば
いいのだが、それをやるとデータがやたらに大きくなる
(スペースファクターが悪い)ので、これを圧縮して
(木の末端部はスパースなので、重ならないように格納
する工夫の余地がある)一次元配列に押しこむことを考える。
有名なものとしては Google が使っているダブル配列法が
あるが、その原形であるトリプル配列法のほうが、マルチ
バイト文字を考えると、かえってスペースファクターが
向上するケースがあることがわかっている。
なる単語辞書を用いて、「すべての部分文字列に対する
辞書引き(これを、直積検索:ダイレクト・プロダクション
検索、または全件検索という)」を行なうことを考える。
このとき、最悪の場合でも n^2 + n の手間しかからない
アルゴリズムが存在する。
もちろん、バイト単位で考えれば 256 分木で表現すれば
いいのだが、それをやるとデータがやたらに大きくなる
(スペースファクターが悪い)ので、これを圧縮して
(木の末端部はスパースなので、重ならないように格納
する工夫の余地がある)一次元配列に押しこむことを考える。
有名なものとしては Google が使っているダブル配列法が
あるが、その原形であるトリプル配列法のほうが、マルチ
バイト文字を考えると、かえってスペースファクターが
向上するケースがあることがわかっている。
728デフォルトの名無しさん
2018/09/06(木) 05:08:43.23ID:8UoLzWRo 一次元配列の要素は、
バイアス、アドレス、データ識別子である。
ここで、添字0を起点としよう。バイアスとアドレスは
添字であるとする。(なお、以下の方法にはバリエーションが
あるが、ここではもっとも素朴な例を示す)
ある添字 X が、文字列のどこか(たとえば、元文字列のどこか
にある “ab”)のどこかを指しているとする。
そのとき、次の文字 c が続く文字列 “abc” が辞書にあるか
どうかを調べるとき、X+c 要素のバイアスが c に等しいかを
見る。これは、X+c が X を指しているということなので、
データ識別子の先に語彙データが存在する(もちろん “abcd” が
辞書にあって "abc" がないこともあるので、そこはチェックが
必要だ)。さらに、その先を探すためには、要素 X+c のアドレス
部を見る。その値がアドレスで無意味だったら、その先に続く
文字列は辞書にない、ということになる。
バイアス、アドレス、データ識別子である。
ここで、添字0を起点としよう。バイアスとアドレスは
添字であるとする。(なお、以下の方法にはバリエーションが
あるが、ここではもっとも素朴な例を示す)
ある添字 X が、文字列のどこか(たとえば、元文字列のどこか
にある “ab”)のどこかを指しているとする。
そのとき、次の文字 c が続く文字列 “abc” が辞書にあるか
どうかを調べるとき、X+c 要素のバイアスが c に等しいかを
見る。これは、X+c が X を指しているということなので、
データ識別子の先に語彙データが存在する(もちろん “abcd” が
辞書にあって "abc" がないこともあるので、そこはチェックが
必要だ)。さらに、その先を探すためには、要素 X+c のアドレス
部を見る。その値がアドレスで無意味だったら、その先に続く
文字列は辞書にない、ということになる。
729デフォルトの名無しさん
2018/09/06(木) 06:02:39.83ID:8UoLzWRo 辞書引きは一応片付いたことにして、次は形態素解析だ。
語彙の部分には、品詞の分類というものがある。ただ、
これがなかなかの難物なのだ。
たとえば日本人なら、日本語の動詞をそのまんま
書いて「動詞」と書いておけば辞書として役に立つ。
ただ、外国人やコンピュータ様は動詞の語幹部分を
別々の形態素として辞書登録しておいて、辞書引きが
終わった段階でパーツを組み立てて「これはどういう
品詞のナニナニ形だ」と提示しなければならない。
するってぇと、たとえば「書かされたがらなかった」
はどうなるかというと「動詞・書k+使役・as+
受動・aれ+欲求・た+表出・が+否定・なk+
過去または完了・aった」と、別々の品詞として
辞書登録しておかなければならなくなる。
「こんなんやっとれるかぁ!」と怒りだす奴が
いそうだが、これは辞書を「形態素(=名前のない
形態素)」の辞書と「品詞(=名前のある形態素)」に
分けて、前者は「開始点の文法属性+マッチング文字列+
終点の文法属性」として管理し、後者は「品詞+辞書登録形」
で辞書かしておいて、適当なツールで「開始点の文法属性+
マッチング文字列+終点の文法属性」に変換してやる(もちろん、
マッチングに不必要な活用語尾は取り去る)という操作を
行なうわけだ。
これによって、解析開始点から「解析開始点の属性」→
「開始点属性」→「マッチング文字列」→「終点属性」ときて、
ここから次々と「終点属性」を「開始点属性」とみて
探索を行なってゆけば、自動的に形態素解析が行なえてしまう、
ということになる。
なお、単なる「かな漢字変換」レベルの処理だったら、
これだけで市販の IME が吹っ飛ぶくらいの威力のある
変換システムができあがる。もちろん、候補の優先度とかいった
塩梅は必要ではあるのだが。
語彙の部分には、品詞の分類というものがある。ただ、
これがなかなかの難物なのだ。
たとえば日本人なら、日本語の動詞をそのまんま
書いて「動詞」と書いておけば辞書として役に立つ。
ただ、外国人やコンピュータ様は動詞の語幹部分を
別々の形態素として辞書登録しておいて、辞書引きが
終わった段階でパーツを組み立てて「これはどういう
品詞のナニナニ形だ」と提示しなければならない。
するってぇと、たとえば「書かされたがらなかった」
はどうなるかというと「動詞・書k+使役・as+
受動・aれ+欲求・た+表出・が+否定・なk+
過去または完了・aった」と、別々の品詞として
辞書登録しておかなければならなくなる。
「こんなんやっとれるかぁ!」と怒りだす奴が
いそうだが、これは辞書を「形態素(=名前のない
形態素)」の辞書と「品詞(=名前のある形態素)」に
分けて、前者は「開始点の文法属性+マッチング文字列+
終点の文法属性」として管理し、後者は「品詞+辞書登録形」
で辞書かしておいて、適当なツールで「開始点の文法属性+
マッチング文字列+終点の文法属性」に変換してやる(もちろん、
マッチングに不必要な活用語尾は取り去る)という操作を
行なうわけだ。
これによって、解析開始点から「解析開始点の属性」→
「開始点属性」→「マッチング文字列」→「終点属性」ときて、
ここから次々と「終点属性」を「開始点属性」とみて
探索を行なってゆけば、自動的に形態素解析が行なえてしまう、
ということになる。
なお、単なる「かな漢字変換」レベルの処理だったら、
これだけで市販の IME が吹っ飛ぶくらいの威力のある
変換システムができあがる。もちろん、候補の優先度とかいった
塩梅は必要ではあるのだが。
730デフォルトの名無しさん
2018/09/06(木) 07:09:53.36ID:8UoLzWRo この処理系の実装にあたっては、再帰を使って
木探索(ツリー・リトリーブ)で書くのが簡単だが、
それでは面白みに欠ける。
「どの点のどの開始属性から探索する」という
タスクを何らかのデータ構造(C なら構造体、
Java ならオブジェクト)の形で表現しておいて、
データプール(コンテナ)に放り込み、
一個取り出しては探索処理を行なって、
次の探索店をまたデータプールに突っ込む、
ということをする。
これがスタックだと深さ優先探索、
これがキューだと幅優先探索になるので、
プッシュとポップを工夫するだけで、
探索戦略を切り替えることができる。
こういう手法を「チャート法」といい、
構文解析(形態素解析ではなく、だ)の
分野ではよく知られた手法だ。
なお、この手法、ビットマップ上の
領域の塗りつぶしや迷路探索にも
使える。横溝正史の『八つ墓村』に、
金田一耕助がチャート法を使って
巨大洞穴を探索する場面が出てくる。
木探索(ツリー・リトリーブ)で書くのが簡単だが、
それでは面白みに欠ける。
「どの点のどの開始属性から探索する」という
タスクを何らかのデータ構造(C なら構造体、
Java ならオブジェクト)の形で表現しておいて、
データプール(コンテナ)に放り込み、
一個取り出しては探索処理を行なって、
次の探索店をまたデータプールに突っ込む、
ということをする。
これがスタックだと深さ優先探索、
これがキューだと幅優先探索になるので、
プッシュとポップを工夫するだけで、
探索戦略を切り替えることができる。
こういう手法を「チャート法」といい、
構文解析(形態素解析ではなく、だ)の
分野ではよく知られた手法だ。
なお、この手法、ビットマップ上の
領域の塗りつぶしや迷路探索にも
使える。横溝正史の『八つ墓村』に、
金田一耕助がチャート法を使って
巨大洞穴を探索する場面が出てくる。
731デフォルトの名無しさん
2018/09/06(木) 09:11:04.07ID:8UoLzWRo >>729 の話は、要するに「文法属性の始めと終わりを
マッチング文字列で橋渡しする」ことで文法定義を
しちゃって、チャート法の解析エンジンだけで処理を
片づけるという、無精ったらしいことをしているわけだ。
このとき、「マッチング文字列がヌルストリングのとき、
うっかり循環参照かなんかを作りこんじゃったら
無限ループに陥っちゃうだろうが!」という
話になる。
文法そのものがそんなに大袈裟なものじゃない(二千行あれば、
充分書ける)ので、あんまり気にしなくていいのだが、
それでもチェックは入れておいたほうがいい。
マッチング文字列で橋渡しする」ことで文法定義を
しちゃって、チャート法の解析エンジンだけで処理を
片づけるという、無精ったらしいことをしているわけだ。
このとき、「マッチング文字列がヌルストリングのとき、
うっかり循環参照かなんかを作りこんじゃったら
無限ループに陥っちゃうだろうが!」という
話になる。
文法そのものがそんなに大袈裟なものじゃない(二千行あれば、
充分書ける)ので、あんまり気にしなくていいのだが、
それでもチェックは入れておいたほうがいい。
732デフォルトの名無しさん
2018/09/06(木) 09:16:30.21ID:8UoLzWRo >>731
これには二つの方策があって、
1)実行前に、スクリプトから実行形式にコンバートするときに、
チェックして対処する。
2)実行時に、同じ位置に同じ文法属性が来たら、そこでハネる。
のどっちか、という話になって、(1)は実行時のオーバーヘッドが
なく、(2)は実行時のチェックのためのオーバーヘッドが生じる。
これはどっちでもよさそうだが、どのみち「辞書と文法を区別しない」の
で、(1)で工夫はするとして、いちおう(2)の機能も組込んで
おくのが安全。
これには二つの方策があって、
1)実行前に、スクリプトから実行形式にコンバートするときに、
チェックして対処する。
2)実行時に、同じ位置に同じ文法属性が来たら、そこでハネる。
のどっちか、という話になって、(1)は実行時のオーバーヘッドが
なく、(2)は実行時のチェックのためのオーバーヘッドが生じる。
これはどっちでもよさそうだが、どのみち「辞書と文法を区別しない」の
で、(1)で工夫はするとして、いちおう(2)の機能も組込んで
おくのが安全。
733デフォルトの名無しさん
2018/09/06(木) 09:26:43.74ID:8UoLzWRo >>732 については、一度、大騒ぎしたことがある。
「書いてる」は「書いている」の省略形なので、
「『いる』の語幹『い』の省略」と記述したら、
困ったことに「連用形の現在」が、語幹と一致する
「い」だったのだな。
「お持ち帰り」のように、連用形は連用形に接続するので、
「書いてる」が「書いて(ここに「い」が無限個省略されて
いる)る」と解析されて、いきなりスタックオーバーフロー(笑)。
さんざん解析に手間取ったあげく、「ている」「でいる」の
「てい」「でい」をそれぞれ形態素として登録して逃げた。
このあたり、「どう処理するのが本当か」という話はあるのだが、
>>1 で
> 言語学の話題などは他のスレッドでお願いします。
と言われているので、このスレでの議論は避けることにする。
「書いてる」は「書いている」の省略形なので、
「『いる』の語幹『い』の省略」と記述したら、
困ったことに「連用形の現在」が、語幹と一致する
「い」だったのだな。
「お持ち帰り」のように、連用形は連用形に接続するので、
「書いてる」が「書いて(ここに「い」が無限個省略されて
いる)る」と解析されて、いきなりスタックオーバーフロー(笑)。
さんざん解析に手間取ったあげく、「ている」「でいる」の
「てい」「でい」をそれぞれ形態素として登録して逃げた。
このあたり、「どう処理するのが本当か」という話はあるのだが、
>>1 で
> 言語学の話題などは他のスレッドでお願いします。
と言われているので、このスレでの議論は避けることにする。
734デフォルトの名無しさん
2018/09/06(木) 12:35:12.17ID:8UoLzWRo とりあえず、>>1 で
> このスレッドでは、「日本語の構文解析・談話理解・情報検索・
> 文章生成」などの技術に関する理論と(おもに)実装を扱います。
> あくまで、「アプリケーション・プログラミング」の
> 技術的な面に重点をおきたい
というコトになっているんだが、よく見れば「形態素解析」と
いうのは「自然言語処理スレッド」からは排除されているんだよな。
そのあたりに関する、スレ民の意見は伺いたいと思う。
> このスレッドでは、「日本語の構文解析・談話理解・情報検索・
> 文章生成」などの技術に関する理論と(おもに)実装を扱います。
> あくまで、「アプリケーション・プログラミング」の
> 技術的な面に重点をおきたい
というコトになっているんだが、よく見れば「形態素解析」と
いうのは「自然言語処理スレッド」からは排除されているんだよな。
そのあたりに関する、スレ民の意見は伺いたいと思う。
735ここまで読みました
2018/09/06(木) 14:51:06.48ID:tPMc56fx ここまで読みました
736デフォルトの名無しさん
2018/09/06(木) 16:16:39.52ID:8UoLzWRo >>735
ありがとう。
実装は任せた。
ソースコードは
無償で提供する。
「束(そく。Latteice)から束への建艦」が、
一意に成立するかどうかが疑問だったのと、
それが、その程度効率的なのかについて、
充分なデータが揃っていなかったのだ。
どっかの大学(を含む研究機関)で、
マジメに検証してくれれば、
ありがたいと思う。
ありがとう。
実装は任せた。
ソースコードは
無償で提供する。
「束(そく。Latteice)から束への建艦」が、
一意に成立するかどうかが疑問だったのと、
それが、その程度効率的なのかについて、
充分なデータが揃っていなかったのだ。
どっかの大学(を含む研究機関)で、
マジメに検証してくれれば、
ありがたいと思う。
737デフォルトの名無しさん
2018/09/06(木) 16:25:51.53ID:8UoLzWRo >>736
×「束(そく。Latteice)から束への建艦」が、
〇「束(そく。Lattice)から束への変換」が、
HyperLisp とかいった、ちょっと古い処理系を
知ってるんなら、説明も楽なんだけど、
有限束から説明すると、半順序構造とか、
いろいろ面倒臭い話があるので、
このスレではパスさせていただく。
×「束(そく。Latteice)から束への建艦」が、
〇「束(そく。Lattice)から束への変換」が、
HyperLisp とかいった、ちょっと古い処理系を
知ってるんなら、説明も楽なんだけど、
有限束から説明すると、半順序構造とか、
いろいろ面倒臭い話があるので、
このスレではパスさせていただく。
738デフォルトの名無しさん
2018/09/07(金) 09:04:25.36ID:9e6p+l40 形態素解析は隣接関係だけで
記述できるからいいのだが、
構文解析となると「係り受けの関係
(の非・交差則)」と「文法格の
一意性」っちゅーのがあるので、
処理がワンランク複雑になる。
そうなると冨田法みたいに
スタックが乱立する(スタックが
分岐するので、「カクタス・スタック」、
直訳すると「サボテンスタック」という)
ので非常にややこしく、プログラムを
書くのがややこしい。
BNF で記述して LALR 法かなんか使って
コードに落としこもうとしても、日本語は
省略が多いうえに語順が不定なんで
うまくいかない。
しかたがないので、「なんか分かりやすいシェーマは
ないのか?」と考えたところ、二次元の表を使うことを
思いついた。そうなると、コンピュータ将棋のプログラムが
応用できそう(他の駒の利き筋を通過できないから、
実際はもっと簡単)な感じがしている。
記述できるからいいのだが、
構文解析となると「係り受けの関係
(の非・交差則)」と「文法格の
一意性」っちゅーのがあるので、
処理がワンランク複雑になる。
そうなると冨田法みたいに
スタックが乱立する(スタックが
分岐するので、「カクタス・スタック」、
直訳すると「サボテンスタック」という)
ので非常にややこしく、プログラムを
書くのがややこしい。
BNF で記述して LALR 法かなんか使って
コードに落としこもうとしても、日本語は
省略が多いうえに語順が不定なんで
うまくいかない。
しかたがないので、「なんか分かりやすいシェーマは
ないのか?」と考えたところ、二次元の表を使うことを
思いついた。そうなると、コンピュータ将棋のプログラムが
応用できそう(他の駒の利き筋を通過できないから、
実際はもっと簡単)な感じがしている。
739デフォルトの名無しさん
2018/09/07(金) 09:41:44.29ID:n7zqv11M ok、分かったから
トリップつけろ
トリップつけろ
740Mr.Moto
2018/09/07(金) 13:54:16.41ID:9e6p+l40 >>739
トリップつけても忘れるんだよな (-_-!)
そもそも、アルゴリズムとかシステム・デザインとかに関する
知的所有権は保護されないし、企業に所属していると
「トレード・シークレット(業務上の秘密)」とか言われて
民事訴訟とか起こされても対抗する手段がない。
原告側(訴えた側)に対抗するには、被告側(訴えられた側)が
証拠を出して反証しないといかんのだが、証拠はたいてい原告側が
握っている。被告側が訴訟に勝てば訴訟費用は取り戻せる
建前にはなっているが、原告側が払ってくれるとは限らないし、
そもそもが「被告側に経済的な負担を与えるために、
金をかけてでも訴訟を起こす(これを SLAPP 訴訟という)」
場合もある。企業は「法人」といって人格権があるので、
企業が原告になることができる。で、倒産しちゃえば「原告が
死亡」したことになるので、けっきょく裁判はチャラになって
しまうので、「計画倒産と SLAPP 訴訟がワンセットで
襲ってくる」みたいなコトも往々にしてある。
で、日本の司法機関は、知的所有権にかかわる訴訟を、あまり
扱ったことがないので、最高裁まで争ってもマトモな判決が
出る可能性は乏しく(企業が個人を訴えた場合、「企業のほうに
理がある」と頭から決めつけるケースが多い。企業には顧問弁護士が
ついてくるが、個人が対抗して弁護士を雇おうとしても、そういう訴訟に
慣れた弁護士はなかなか見つからない)、途中で和解に持ちこもうとして
裁判官がゴネるケースが多々ある。
青色 LED の中村修二さんは、「けっきょく、裁判費用で結果的に
足が出た」とボヤいていらっしゃった。
トリップつけても忘れるんだよな (-_-!)
そもそも、アルゴリズムとかシステム・デザインとかに関する
知的所有権は保護されないし、企業に所属していると
「トレード・シークレット(業務上の秘密)」とか言われて
民事訴訟とか起こされても対抗する手段がない。
原告側(訴えた側)に対抗するには、被告側(訴えられた側)が
証拠を出して反証しないといかんのだが、証拠はたいてい原告側が
握っている。被告側が訴訟に勝てば訴訟費用は取り戻せる
建前にはなっているが、原告側が払ってくれるとは限らないし、
そもそもが「被告側に経済的な負担を与えるために、
金をかけてでも訴訟を起こす(これを SLAPP 訴訟という)」
場合もある。企業は「法人」といって人格権があるので、
企業が原告になることができる。で、倒産しちゃえば「原告が
死亡」したことになるので、けっきょく裁判はチャラになって
しまうので、「計画倒産と SLAPP 訴訟がワンセットで
襲ってくる」みたいなコトも往々にしてある。
で、日本の司法機関は、知的所有権にかかわる訴訟を、あまり
扱ったことがないので、最高裁まで争ってもマトモな判決が
出る可能性は乏しく(企業が個人を訴えた場合、「企業のほうに
理がある」と頭から決めつけるケースが多い。企業には顧問弁護士が
ついてくるが、個人が対抗して弁護士を雇おうとしても、そういう訴訟に
慣れた弁護士はなかなか見つからない)、途中で和解に持ちこもうとして
裁判官がゴネるケースが多々ある。
青色 LED の中村修二さんは、「けっきょく、裁判費用で結果的に
足が出た」とボヤいていらっしゃった。
741Mr.Moto
2018/09/07(金) 14:01:02.08ID:9e6p+l40 そんなワケで、トリップは遠慮しとく。
おれに用があったら、アスキーの西さんとか、
おなじく出版技術部の TEX を維持してるチームとか、
インプレスの井芹さんとか、アップルの元「ことえり」の
チームとか、メタボール・アルゴリズムで有名な大村 皓一さんとか、
そのあたりの人に「JAI-Perser の開発者の
S さんという人に心当たりはありませんか?」と訊いて
もらえば、住所氏名電話番号メールアドレスくらいは
解るはずだ。
おれに用があったら、アスキーの西さんとか、
おなじく出版技術部の TEX を維持してるチームとか、
インプレスの井芹さんとか、アップルの元「ことえり」の
チームとか、メタボール・アルゴリズムで有名な大村 皓一さんとか、
そのあたりの人に「JAI-Perser の開発者の
S さんという人に心当たりはありませんか?」と訊いて
もらえば、住所氏名電話番号メールアドレスくらいは
解るはずだ。
742デフォルトの名無しさん
2018/09/07(金) 14:17:13.22ID:9e6p+l40 >>741
もっとも、西さんは井芹さんと塚本さんがアスキーを
退社してインプレスを立ち上げたために、ソフトウェア
開発部門が解散してしまったために VJE-β のチームが
解散したとか、井芹さんは会社を立ち上げたばかりで
企業体力がなかったので訴訟を避けたかったとか、
出版技術部はアスキーとインプレスの両方と
関連があったので JAIP プロジェクトとは距離を
置かざるを得なかったとか、「ことえり」チームは
ジョブスが不在だった時期で日本市場に力を入れる
余力がなかったとか、大村 皓一さんは もんたよしのり
とのコラボに関わったら芸能関係の その筋の方々と
モメて行方をくらましていたとか、いろいろと
薄らぐらい事情もあったので、逃げ出すかもしれんが。
いちばん捕まえやすいのは、農工大の小谷善行さんかな?
でも、パズル懇話会のときに、NHK−BS の『パズルへの招待』
の件で話しかけようとしたら、「所長の顔を見るなり逃げ腰に
なっていた」という話を聞いたこともあるしなぁ(笑)
もっとも、西さんは井芹さんと塚本さんがアスキーを
退社してインプレスを立ち上げたために、ソフトウェア
開発部門が解散してしまったために VJE-β のチームが
解散したとか、井芹さんは会社を立ち上げたばかりで
企業体力がなかったので訴訟を避けたかったとか、
出版技術部はアスキーとインプレスの両方と
関連があったので JAIP プロジェクトとは距離を
置かざるを得なかったとか、「ことえり」チームは
ジョブスが不在だった時期で日本市場に力を入れる
余力がなかったとか、大村 皓一さんは もんたよしのり
とのコラボに関わったら芸能関係の その筋の方々と
モメて行方をくらましていたとか、いろいろと
薄らぐらい事情もあったので、逃げ出すかもしれんが。
いちばん捕まえやすいのは、農工大の小谷善行さんかな?
でも、パズル懇話会のときに、NHK−BS の『パズルへの招待』
の件で話しかけようとしたら、「所長の顔を見るなり逃げ腰に
なっていた」という話を聞いたこともあるしなぁ(笑)
743Mr.Moto
2018/09/07(金) 17:57:59.51ID:9e6p+l40 板違い(本来はム板ではなくてマ板の話題)であり、
スレ汚しでもあり(日本語処理そのものとは、あまり関係がない)、
ひとり語りになってしまう(けっこう長い話なので)のだが、
勘弁してくれい。
時は一九八十年代半ば、まだ代表番号の末尾が「1」だった
時代(電話交換機が、電子交換機ではなく、クロスバー交換機
であり、ステップ・バイ・ステップ交換機が残っていて、
電話回線がトーン回線だった頃)に、現在のファクシミリみたいに
音声回線でデータ通信を行なっていた時代の話である。
通信速度は、300 bps とか 600 bps とか 1200 bps とか 2400 bps
とかだった時代である。
スレ汚しでもあり(日本語処理そのものとは、あまり関係がない)、
ひとり語りになってしまう(けっこう長い話なので)のだが、
勘弁してくれい。
時は一九八十年代半ば、まだ代表番号の末尾が「1」だった
時代(電話交換機が、電子交換機ではなく、クロスバー交換機
であり、ステップ・バイ・ステップ交換機が残っていて、
電話回線がトーン回線だった頃)に、現在のファクシミリみたいに
音声回線でデータ通信を行なっていた時代の話である。
通信速度は、300 bps とか 600 bps とか 1200 bps とか 2400 bps
とかだった時代である。
744Mr.Moto
2018/09/07(金) 18:12:14.44ID:9e6p+l40 当時、「草の根 BBS」という「アコースティック・モデム+
音声回線」による電子掲示板が、ちょっとしたブームに
なっており、SONY からも BBS 電話が発売されたり、
アーサー・C・クラークの「二〇〇一年」の続編
にあたる「二〇一〇年」製作にあたって、原作者の
クラークと監督のピーター・ハイアムズがワープロを
使って交信していたり(『オデッセイ・ファイル
― アーサー・C・クラークのパソコン通信のすすめ』と
いう本になっている)していたので、うちの
所長は PC-98 とヘイズ規格の AT モデムを使って、
BBS のホストシステムを構築したそうだ。
音声回線」による電子掲示板が、ちょっとしたブームに
なっており、SONY からも BBS 電話が発売されたり、
アーサー・C・クラークの「二〇〇一年」の続編
にあたる「二〇一〇年」製作にあたって、原作者の
クラークと監督のピーター・ハイアムズがワープロを
使って交信していたり(『オデッセイ・ファイル
― アーサー・C・クラークのパソコン通信のすすめ』と
いう本になっている)していたので、うちの
所長は PC-98 とヘイズ規格の AT モデムを使って、
BBS のホストシステムを構築したそうだ。
745Mr.Moto
2018/09/07(金) 18:18:47.66ID:9e6p+l40 MS-DOS はシングルタスクなので、回線が(不用意に)
切れたときの対処が難しい。しょうがないので
上のプログラムから下のプログラムを起動し、
回線が切れたら下のプログラムが落ちて上のプログラムに
制禦が戻る、という形になっていた。
そうしたら、所長の後輩の HASH くんが、「OS/9 は
マルチタスクですよ wwwww」と言って、FM-11/AD2+
と OS/9 を使って BBS のホストシステムを作ってしまった。
のちに、ANA かなんかが同じ構成で航空券の予約システムを
構築したらしいが、関連があるのかどうかは知らない。
切れたときの対処が難しい。しょうがないので
上のプログラムから下のプログラムを起動し、
回線が切れたら下のプログラムが落ちて上のプログラムに
制禦が戻る、という形になっていた。
そうしたら、所長の後輩の HASH くんが、「OS/9 は
マルチタスクですよ wwwww」と言って、FM-11/AD2+
と OS/9 を使って BBS のホストシステムを作ってしまった。
のちに、ANA かなんかが同じ構成で航空券の予約システムを
構築したらしいが、関連があるのかどうかは知らない。
746Mr.Moto
2018/09/07(金) 18:25:49.48ID:9e6p+l40 時は移って大喪の礼の当日である。
世の中が静まり返っている休日だが、
同じころに「マンガの神様」である手塚治虫
さんも亡くなっていた。そこで、ネットで
知りあったHASH くんを交えたハッカー四人が
「手塚アニメ追悼上映会をしよう」というので、
HASH くん宅に集まった。
そのとき、『ToolBox 100 の定跡』の小池 邦人さんが
そこに加わっていた。
世の中が静まり返っている休日だが、
同じころに「マンガの神様」である手塚治虫
さんも亡くなっていた。そこで、ネットで
知りあったHASH くんを交えたハッカー四人が
「手塚アニメ追悼上映会をしよう」というので、
HASH くん宅に集まった。
そのとき、『ToolBox 100 の定跡』の小池 邦人さんが
そこに加わっていた。
747Mr.Moto
2018/09/07(金) 18:30:12.54ID:9e6p+l40 じつは、そのとき小池さんがそこにいたと
いうことを、所長はすっからかんに忘れて
おり、後にそれを小池さんに言われて大いに
狼狽した、という話を聞いている。
で、「Mac の ToolBox には、ISAM
(順編成索引つきファイル)が入っている」
という話があったらしい。その話は所長も
憶えていないという。
このあたりから、自然言語処理の話になる。
いうことを、所長はすっからかんに忘れて
おり、後にそれを小池さんに言われて大いに
狼狽した、という話を聞いている。
で、「Mac の ToolBox には、ISAM
(順編成索引つきファイル)が入っている」
という話があったらしい。その話は所長も
憶えていないという。
このあたりから、自然言語処理の話になる。
748Mr.Moto
2018/09/07(金) 19:28:19.24ID:9e6p+l40 当時、Macintosh は高価だった。そんなわけで、
グァム島とかハワイとかに、観光ついでの
Mac 買い出しツアーとかがあった。
ところが、問題なのは、マニュアルが英語で
あることのである。電子データでそれなりの
情報は入ってくるのだが、困ったことに、
専門用語交じりなのである。
This is a Pen とか I have an apple. なら
分かるのだが、コンピュータ関係の専門用語は、
そこいらの辞書には載っていないのだ。
しかも、辞書を引くのはめんどくさい。
「コンピュータ関係の専門語だけでも
辞書引きをやってくれるような、
お手軽なシステムはないのか?」
という話になった。
グァム島とかハワイとかに、観光ついでの
Mac 買い出しツアーとかがあった。
ところが、問題なのは、マニュアルが英語で
あることのである。電子データでそれなりの
情報は入ってくるのだが、困ったことに、
専門用語交じりなのである。
This is a Pen とか I have an apple. なら
分かるのだが、コンピュータ関係の専門用語は、
そこいらの辞書には載っていないのだ。
しかも、辞書を引くのはめんどくさい。
「コンピュータ関係の専門語だけでも
辞書引きをやってくれるような、
お手軽なシステムはないのか?」
という話になった。
749Mr.Moto
2018/09/07(金) 19:33:45.67ID:9e6p+l40 「なんとかならんか?」
「簡単だよ。ISAM 載ってんだろ?」
「だって、ISAM は完全一致だろう?
語尾が変化したら一致しないんじゃないか?」
「変化しそうな部分を取っちゃってから
検索すればいい。坂井 利之先生の
『翻訳するコンピュタ ー 情報革命と
語学の壁に挑む』(講談社ブルーバックス)に
書いてある」
「だけど、一致しても、複数の候補がヒット
しちゃうだろう」
「大した数じゃねぇから、一個一個チェックすりゃあいい」
「簡単だよ。ISAM 載ってんだろ?」
「だって、ISAM は完全一致だろう?
語尾が変化したら一致しないんじゃないか?」
「変化しそうな部分を取っちゃってから
検索すればいい。坂井 利之先生の
『翻訳するコンピュタ ー 情報革命と
語学の壁に挑む』(講談社ブルーバックス)に
書いてある」
「だけど、一致しても、複数の候補がヒット
しちゃうだろう」
「大した数じゃねぇから、一個一個チェックすりゃあいい」
750Mr.Moto
2018/09/07(金) 19:39:36.52ID:9e6p+l40 「…… だけど、末尾から語尾を削ったら
本体がなくなっちゃったらどうする?」
「ヌルストリングはキーにならないのか?」
「― なるな。じゃあ、そういうプログラム書けるか?」
「書こうか?」
というので、辞書引きツール “rStone” というツールがで
きた。最初は「ロゼッタ・ストーン」という名前にしたのだが、
なんか商標登録の関係で引っかかった、という。
本体がなくなっちゃったらどうする?」
「ヌルストリングはキーにならないのか?」
「― なるな。じゃあ、そういうプログラム書けるか?」
「書こうか?」
というので、辞書引きツール “rStone” というツールがで
きた。最初は「ロゼッタ・ストーン」という名前にしたのだが、
なんか商標登録の関係で引っかかった、という。
■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 日本の立場説明へ…外務省局長が北京到着 “台湾有事”首相答弁に中国反発 ★4 [煮卵★]
- 橋下徹氏「この喧嘩は日本の完敗」 台湾有事答弁めぐる外務省局長訪中で指摘「中国に怒られてご説明に伺った日本と見られる」 [muffin★]
- 【日本大使館】中国在留邦人は安全確保を [ぐれ★]
- 【外国人問題】小野田紀美担当相「不法就労や不法滞在は許さない」 [シャチ★]
- 【野球】井端監督 大谷翔平、山本由伸らのWBCへの参加 「1日も早く返事ほしい」「待っててといっても、国内組が遅くなってしまう」★3 [冬月記者★]
- 習政権、高市首相への態度硬化 台湾有事発言で連日非難 中国 ★10 [ぐれ★]
- 高市コイン、155円突破wwwwwwwwww [246620176]
- 【高市速報】ユーロ円180円突破。史上初 [931948549]
- 杉浦綾乃板って改名したほうがいいよな
- 高市早苗の中国問題、「オーバーツーリズムが解消されてウザい中国人が消えるから日本の勝ち」という風潮になってしまう [562983582]
- おじゃる丸をまったり待機するスレ🏡
- 【悲報】有名ウヨ論客、「現実的に考えて中国と仲直りするしかなくね?」と言ったら野良ウヨから総叩きにあう [856698234]
