前前スレ 自然言語処理スレッド その2
http://mimizun.com/log/2ch/tech/1173105287/
前スレ 自然言語処理スレッド その3
http://mimizun.com/log/2ch/tech/1235129481/
このスレッドでは、日本語の構文解析、談話理解、情報検索、
文章生成などの技術に関する理論と(おもに)実装を扱います。
あくまでアプリケーションプログラミングの技術的な面に重点をおきたいので、
学術的な話はアリですが、いわゆる人工無能や哲学的AI話、
言語学の話題などは他のスレッドでお願いします。
探検
自然言語処理スレッド その4
■ このスレッドは過去ログ倉庫に格納されています
1デフォルトの名無しさん
2014/06/03(火) 05:40:00.54ID:yefNLumx767Mr.Moto
2018/09/08(土) 05:51:21.34ID:Hj3WpMqo この、「述語が要求する格」は複数あるわけだが、
それぞれの格の対象は、それぞれ1つしかない。
難しくいうと、「述語は格を一意に要求する」。
「私はラーメンを餃子を食べた」は「何を」が二個あるから
文法的に正しくなくて、「私は “ラーメンと餃子” を食べた」は
「何を≡{ラーメン&餃子}」だから文法的に正しい、とかいった
話になる。
それぞれの格の対象は、それぞれ1つしかない。
難しくいうと、「述語は格を一意に要求する」。
「私はラーメンを餃子を食べた」は「何を」が二個あるから
文法的に正しくなくて、「私は “ラーメンと餃子” を食べた」は
「何を≡{ラーメン&餃子}」だから文法的に正しい、とかいった
話になる。
768Mr.Moto
2018/09/08(土) 05:56:27.08ID:Hj3WpMqo 複数の文が、格を付与された体言を共有することで、
結合することがある。これは化学でいう共有結合
みたいなもので、その結果として「分子」にあたる
「複文」ができる。
「俺が頼んだラーメンを食った奴は誰だ?」は、
「俺」が主語である述語「頼む」と「誰か」が主語である
述語「食う」が、体言「ラーメン」を介して結合したものと
考えられる。
結合することがある。これは化学でいう共有結合
みたいなもので、その結果として「分子」にあたる
「複文」ができる。
「俺が頼んだラーメンを食った奴は誰だ?」は、
「俺」が主語である述語「頼む」と「誰か」が主語である
述語「食う」が、体言「ラーメン」を介して結合したものと
考えられる。
769Mr.Moto
2018/09/08(土) 06:08:51.61ID:Hj3WpMqo こうしてできた文(単文あるいは複文)を
接続詞によって繋げてできたものが「文章」で
あり、「文がどのように繋げられているか」
が「文脈」になる。
「ラーメンは食べるが、餃子は食べない」は
「ラーメンは食べる。しかし餃子は食べない」と
同義であり、その関連を示すのが「が」「しかし」
であるという解釈である。
日本語には「のに」「ので」「にもかかわらず」
「けれども」など、いろいろな「接続助詞」「接続語」
があるが、文単位の形態素解析ができれば、与えられた
コーパスデータから、自動的に抽出できる。
同時に、接続助詞や接続語が出てきたら、そこで文が
区切られているので、述語と格の関係はそこで切れて
いるとみなせる。
ただし、この場合後の文には省略がある場合が多いので、
その部分を補う必要がある。
「僕はタケノコは食べられるが、シイタケは食べられない」は
「僕はタケノコは食べられるが、(僕は)シイタケは
食べられない」の省略表現だと考えないと、構文解析処理が
と文脈解析処理がこんがらかって、ややこしい話になる。
接続詞によって繋げてできたものが「文章」で
あり、「文がどのように繋げられているか」
が「文脈」になる。
「ラーメンは食べるが、餃子は食べない」は
「ラーメンは食べる。しかし餃子は食べない」と
同義であり、その関連を示すのが「が」「しかし」
であるという解釈である。
日本語には「のに」「ので」「にもかかわらず」
「けれども」など、いろいろな「接続助詞」「接続語」
があるが、文単位の形態素解析ができれば、与えられた
コーパスデータから、自動的に抽出できる。
同時に、接続助詞や接続語が出てきたら、そこで文が
区切られているので、述語と格の関係はそこで切れて
いるとみなせる。
ただし、この場合後の文には省略がある場合が多いので、
その部分を補う必要がある。
「僕はタケノコは食べられるが、シイタケは食べられない」は
「僕はタケノコは食べられるが、(僕は)シイタケは
食べられない」の省略表現だと考えないと、構文解析処理が
と文脈解析処理がこんがらかって、ややこしい話になる。
770Mr.Moto
2018/09/08(土) 06:22:14.14ID:Hj3WpMqo >>763
> 文生成の話
文生成の場合は、
「〔引き続く動詞が要求する格を持った体言列(助詞つき)〕
+〔動詞(連体形)〕〔まだ使ってない格を持った体言〕」
の形で接続してゆけば文(単文または複文)が生成できて、
〔前置詞〕+〔文〕+〔終助詞〕とするか、
〔前置詞〕+〔文〕+〔接続助詞〕+〔文〕…… と
するとかして(同時に前置詞のかわりに接続詞を
使うとかして)、文を生成してゆくと、一応の文生成はできる。
ただし、時刻とか場所とか方法とかといった「格を持たない体言」
(これを、個人的に「相」と呼んでいる)とか、「さっぱり」「めっきり」
のような連用修飾詞(動詞・形容詞の連用形もここに含めちゃっていい)
とかも適宜織り交ぜると、より「それっぽい」文章が生成できる。
> 文生成の話
文生成の場合は、
「〔引き続く動詞が要求する格を持った体言列(助詞つき)〕
+〔動詞(連体形)〕〔まだ使ってない格を持った体言〕」
の形で接続してゆけば文(単文または複文)が生成できて、
〔前置詞〕+〔文〕+〔終助詞〕とするか、
〔前置詞〕+〔文〕+〔接続助詞〕+〔文〕…… と
するとかして(同時に前置詞のかわりに接続詞を
使うとかして)、文を生成してゆくと、一応の文生成はできる。
ただし、時刻とか場所とか方法とかといった「格を持たない体言」
(これを、個人的に「相」と呼んでいる)とか、「さっぱり」「めっきり」
のような連用修飾詞(動詞・形容詞の連用形もここに含めちゃっていい)
とかも適宜織り交ぜると、より「それっぽい」文章が生成できる。
771Mr.Moto
2018/09/08(土) 06:30:31.50ID:Hj3WpMqo >>770
日暮しマシンに向かい、頭に思いつく文生成プログラムを
夢中になって書き作り動作させれば、怪しうこそ もの
狂おしくなって、「馬鹿だ。こいつ馬鹿だ」とマシンを指さして
ゲラゲラ笑うプログラマこそ哀れなり。
橋田浩一さんとか松原仁さんとか筒井康隆さんとかは、
こういうの好きなんだよな。
日暮しマシンに向かい、頭に思いつく文生成プログラムを
夢中になって書き作り動作させれば、怪しうこそ もの
狂おしくなって、「馬鹿だ。こいつ馬鹿だ」とマシンを指さして
ゲラゲラ笑うプログラマこそ哀れなり。
橋田浩一さんとか松原仁さんとか筒井康隆さんとかは、
こういうの好きなんだよな。
772Mr.Moto
2018/09/08(土) 07:42:41.71ID:Hj3WpMqo これは自然言語処理というより国語学や
言語学に類する話題なのでスレチなのだが、
日本語処理の応用に関わってくるのでコメ
しておく。
たとえば「激しい雨」と「激しく降る雨」と
「豪雨」は同義だが、「降る」という述語が
出てくる場合と出てこない場合があるということを
どう解釈するか、という話がある。述語があると
ないでは、データ構造のレベルで違う、という
話になるからだ。
また「両国橋を渡る」「隅田川を渡る」「広小路から
向こう両国に渡る」は物理的な解釈としては同一
なので同義であるとみなせる(こういう立場を
外延主義という)が、「それって本当に“意味”って
謂えるのか?」という指摘が坂井寿秀先生などに
よって指摘されている。つまり、「明けの明星」も
「宵の明星」も実体(外延)としては「金星」なの
だから、「明けの明星は金星である」と「金星は明けの
明星である」と同義(単なるトートロジー)という話に
なるわけだが、そうすると「明けの明星は宵の明星
である」もまた同義ということになり、「それって
変じゃねぇか?」ってな話になる。
言語学に類する話題なのでスレチなのだが、
日本語処理の応用に関わってくるのでコメ
しておく。
たとえば「激しい雨」と「激しく降る雨」と
「豪雨」は同義だが、「降る」という述語が
出てくる場合と出てこない場合があるということを
どう解釈するか、という話がある。述語があると
ないでは、データ構造のレベルで違う、という
話になるからだ。
また「両国橋を渡る」「隅田川を渡る」「広小路から
向こう両国に渡る」は物理的な解釈としては同一
なので同義であるとみなせる(こういう立場を
外延主義という)が、「それって本当に“意味”って
謂えるのか?」という指摘が坂井寿秀先生などに
よって指摘されている。つまり、「明けの明星」も
「宵の明星」も実体(外延)としては「金星」なの
だから、「明けの明星は金星である」と「金星は明けの
明星である」と同義(単なるトートロジー)という話に
なるわけだが、そうすると「明けの明星は宵の明星
である」もまた同義ということになり、「それって
変じゃねぇか?」ってな話になる。
773Mr.Moto
2018/09/08(土) 07:48:22.76ID:Hj3WpMqo 坂井先生は、「外延的な形容詞」というものが
あるのではないか、という指摘もなさっている。
「その馬は白い」「馬は哺乳動物である」から
「その哺乳動物は白い」を推論するのは妥当である。
ところが「その鼠は大きい」から「その鼠は
大きい哺乳動物である」を推論するのは妥当ではないし、
「その象は小さい」から「その象は小さい哺乳動物である」を
推論するのも妥当ではない。
したがって、「白い」と「大きい」は、別種類の形容詞と
考えざるをえない、という指摘である。
あるのではないか、という指摘もなさっている。
「その馬は白い」「馬は哺乳動物である」から
「その哺乳動物は白い」を推論するのは妥当である。
ところが「その鼠は大きい」から「その鼠は
大きい哺乳動物である」を推論するのは妥当ではないし、
「その象は小さい」から「その象は小さい哺乳動物である」を
推論するのも妥当ではない。
したがって、「白い」と「大きい」は、別種類の形容詞と
考えざるをえない、という指摘である。
774Mr.Moto
2018/09/08(土) 08:07:40.34ID:Hj3WpMqo で、こういう基本的な部分をうっちゃったまま、
適当なコーパスをありもののライブラリで
形態素解析し、その結果を
ありものの統計処理パッケージでいじくって、
自然言語処理がどうのこうのとか
日本語処理がどうのこうのとか
偉そうに言っている自称・研究者を見ると
顔面を二三発張ってやるのも功徳では
ないだろうかと思う、と所長に言ったら、
「手が汚れるし、怪我をされても面倒だから、
尻でも蹴飛ばしてやったほうがいい」と
真顔で言われた。
適当なコーパスをありもののライブラリで
形態素解析し、その結果を
ありものの統計処理パッケージでいじくって、
自然言語処理がどうのこうのとか
日本語処理がどうのこうのとか
偉そうに言っている自称・研究者を見ると
顔面を二三発張ってやるのも功徳では
ないだろうかと思う、と所長に言ったら、
「手が汚れるし、怪我をされても面倒だから、
尻でも蹴飛ばしてやったほうがいい」と
真顔で言われた。
775Mr.Moto
2018/09/08(土) 08:48:33.23ID:Hj3WpMqo 鬱憤が溜まっているので剣呑な話になってしまった。すまんm(_ _)m
>>773 の形容詞の区分についてだが、おそらく形容詞
のみならず連体修飾詞全般にいえるのは、連体修飾詞には
「集合から部分集合を切り取る」という作用があるのでは
ないか、ということだ。すなわち、「大きい」は、いま目の前に
ある対象としての集合から、「大きいものの集合」を切り取る作用が
あるのではないか、ということだ。
鼠集合から切り取られた集合と、哺乳動物から切り取られた集合は
異なっているので、「大きい鼠は、必ずしも大きい哺乳動物だとは
謂えない」。
また、その「切り取る」操作が、「切り取られる対象」によって
規定されるということも指摘しておきたい。
「赤いミカンは赤い」し「赤いリンゴは赤い」のだが、
赤いミカンは蜜柑色だし、赤いリンゴは普通に赤い。
この場合、「未熟な⇔完熟した」という評価の軸との
関連において評価する必要がある。
>>773 の形容詞の区分についてだが、おそらく形容詞
のみならず連体修飾詞全般にいえるのは、連体修飾詞には
「集合から部分集合を切り取る」という作用があるのでは
ないか、ということだ。すなわち、「大きい」は、いま目の前に
ある対象としての集合から、「大きいものの集合」を切り取る作用が
あるのではないか、ということだ。
鼠集合から切り取られた集合と、哺乳動物から切り取られた集合は
異なっているので、「大きい鼠は、必ずしも大きい哺乳動物だとは
謂えない」。
また、その「切り取る」操作が、「切り取られる対象」によって
規定されるということも指摘しておきたい。
「赤いミカンは赤い」し「赤いリンゴは赤い」のだが、
赤いミカンは蜜柑色だし、赤いリンゴは普通に赤い。
この場合、「未熟な⇔完熟した」という評価の軸との
関連において評価する必要がある。
776Mr.Moto
2018/09/08(土) 08:57:47.30ID:Hj3WpMqo 「もの」という言葉が出たついでに言っておくと、
ここでいう「もの」は“individual”、すなわち「不可分なもの。
個人、個体、個物」を意味する。れっきとした哲学用語だ。
ただし、これは「物理的な存在」ではなく、「概念」を
指していて、しかも「具体的な意味」「内包的な意味」を
持たない。その意味で、individual は「意味を引っ掛ける釘」の
ようなもので、「こっちの釘とあっちの釘は、どこがどう違うと
言われても説明できない。ただ、引っかかっている意味が違うし、
比較によって区別できる」ものである。
同じような性質をもった存在として、Codd のデータベース理論における
データベース・キーというものがある。
ここでいう「もの」は“individual”、すなわち「不可分なもの。
個人、個体、個物」を意味する。れっきとした哲学用語だ。
ただし、これは「物理的な存在」ではなく、「概念」を
指していて、しかも「具体的な意味」「内包的な意味」を
持たない。その意味で、individual は「意味を引っ掛ける釘」の
ようなもので、「こっちの釘とあっちの釘は、どこがどう違うと
言われても説明できない。ただ、引っかかっている意味が違うし、
比較によって区別できる」ものである。
同じような性質をもった存在として、Codd のデータベース理論における
データベース・キーというものがある。
777Mr.Moto
2018/09/08(土) 09:11:20.12ID:Hj3WpMqo individual の訳語としては、「もの」が使われることが
ままある。馬場あき子『鬼の研究』によれば、「鬼」
には「もの」の訓があるという。意味としては「物
狂おしい」「もののけ」の「もの」に相当する。
そんなわけで、自然言語処理の研究者の間では、「仮にこっちの
“もの”を『白うるり』とします。で、こっちの“もの”を
『ももんがぁ』とします」「その場合、二つの存在の関係と
『ひょうすべ』と『ぬらりひょん』の関係が相同であるとすると、
その意味の差を求めるためには、どの程度の計算量が見込まれるか、
という話になりますよね?」みたいな議論が真顔で行われる、
ということになる。
ままある。馬場あき子『鬼の研究』によれば、「鬼」
には「もの」の訓があるという。意味としては「物
狂おしい」「もののけ」の「もの」に相当する。
そんなわけで、自然言語処理の研究者の間では、「仮にこっちの
“もの”を『白うるり』とします。で、こっちの“もの”を
『ももんがぁ』とします」「その場合、二つの存在の関係と
『ひょうすべ』と『ぬらりひょん』の関係が相同であるとすると、
その意味の差を求めるためには、どの程度の計算量が見込まれるか、
という話になりますよね?」みたいな議論が真顔で行われる、
ということになる。
778Mr.Moto
2018/09/08(土) 09:19:35.34ID:Hj3WpMqo >>777
このあたりの議論は、すでにルイス・キャロルが
『論理ゲーム』(『不思議の国の論理学』に収録)の
中でおこなっている。「念を押すが、筆者は前提が
“事実”であると保証してはいない。だいいち、
筆者はドラゴンを見たことはない。(中略)われわれの
義務はただ、前提が“論理的に結論につながるかどうか”を
理解することのみであり、したがって、かりに前提が真
ならば結論もまた真だということになるだろう」。
このあたりの議論は、すでにルイス・キャロルが
『論理ゲーム』(『不思議の国の論理学』に収録)の
中でおこなっている。「念を押すが、筆者は前提が
“事実”であると保証してはいない。だいいち、
筆者はドラゴンを見たことはない。(中略)われわれの
義務はただ、前提が“論理的に結論につながるかどうか”を
理解することのみであり、したがって、かりに前提が真
ならば結論もまた真だということになるだろう」。
779デフォルトの名無しさん
2018/09/08(土) 15:30:36.82ID:zV65OeMj 日本語の細かい文法ルールにお詳しいみたいだけど、「そもそも日本語に文法などあるのか?」と思わざるを得ない
10〜20代の若い連中がTwitterで書き散らしてるような文章はそれ自体「新しい言語現象(文法)」であって、仮に「これが正しい日本語文法でござい」とルールベースのエンジンを作り上げたところで、どんどん出てくる新しい文法には無力だと思うわけだが。
そこについてどう考えているの? 日がな一日Twitterを監視して新しいルールを追加し続けるのか? それってあんたが >>753 で書いた「こんなんやっとれるかぁ!」的な作業と何が違うんだ?
それがわかったからこそ、個別のルールに固執することはやめて、みんな「形態素解析の結果をありものの統計処理パッケージでいじく」るようになったんでしょ。
そのほうが精度も高いし。
10〜20代の若い連中がTwitterで書き散らしてるような文章はそれ自体「新しい言語現象(文法)」であって、仮に「これが正しい日本語文法でござい」とルールベースのエンジンを作り上げたところで、どんどん出てくる新しい文法には無力だと思うわけだが。
そこについてどう考えているの? 日がな一日Twitterを監視して新しいルールを追加し続けるのか? それってあんたが >>753 で書いた「こんなんやっとれるかぁ!」的な作業と何が違うんだ?
それがわかったからこそ、個別のルールに固執することはやめて、みんな「形態素解析の結果をありものの統計処理パッケージでいじく」るようになったんでしょ。
そのほうが精度も高いし。
780Mr.Moto
2018/09/08(土) 15:45:22.51ID:Hj3WpMqo >>779
> どんどん出てくる新しい文法には無力だと思うわけだが。
日本語は、古事記・日本書紀の時代から千年以上使われており、
しかも南北に長いので、沖縄首里方言と標準語の間には、
英語とドイツ語くらいの差(だいたい千五百年くらい)の
距離がある。薩摩弁と津軽弁もそのくらいの差があり、
平安時代の文芸と、現在の東京弁もそのくらいの距離がある。
だけど、それは全部ひっくるめて「日本語」なんだよ。
で、日本語を日本語たらしめているのは、「日本語の文法」なんだ。
だから、「およそ日本語であるならば、時代だろうが地域だろうが、
全部ひっくるめて処理してやろーじゃねぇか!」っつーんで開発
されたのが JAI-Parser なんだ。
千年ちょっとの些末なバリエーションなんぞは、
スクリプトと辞書で吸収できるんだよ。ふん。
> どんどん出てくる新しい文法には無力だと思うわけだが。
日本語は、古事記・日本書紀の時代から千年以上使われており、
しかも南北に長いので、沖縄首里方言と標準語の間には、
英語とドイツ語くらいの差(だいたい千五百年くらい)の
距離がある。薩摩弁と津軽弁もそのくらいの差があり、
平安時代の文芸と、現在の東京弁もそのくらいの距離がある。
だけど、それは全部ひっくるめて「日本語」なんだよ。
で、日本語を日本語たらしめているのは、「日本語の文法」なんだ。
だから、「およそ日本語であるならば、時代だろうが地域だろうが、
全部ひっくるめて処理してやろーじゃねぇか!」っつーんで開発
されたのが JAI-Parser なんだ。
千年ちょっとの些末なバリエーションなんぞは、
スクリプトと辞書で吸収できるんだよ。ふん。
781Mr.Moto
2018/09/08(土) 16:17:16.96ID:Hj3WpMqo コンピュータ・サイエンス誌『bit』(共立出版)、
一九九二年十二月号、p.52
『汎用日本語解析系の試作 ― 形態素解析コンパイラ・コンパイラの
試作をめぐって』を読んでくれたまえ。
「よろしい、何とかしましょう。それも、個別にではなく全部まとめて
面倒をみましょう。かな漢字変換も、漢字かな交じり文の解析も、
現代文も文語も方言も、ひっくるめて処理してみせようではありませんか。」
と、大見得を切っちゃった(つーか、実装しちゃった)んで、現在の
ようなコトになっとるわけだ。
当時のシステムはフツーの C 言語で実装されていたので、
メモリリークやらワイルドポインタの都合で動作が不安定
だった(Mac の C は、文字列がハンドル表現だったので、
なんとか実アプリとして安定動作してた)のだが、
二十一世紀に入ってから(山之内製薬と藤沢薬品工業が
合併して、アステラス製薬になるちょっと前ごろ) Java に
移植したらサーバ上で安定動作するところまで持ってゆけた。
一九九二年十二月号、p.52
『汎用日本語解析系の試作 ― 形態素解析コンパイラ・コンパイラの
試作をめぐって』を読んでくれたまえ。
「よろしい、何とかしましょう。それも、個別にではなく全部まとめて
面倒をみましょう。かな漢字変換も、漢字かな交じり文の解析も、
現代文も文語も方言も、ひっくるめて処理してみせようではありませんか。」
と、大見得を切っちゃった(つーか、実装しちゃった)んで、現在の
ようなコトになっとるわけだ。
当時のシステムはフツーの C 言語で実装されていたので、
メモリリークやらワイルドポインタの都合で動作が不安定
だった(Mac の C は、文字列がハンドル表現だったので、
なんとか実アプリとして安定動作してた)のだが、
二十一世紀に入ってから(山之内製薬と藤沢薬品工業が
合併して、アステラス製薬になるちょっと前ごろ) Java に
移植したらサーバ上で安定動作するところまで持ってゆけた。
782Maria
2018/09/08(土) 16:29:21.50ID:Hj3WpMqo なお、日本語の文法には、三回ほど大激震が走って
いるのが確認されています。
一回めは、上代特殊仮名遣が用いられなくなって、
母音の数が減っちゃったこと。
二回めは、動詞の末尾音として使われていた h 音が
消失して、新たに a・o・u 音が採用されたために、
動詞の活用と指標音の対応が崩れちゃったこと。
三回めは、動詞・形容詞の終止形が廃れてしまって、
「連体形の終止用法」が定着しちゃったこと。
一回めの変化は、大野 晋先生のお師匠さんである
橋本進吉先生によって発見されました。
で、JAI-Parser を使って二回めと三回めの変化を発見・
検証したのは、うちらだょ〜ん。
いるのが確認されています。
一回めは、上代特殊仮名遣が用いられなくなって、
母音の数が減っちゃったこと。
二回めは、動詞の末尾音として使われていた h 音が
消失して、新たに a・o・u 音が採用されたために、
動詞の活用と指標音の対応が崩れちゃったこと。
三回めは、動詞・形容詞の終止形が廃れてしまって、
「連体形の終止用法」が定着しちゃったこと。
一回めの変化は、大野 晋先生のお師匠さんである
橋本進吉先生によって発見されました。
で、JAI-Parser を使って二回めと三回めの変化を発見・
検証したのは、うちらだょ〜ん。
784デフォルトの名無しさん
2018/09/08(土) 18:39:54.70ID:RrQSE86D 八重山
787763
2018/09/09(日) 06:27:48.80ID:O317ycPa >>769
御説拝聴したので私の所見も述べるよ
>「文がどのように繋げられているか」が「文脈」になる
自然言語(日本語)の「文脈」には
引用のように言語処理の文脈で使われる
「文の組み合わせ」の意味のほかに
「文章外の情報」がある
>構文解析処理がと文脈解析処理がこんがらかって、ややこしい話になる
ただ本当は、この文章外の情報も取り込んだ上で
解析する必要があるのだと私は思う
人間は自然にそうしてるから
しかしソレをやり出すと人間の常識には際限がないので
フレーム問題のようなものに突き当たって
頓挫してしまったのが昔のAIブーム(の挫折)だと捉えている
そしてそれを打開するには新しい流行の機械学習と結びつけて
自動的に人間の知識を学習させて
人間が自然に持っている常識を身につけさせる必要があると私は考える
御説拝聴したので私の所見も述べるよ
>「文がどのように繋げられているか」が「文脈」になる
自然言語(日本語)の「文脈」には
引用のように言語処理の文脈で使われる
「文の組み合わせ」の意味のほかに
「文章外の情報」がある
>構文解析処理がと文脈解析処理がこんがらかって、ややこしい話になる
ただ本当は、この文章外の情報も取り込んだ上で
解析する必要があるのだと私は思う
人間は自然にそうしてるから
しかしソレをやり出すと人間の常識には際限がないので
フレーム問題のようなものに突き当たって
頓挫してしまったのが昔のAIブーム(の挫折)だと捉えている
そしてそれを打開するには新しい流行の機械学習と結びつけて
自動的に人間の知識を学習させて
人間が自然に持っている常識を身につけさせる必要があると私は考える
788763
2018/09/09(日) 06:36:07.29ID:O317ycPa >>770
>文を生成してゆくと、一応の文生成はできる
>適宜織り交ぜると、より「それっぽい」文章が生成できる
文章解析の意味解析と文脈解析の難しさは
文章生成にも必ず出てくるはず
文法通りに生成するだけで
意味は「それっぽい」だけの文章というのに
私はすごく不満を抱いている
>>771
つまるところ現在の大半の文生成とは
意味が分からないままランダムに言葉を組み合わせる
人工無能のレベルにあって
それを人間があえて意味を解釈する面白さはあるにせよ
やはり人工知能としてはもの足りない
人工知能としての自然言語処理を目指すのであれば
まず表現すべき意味や文脈もしくは意図を持っていて
それに沿った表現を組み立てていくべきだと私は考える
しかし意味や文脈にはさっきと同じフレーム問題のような
袋小路が待ち受けているのでやはり機械学習の
ブレイクスルーなど何か画期的な解決の糸口は必要だろう
>文を生成してゆくと、一応の文生成はできる
>適宜織り交ぜると、より「それっぽい」文章が生成できる
文章解析の意味解析と文脈解析の難しさは
文章生成にも必ず出てくるはず
文法通りに生成するだけで
意味は「それっぽい」だけの文章というのに
私はすごく不満を抱いている
>>771
つまるところ現在の大半の文生成とは
意味が分からないままランダムに言葉を組み合わせる
人工無能のレベルにあって
それを人間があえて意味を解釈する面白さはあるにせよ
やはり人工知能としてはもの足りない
人工知能としての自然言語処理を目指すのであれば
まず表現すべき意味や文脈もしくは意図を持っていて
それに沿った表現を組み立てていくべきだと私は考える
しかし意味や文脈にはさっきと同じフレーム問題のような
袋小路が待ち受けているのでやはり機械学習の
ブレイクスルーなど何か画期的な解決の糸口は必要だろう
789デフォルトの名無しさん
2018/09/09(日) 06:53:27.52ID:SSGV4TJO 構文解析をやっていると、「やっぱり文法や形態素解析の知識は
必要だな」と思う。
「なぜ」が連用修飾詞であるとか、「ません」が連体修飾詞で
あるとかいった視点がないと、構文解析の結果が交差してしまって、
支離滅裂になる。
必要だな」と思う。
「なぜ」が連用修飾詞であるとか、「ません」が連体修飾詞で
あるとかいった視点がないと、構文解析の結果が交差してしまって、
支離滅裂になる。
790Mr.Moto
2018/09/09(日) 07:21:35.69ID:SSGV4TJO >>787
すまん (^_^!) そういう意味での「文脈」に
ついては、その処理に至る以前に
超えなきゃいけない壁があって前に進めない。
言語はそもそも時系列の発話なり表記なりが
ベースになっているので、「通信」としての
性格がある。したがって、「速度」と「信頼性」の
両方に配慮する必要がある。
大野晋先生が『日本語の文法を考える』で述べて
いらっしゃるように「未知のことだけを伝えれば足りる」
ので、そこに「省略」が生まれる。ただ、その前提として
「相手にとって何が既知で、何が未知か」ということを
「理解」していなくてはいけない。そのため「省略」と
「理解」は不可分なので、扱いが難しい。
すまん (^_^!) そういう意味での「文脈」に
ついては、その処理に至る以前に
超えなきゃいけない壁があって前に進めない。
言語はそもそも時系列の発話なり表記なりが
ベースになっているので、「通信」としての
性格がある。したがって、「速度」と「信頼性」の
両方に配慮する必要がある。
大野晋先生が『日本語の文法を考える』で述べて
いらっしゃるように「未知のことだけを伝えれば足りる」
ので、そこに「省略」が生まれる。ただ、その前提として
「相手にとって何が既知で、何が未知か」ということを
「理解」していなくてはいけない。そのため「省略」と
「理解」は不可分なので、扱いが難しい。
791Mr.Moto
2018/09/09(日) 07:31:45.01ID:SSGV4TJO それに対して、「精度」を上げることはそれほど難しくなく、
語彙的な対応によって対処できる。
看護師が「清拭(せいしょく)」を「せいしき」と言うのは
生理的食塩水(生食:ナマショクではなくセイショク)と
間違えないためだ、という。
また、早稲田大学の竹本先生は能の作者推定に取り組んで
いらっしゃったが、「枕詞」の選び方に作者の個性が
出るとおっしゃっていた。「あしびきの」⇒「長い」、
「たらちねの」⇒「母」のように、「前振りをすることで、
意味を取りちがえないようにする」というのが枕詞の
機能だ。
ただ、「速度」と「精度」の間にはトレードオフの
関係があるので、そこにも困難がある。
語彙的な対応によって対処できる。
看護師が「清拭(せいしょく)」を「せいしき」と言うのは
生理的食塩水(生食:ナマショクではなくセイショク)と
間違えないためだ、という。
また、早稲田大学の竹本先生は能の作者推定に取り組んで
いらっしゃったが、「枕詞」の選び方に作者の個性が
出るとおっしゃっていた。「あしびきの」⇒「長い」、
「たらちねの」⇒「母」のように、「前振りをすることで、
意味を取りちがえないようにする」というのが枕詞の
機能だ。
ただ、「速度」と「精度」の間にはトレードオフの
関係があるので、そこにも困難がある。
792Mr.Moto
2018/09/09(日) 07:48:52.92ID:SSGV4TJO これとは別に、「制禦」「意図」という
視点がある。なぜシステム間で通信が
行なわれるのかというと、話者システムが
聞き手システムを、情報を伝えることで
制禦したいという意図があるからだ。
その制禦のための通信プロトコルが
文法だということになる。
この意図のありかたも、「学ぶ」
「命令する」「交渉する」といろいろ
あるので、それをどう扱うか、という
課題もある。
視点がある。なぜシステム間で通信が
行なわれるのかというと、話者システムが
聞き手システムを、情報を伝えることで
制禦したいという意図があるからだ。
その制禦のための通信プロトコルが
文法だということになる。
この意図のありかたも、「学ぶ」
「命令する」「交渉する」といろいろ
あるので、それをどう扱うか、という
課題もある。
793Mr.Moto
2018/09/09(日) 08:06:26.35ID:SSGV4TJO そんなわけで、
>>788
> 意味や文脈にはさっきと同じフレーム問題のような
> 袋小路が待ち受けているのでやはり機械学習の
> ブレイクスルーなど何か画期的な解決の糸口は必要だろう
に関しては、意味表現が整備されてから、意味データベースを
構築する際には重要になると思う。
ただ、それ以前に「人間のモデル化」が壁として立ちふさがって
いると考えている。
当面の目標は、「漫才ができるシステム」だな。
『アンドロイドは電子漫才のオチで笑えるか?』
>>788
> 意味や文脈にはさっきと同じフレーム問題のような
> 袋小路が待ち受けているのでやはり機械学習の
> ブレイクスルーなど何か画期的な解決の糸口は必要だろう
に関しては、意味表現が整備されてから、意味データベースを
構築する際には重要になると思う。
ただ、それ以前に「人間のモデル化」が壁として立ちふさがって
いると考えている。
当面の目標は、「漫才ができるシステム」だな。
『アンドロイドは電子漫才のオチで笑えるか?』
794Maria
2018/09/09(日) 08:14:33.32ID:SSGV4TJO >>789 でも述べられていますが、
形態素解析から構文解析に至る過程で、
「語順と省略」に関する問題があります。
ただ、この点に関して、自然言語処理
(日本語処理)の研究者は、ほとんど注意を
払っていません。たとえば、
「象は鼻が長い」は、「象は長い鼻の動物だ」と
同義である、とわれわれは考えていますが、「鼻」
強調された結果として語順が変わり、「動物だ」が
省略され、「象は動物の一種である」という「常識」が
要求されています。
にもかかわらず、形態素レベルの「象は」「鼻が」「長い」に
関してしか議論されていないのが、自然言語処理の停滞の
大きな原因だとわれわれは考えています。
形態素解析から構文解析に至る過程で、
「語順と省略」に関する問題があります。
ただ、この点に関して、自然言語処理
(日本語処理)の研究者は、ほとんど注意を
払っていません。たとえば、
「象は鼻が長い」は、「象は長い鼻の動物だ」と
同義である、とわれわれは考えていますが、「鼻」
強調された結果として語順が変わり、「動物だ」が
省略され、「象は動物の一種である」という「常識」が
要求されています。
にもかかわらず、形態素レベルの「象は」「鼻が」「長い」に
関してしか議論されていないのが、自然言語処理の停滞の
大きな原因だとわれわれは考えています。
795Mr.Moto
2018/09/09(日) 08:35:14.42ID:SSGV4TJO >>793
「ゾウムシの鼻が長いのに、コクゾウムシの鼻が
長くないのはなぜか?」
「ゾウムシは『象虫』ですが、コクゾウムシは
『穀蔵虫』だからです」
「なるほど」
「なお、ゾウムシは『ゾウのように鼻が長い』のではなく、
『長い口吻が象の鼻のようだ』から、ゾウムシと呼ばれます。
熱帯魚のエレファントノーズも同様です」
「ありがとう。」
これくらいのシステムであれば、現在の技術で充分に
可能だと思うんだが。
ついでながら、文語文は記述精度が高いので、いわゆる
標準語よりも生成が楽だ。その意味では、コンピュータとの
インタフェースには、「けいはんな方言」(京都弁でも
大阪弁でも奈良弁でもない、中途半端なエセ関西弁)が
向いていそうに思う。
「ゾウムシの鼻が長いのに、コクゾウムシの鼻が
長くないのはなぜか?」
「ゾウムシは『象虫』ですが、コクゾウムシは
『穀蔵虫』だからです」
「なるほど」
「なお、ゾウムシは『ゾウのように鼻が長い』のではなく、
『長い口吻が象の鼻のようだ』から、ゾウムシと呼ばれます。
熱帯魚のエレファントノーズも同様です」
「ありがとう。」
これくらいのシステムであれば、現在の技術で充分に
可能だと思うんだが。
ついでながら、文語文は記述精度が高いので、いわゆる
標準語よりも生成が楽だ。その意味では、コンピュータとの
インタフェースには、「けいはんな方言」(京都弁でも
大阪弁でも奈良弁でもない、中途半端なエセ関西弁)が
向いていそうに思う。
796Maria
2018/09/09(日) 10:49:17.38ID:SSGV4TJO たとえばの話、「義務教育」というのは、
「子供が教育を受けなければならない」という
“子供に対しての”義務ではなくて、保護者が「(子供を単純労働者として
搾取するのではなく)子供に(国政を預かる選挙民と
しての)教育を施さなければならない」という
”保護者に対しての”義務であり、それはすでに「大日本帝国憲法」において
普通選挙制の採用という形で明記されているんですが、
そこいらの話は、自然言語処理の「自称・研究者」は
あらかたスルーしてます。
それでも国から予算もらって研究できるんだから、
いい暮らししてらっしゃいますね(笑)
「子供が教育を受けなければならない」という
“子供に対しての”義務ではなくて、保護者が「(子供を単純労働者として
搾取するのではなく)子供に(国政を預かる選挙民と
しての)教育を施さなければならない」という
”保護者に対しての”義務であり、それはすでに「大日本帝国憲法」において
普通選挙制の採用という形で明記されているんですが、
そこいらの話は、自然言語処理の「自称・研究者」は
あらかたスルーしてます。
それでも国から予算もらって研究できるんだから、
いい暮らししてらっしゃいますね(笑)
797デフォルトの名無しさん
2018/09/09(日) 11:00:00.30ID:SSGV4TJO ところで
798Mb
2018/09/09(日) 11:02:04.96ID:SSGV4TJO ところで >>507 以前の連中は何をしているんだ。
まともに喧嘩売ってこい。
まともに喧嘩売ってこい。
799Mb
2018/09/09(日) 11:03:07.70ID:SSGV4TJO >>797 は誤爆だ。すまぬ。
800Mb
2018/09/09(日) 11:15:47.85ID:SSGV4TJO >>779
> 「そもそも日本語に文法などあるのか?」と思わざるを得ない
とか言ってる奴がまだ生存してるんだなぁ ……
「日本語は非・論理的だ」みたいなことを言ってるやつも
いたし、「日本語を廃止してフランス語を国語として採用しよう」
とか、「かな文字の使用をやめてローマ字表記にしよう」とか、
昔はいろいろあったらしい。漢字も、連合軍が「廃止したいけど、
いきなり廃止しちゃうと不便だろうから、とりあえず、
しばらくの間は使っていいよ」というので「当用漢字」と
いうのが生まれたわけだし。
ここは自然言語処理に関するスレで、いちおう日本語処理が
このところの話題になっている(せいぜい七月の上旬からだ)
のだから、素直に「このあたりに疑義がある。答えろ」くらいの
ことは言っていいと思うんだが、どうだろう。
> 「そもそも日本語に文法などあるのか?」と思わざるを得ない
とか言ってる奴がまだ生存してるんだなぁ ……
「日本語は非・論理的だ」みたいなことを言ってるやつも
いたし、「日本語を廃止してフランス語を国語として採用しよう」
とか、「かな文字の使用をやめてローマ字表記にしよう」とか、
昔はいろいろあったらしい。漢字も、連合軍が「廃止したいけど、
いきなり廃止しちゃうと不便だろうから、とりあえず、
しばらくの間は使っていいよ」というので「当用漢字」と
いうのが生まれたわけだし。
ここは自然言語処理に関するスレで、いちおう日本語処理が
このところの話題になっている(せいぜい七月の上旬からだ)
のだから、素直に「このあたりに疑義がある。答えろ」くらいの
ことは言っていいと思うんだが、どうだろう。
801デフォルトの名無しさん
2018/09/09(日) 15:11:46.35ID:SSGV4TJO そういえば、
助詞「が」の用法について、大野晋先生に
「とりたて詞の『が』と、所属の『が』」を
ごっちゃにして喧嘩売ってた奴がいたけと
思うんだけど、その後どうなったんだろうかな?
つーか、誰だっけ? 誰か知ってるヒトいる?
「鼻が長い」の「が」と、「我が家」の「が」は、
同表記だけど意味が違う、というのを納得できなくて
大野晋先生に延々絡んでたヒトがいたと思うんだが、
だれか名前を憶えていないか?
助詞「が」の用法について、大野晋先生に
「とりたて詞の『が』と、所属の『が』」を
ごっちゃにして喧嘩売ってた奴がいたけと
思うんだけど、その後どうなったんだろうかな?
つーか、誰だっけ? 誰か知ってるヒトいる?
「鼻が長い」の「が」と、「我が家」の「が」は、
同表記だけど意味が違う、というのを納得できなくて
大野晋先生に延々絡んでたヒトがいたと思うんだが、
だれか名前を憶えていないか?
802デフォルトの名無しさん
2018/09/09(日) 16:33:20.53ID:Ou+lnvoB お前みたいなやつだな
803デフォルトの名無しさん
2018/09/09(日) 16:39:12.45ID:SSGV4TJO >>802
おれは そんな安い真似はしない。
名詞の結合の「と」と文の順接の「と」を
ごっちゃにしたりはしない。
たしか『文藝春秋』みたいな厚い月刊誌で
やってたように思うんだが、ネット検索では
引っかからないんだよ。
おれは そんな安い真似はしない。
名詞の結合の「と」と文の順接の「と」を
ごっちゃにしたりはしない。
たしか『文藝春秋』みたいな厚い月刊誌で
やってたように思うんだが、ネット検索では
引っかからないんだよ。
804デフォルトの名無しさん
2018/09/09(日) 21:49:22.25ID:v6sgqCEe 『その日は朝から夜だった!』(嘉門達夫)
○その日は朝から夜まで仕事だった
✕その日は朝から夜だった
○その日は朝から夜まで仕事だった
✕その日は朝から夜だった
805デフォルトの名無しさん
2018/09/09(日) 21:53:40.10ID:v6sgqCEe 【新聞配達店で面接したこと】
店長『では明日、朝の三時からということで。』
俺『朝の三時ってまだ深夜では?』
店長『あなた帰っていいです!』
店長『では明日、朝の三時からということで。』
俺『朝の三時ってまだ深夜では?』
店長『あなた帰っていいです!』
806デフォルトの名無しさん
2018/09/10(月) 05:14:44.10ID:YCqssu0J807デフォルトの名無しさん
2018/09/10(月) 05:43:52.77ID:YCqssu0J あとは「ありえない」「できない」も、
発話者の意図によって意味が違ってくるうえに、
しばしば責任問題みたいな社会的行動に
かかわってくるので、「どういう意図で言って
いるのか」を明確にしてほしいと思うが、
「そこを明確にしちゃうと不都合なことになる」と
いう話者の意図が反映されていたりするから
始末におえない。
発話者の意図によって意味が違ってくるうえに、
しばしば責任問題みたいな社会的行動に
かかわってくるので、「どういう意図で言って
いるのか」を明確にしてほしいと思うが、
「そこを明確にしちゃうと不都合なことになる」と
いう話者の意図が反映されていたりするから
始末におえない。
808デフォルトの名無しさん
2018/09/10(月) 06:04:08.54ID:YCqssu0J いわゆる「うなぎ文」も、「誰に向かって
言っているのか」が、解釈に影響する。
客が二人連れの場合、
「僕は、うなぎだ」は
客⇒客:「僕(の注文)は、うなぎだ」
客⇒店員:上記の意味以外に、「僕は
うなぎ(を註文する客)だ」
という解釈がありうる。
この場合の「文脈」としては、
「どちらの客に、注文の決定権があるのか?」
「どちらが支払をするか?」がある。
言っているのか」が、解釈に影響する。
客が二人連れの場合、
「僕は、うなぎだ」は
客⇒客:「僕(の注文)は、うなぎだ」
客⇒店員:上記の意味以外に、「僕は
うなぎ(を註文する客)だ」
という解釈がありうる。
この場合の「文脈」としては、
「どちらの客に、注文の決定権があるのか?」
「どちらが支払をするか?」がある。
809デフォルトの名無しさん
2018/09/10(月) 06:11:28.55ID:YCqssu0J 上司「僕は玉子丼だ」部下「僕はうなぎで」
とか、寿司屋で
上司「僕は玉子で」部下「トロをお願いします」
とかいうのは、「正しい解釈」というのが難しい。
上司「おまえ、空気読めよ」
部下「いや、玉子がお好きなんだなぁ、と」
上司「普通はせいぜい同じ値段のものを頼むんだよ!」
部下「僕、玉子アレルギーなんです」
みたいなのをコンピュータは理解できるか、
という課題はあろうと思う。
とか、寿司屋で
上司「僕は玉子で」部下「トロをお願いします」
とかいうのは、「正しい解釈」というのが難しい。
上司「おまえ、空気読めよ」
部下「いや、玉子がお好きなんだなぁ、と」
上司「普通はせいぜい同じ値段のものを頼むんだよ!」
部下「僕、玉子アレルギーなんです」
みたいなのをコンピュータは理解できるか、
という課題はあろうと思う。
810デフォルトの名無しさん
2018/09/10(月) 07:43:50.83ID:YCqssu0J >>804
「AとB」は「AとBと」と同義。
「AからB」が「AからBまで」を意味する
こともあるが、「右から左」は、また別の
解釈があり、「後ろから前から」は
「後ろから前」とは略さない。
形態素解析は、省略のパターンまで含めて
行なう必要がある。
「AとB」は「AとBと」と同義。
「AからB」が「AからBまで」を意味する
こともあるが、「右から左」は、また別の
解釈があり、「後ろから前から」は
「後ろから前」とは略さない。
形態素解析は、省略のパターンまで含めて
行なう必要がある。
811デフォルトの名無しさん
2018/09/10(月) 11:10:01.71ID:wQh8RVrU たしかに
上島、押すなよ
は有名
上島、押すなよ
は有名
812デフォルトの名無しさん
2018/09/10(月) 11:58:12.07ID:YCqssu0J >>811
「後ろから前から」が「後ろから前」と
略されないのは、「後ろからも前からも」の
省略だと考える(というか、形態素解析の
候補として上位ルーチンに上げる)と、
構文解析が行ないやすいと思う。
「後ろから前から」が「後ろから前」と
略されないのは、「後ろからも前からも」の
省略だと考える(というか、形態素解析の
候補として上位ルーチンに上げる)と、
構文解析が行ないやすいと思う。
813Mr.Moto
2018/09/10(月) 12:25:00.10ID:YCqssu0J 文生成に関していうと、
応答をどうするかという意味論にも
無視できない部分がある。
「××していいですか?」
に対しては、
「どうぞ。」
「いちいち訊かんでよろしい」
「やってみなはれ」
「やめといた方がいいとは思うが、あえて止めようとも
思わない」
「やめとけ。」
「ふざけるな! おまえは何を考えてるんだ!」
等々、いろいろな応答があると思うんだが、
それが どのような判断や意図に基づいているか
ということには、議論の余地がある。
応答をどうするかという意味論にも
無視できない部分がある。
「××していいですか?」
に対しては、
「どうぞ。」
「いちいち訊かんでよろしい」
「やってみなはれ」
「やめといた方がいいとは思うが、あえて止めようとも
思わない」
「やめとけ。」
「ふざけるな! おまえは何を考えてるんだ!」
等々、いろいろな応答があると思うんだが、
それが どのような判断や意図に基づいているか
ということには、議論の余地がある。
814デフォルトの名無しさん
2018/09/10(月) 14:38:07.23ID:0Z7boaOr >>800
そういう意味で言ってるんじゃないことくらいアンタにもわかってるだろうに。
「正しい日本語文法」というものを頑張って発見したとしても、それは演繹的ではありえないということ。
生きてる人間によってどんどん新しい日本語文法が作られていくのだから、それを観察して後追いでルールを追加・修正・削除していくしかないんだよ。
> スクリプトと辞書で吸収できるんだよ。ふん。
スクリプトと辞書を延々と手作業で修正し続けなければならないことは否定しないんだな。しかも、そのスクリプトやらは、ルールベースのエキスパートシステムみたいに、
ルールの追加に専門知識が必要で、以前のルールとバッティングし、いずれ破綻するわけだろう。
だから反論として聞きたいのは、統計的自然言語処理と比べて何が勝っているのか、ルールを追加修正し続けるコストは許容できるレベルなのか、
後段の高レベルな自然言語処理タスク(意味理解など)に応用した際にどう性能が変わってくるのか、ということだよ。
そういう意味で言ってるんじゃないことくらいアンタにもわかってるだろうに。
「正しい日本語文法」というものを頑張って発見したとしても、それは演繹的ではありえないということ。
生きてる人間によってどんどん新しい日本語文法が作られていくのだから、それを観察して後追いでルールを追加・修正・削除していくしかないんだよ。
> スクリプトと辞書で吸収できるんだよ。ふん。
スクリプトと辞書を延々と手作業で修正し続けなければならないことは否定しないんだな。しかも、そのスクリプトやらは、ルールベースのエキスパートシステムみたいに、
ルールの追加に専門知識が必要で、以前のルールとバッティングし、いずれ破綻するわけだろう。
だから反論として聞きたいのは、統計的自然言語処理と比べて何が勝っているのか、ルールを追加修正し続けるコストは許容できるレベルなのか、
後段の高レベルな自然言語処理タスク(意味理解など)に応用した際にどう性能が変わってくるのか、ということだよ。
815Mb
2018/09/10(月) 15:03:13.98ID:YCqssu0J >>814
> そういう意味で言ってるんじゃないことくらい
> アンタにもわかってるだろうに。
もちろん分かっているとも(笑)
うちらがやっているのは「記述文法」であって、
「規範文法」に対してどうのこうの、とか文句を
つける気はまったくないんだが、現在の中学校の
国語教育で教えられている、いわゆる「学校文法」
っつーのに異義を申し立てているだけだ。
ただし、「規範文法」としては、文語文法はよくできている
(なにせ、千年以上、日本語のスタンダードとして
機能していたのだからね)と思うので、「文語&舊字體」
を貫くというのは、少なくとも方向性としては
間違っていないと思っている。
> そういう意味で言ってるんじゃないことくらい
> アンタにもわかってるだろうに。
もちろん分かっているとも(笑)
うちらがやっているのは「記述文法」であって、
「規範文法」に対してどうのこうの、とか文句を
つける気はまったくないんだが、現在の中学校の
国語教育で教えられている、いわゆる「学校文法」
っつーのに異義を申し立てているだけだ。
ただし、「規範文法」としては、文語文法はよくできている
(なにせ、千年以上、日本語のスタンダードとして
機能していたのだからね)と思うので、「文語&舊字體」
を貫くというのは、少なくとも方向性としては
間違っていないと思っている。
816Maria
2018/09/10(月) 15:10:27.98ID:YCqssu0J >>814
> 生きてる人間によってどんどん新しい日本語文法が作られていくのだから、
> それを観察して後追いでルールを追加・修正・削除していくしかないんだよ。
だって、それ言ったら方言とかはスクリプトとして吸収できないはずじゃん。
原則が変わってないから、些末な部分(語彙とかスクリプトとか)で
吸収できちゃうから言ってるわけで、だからこそ沖縄の各島方言や、
伊豆諸島の各島方言とかを、ちゃんと保存しとこうと思ってるのよね、
うちらは(そのあたりの系統関係とか、遷移関係とかには、興味を
持っています)。
> 生きてる人間によってどんどん新しい日本語文法が作られていくのだから、
> それを観察して後追いでルールを追加・修正・削除していくしかないんだよ。
だって、それ言ったら方言とかはスクリプトとして吸収できないはずじゃん。
原則が変わってないから、些末な部分(語彙とかスクリプトとか)で
吸収できちゃうから言ってるわけで、だからこそ沖縄の各島方言や、
伊豆諸島の各島方言とかを、ちゃんと保存しとこうと思ってるのよね、
うちらは(そのあたりの系統関係とか、遷移関係とかには、興味を
持っています)。
817Maria
2018/09/10(月) 15:14:18.78ID:YCqssu0J > だから反論として聞きたいのは、統計的自然言語処理と比べて
> 何が勝っているのか、ルールを追加修正し続けるコストは
> 許容できるレベルなのか、
えー? やってみると簡単だよ?
むしろ、統計的自然言語処理のほうが、よっぽど
大変なんじゃない?
どこの大学の、どこの研究室か言ってくださったら、
こっちから行っちゃうけど。
> 何が勝っているのか、ルールを追加修正し続けるコストは
> 許容できるレベルなのか、
えー? やってみると簡単だよ?
むしろ、統計的自然言語処理のほうが、よっぽど
大変なんじゃない?
どこの大学の、どこの研究室か言ってくださったら、
こっちから行っちゃうけど。
818Mb
2018/09/10(月) 15:17:29.09ID:YCqssu0J > 後段の高レベルな自然言語処理タスク(意味理解など)に応用した際に
> どう性能が変わってくるのか、ということだよ。
そんなこと言ったって、「高レベルな自然言語処理タスク(意味理解など)」
が実装されてないじゃん。「どう性能が変わってくるのか」とか言われたって、
「誰が評価するんだ (wwwww」ってな話にならんか?
> どう性能が変わってくるのか、ということだよ。
そんなこと言ったって、「高レベルな自然言語処理タスク(意味理解など)」
が実装されてないじゃん。「どう性能が変わってくるのか」とか言われたって、
「誰が評価するんだ (wwwww」ってな話にならんか?
819Mr.Moto
2018/09/10(月) 15:25:02.82ID:YCqssu0J ちょっとスレの趣旨とは外れてコメしとくけど、
うちのマリ坊(Maria)は、自然言語処理業界では
「Maria 様」と崇め奉られていたので(とは言いつつ
かなりゲスな奴だが)、「こんな初歩的な質問をしても
いいのだろうか?」とかいった気苦労は、するだけ
無駄だ。
疑問があったら全部ぶつけろ。それで納得するかどうかは、
その後の話だ。
うちのマリ坊(Maria)は、自然言語処理業界では
「Maria 様」と崇め奉られていたので(とは言いつつ
かなりゲスな奴だが)、「こんな初歩的な質問をしても
いいのだろうか?」とかいった気苦労は、するだけ
無駄だ。
疑問があったら全部ぶつけろ。それで納得するかどうかは、
その後の話だ。
820デフォルトの名無しさん
2018/09/10(月) 16:02:42.45ID:0Z7boaOr > 「どう性能が変わってくるのか」とか言われたって、「誰が評価するんだ (wwwww」ってな話にならんか?
既存のベンチマークに適用してペーパー書いて言語処理学会なり人工知能学会なりの研究会で発表すればいい。
既存のベンチマークに適用してペーパー書いて言語処理学会なり人工知能学会なりの研究会で発表すればいい。
821Maria
2018/09/10(月) 16:30:37.14ID:YCqssu0J >>820
> 既存のベンチマーク
そもそも、形態素解析における「標準的な解析結果」と
いうものが現状のところ存在していなくて、
「標準的な構文解析システム」というものが存在していなくて、
「じゃあ、何をもって正解とするの?」っていう判断基準が
なくって、それで「ペーパー書いて言語処理学会なり人工知能学会なりの
研究会で発表」しろって言われてもねぇ。
高橋秀俊先生は、電気通信学会から独立して、情報処理学会を
立ち上げたんですが、当時「裏切者」と呼ばれたそうです。
その後、「学会に出てくる奴が、背広ネクタイばっかりになってる」
というので、日本ソフトウェア科学会を立ち上げて、やっぱり
「裏切者」と呼ばれたそうです。
で、その後、認知心理学会が立ち上がったんですが ……
「既存の学会とか、既存の理論とか、既存のベンチマークとかがダメだ」
っていう話をしているときに、そういう話を持ってきますか。
「おまえは、ひとこと余計だ」と、所長に叱られたので、
本日はこれまで。
> 既存のベンチマーク
そもそも、形態素解析における「標準的な解析結果」と
いうものが現状のところ存在していなくて、
「標準的な構文解析システム」というものが存在していなくて、
「じゃあ、何をもって正解とするの?」っていう判断基準が
なくって、それで「ペーパー書いて言語処理学会なり人工知能学会なりの
研究会で発表」しろって言われてもねぇ。
高橋秀俊先生は、電気通信学会から独立して、情報処理学会を
立ち上げたんですが、当時「裏切者」と呼ばれたそうです。
その後、「学会に出てくる奴が、背広ネクタイばっかりになってる」
というので、日本ソフトウェア科学会を立ち上げて、やっぱり
「裏切者」と呼ばれたそうです。
で、その後、認知心理学会が立ち上がったんですが ……
「既存の学会とか、既存の理論とか、既存のベンチマークとかがダメだ」
っていう話をしているときに、そういう話を持ってきますか。
「おまえは、ひとこと余計だ」と、所長に叱られたので、
本日はこれまで。
822デフォルトの名無しさん
2018/09/10(月) 20:18:10.94ID:0Z7boaOr >>821
違う違う。形態素解析の「標準的な解析結果」なんか誰も求めてないの。
形態素解析は目的じゃなくて手段なんだから、後段の応用的な自然言語処理のタスクの性能にどれくらい寄与するかを示せって言ってるの。
https://github.com/google/sentencepiece/blob/master/doc/experiments.md
例えば上のページでは、各種トークナイザ及び形態素解析器を使って応用的なタスクのベンチマークをやってその性能を示しているわけだけど、
そこにあなたのシステムを導入したときに、他のトークナイザより性能が高かったらみんな認めるでしょってこと。
違う違う。形態素解析の「標準的な解析結果」なんか誰も求めてないの。
形態素解析は目的じゃなくて手段なんだから、後段の応用的な自然言語処理のタスクの性能にどれくらい寄与するかを示せって言ってるの。
https://github.com/google/sentencepiece/blob/master/doc/experiments.md
例えば上のページでは、各種トークナイザ及び形態素解析器を使って応用的なタスクのベンチマークをやってその性能を示しているわけだけど、
そこにあなたのシステムを導入したときに、他のトークナイザより性能が高かったらみんな認めるでしょってこと。
823デフォルトの名無しさん
2018/09/11(火) 05:02:43.14ID:XLdqU0cd 英文を読み解く以前に知るべき現代社会の常識
https://bookmeter.com/books/1235800
文法的には、反対の賛成=賛成の反対。しかしながらそういう言い方は『常識的には』されない。
https://bookmeter.com/books/1235800
文法的には、反対の賛成=賛成の反対。しかしながらそういう言い方は『常識的には』されない。
824デフォルトの名無しさん
2018/09/11(火) 05:44:15.24ID:XLdqU0cd ところで人工知能にわれわれ人間世界の『常識』『風習』を教え込むことは可能ですか?
まず、『エマ』については、絵作りの場合、資料本のほか、ドラマの『シャーロック・ホームズの
冒険など時代考証のしっかりした映像資料を見て、イギリス人的な考え方、イギリス人にとって
のツボを理解していくそうです。絵作り以外では、
本や文字資料から知識を入れた後、画像資料のビジュアルに当てはめていくとのこと。
次に『乙嫁語り』。絵に関しては、当時の写真やドキュメンタリー番組などを参考にしているそうです。
あと、中央アジア関係の学会や中近東文化センター、民族学博物館(吹田市の「みんぱく」?)などの研究所
にある図書室で棚を調べまくり、いい本があればタイトルを控え、オンライン書店から注文。
https://ameblo.jp/karasu-otoko-shokai/entry-11210732430.html
自然言語というのは人々の日常生活に密接に関連しており、その背景知識が無いと解読しにくいはずだ。
例えば『かわいがる』というのも、保育園と相撲部屋では全く違う意味に使われるはずだ。
まず、『エマ』については、絵作りの場合、資料本のほか、ドラマの『シャーロック・ホームズの
冒険など時代考証のしっかりした映像資料を見て、イギリス人的な考え方、イギリス人にとって
のツボを理解していくそうです。絵作り以外では、
本や文字資料から知識を入れた後、画像資料のビジュアルに当てはめていくとのこと。
次に『乙嫁語り』。絵に関しては、当時の写真やドキュメンタリー番組などを参考にしているそうです。
あと、中央アジア関係の学会や中近東文化センター、民族学博物館(吹田市の「みんぱく」?)などの研究所
にある図書室で棚を調べまくり、いい本があればタイトルを控え、オンライン書店から注文。
https://ameblo.jp/karasu-otoko-shokai/entry-11210732430.html
自然言語というのは人々の日常生活に密接に関連しており、その背景知識が無いと解読しにくいはずだ。
例えば『かわいがる』というのも、保育園と相撲部屋では全く違う意味に使われるはずだ。
825Maria
2018/09/11(火) 08:40:31.85ID:E7Dai500 >>824
> ところで人工知能にわれわれ人間世界の『常識』『風習』を
> 教え込むことは可能ですか?
「まず音声入出力機能を備えたロボットを作るところから
始めないと無理なんじゃない?」というのが、いまのところの
予想です。で、そのためには、筋肉に相当するアクチュエータから
開発してかないとダメだと思っています。
> 例えば『かわいがる』というのも、
> 哺育園と相撲部屋では全く違う意味に使われるはずだ。
じつは「〜がる」というのは「表出」を意味するので、
「かわいい」というメッセージを行動で表現するという
点では「かわいがる」には一般的な意味があります。
これは、「形容詞には、暗黙の主語としての話者が
存在する」ということで、「彼は悲しい」とは
言わず、「彼は悲しんでいる」「悲しそうだ」になり、
「彼は寂しい」ではなく「彼は寂しがっている」
「寂しそうだ」になります。
その先のニュアンスの部分で、運用論的な話が
出てくるんじゃないかな。
> ところで人工知能にわれわれ人間世界の『常識』『風習』を
> 教え込むことは可能ですか?
「まず音声入出力機能を備えたロボットを作るところから
始めないと無理なんじゃない?」というのが、いまのところの
予想です。で、そのためには、筋肉に相当するアクチュエータから
開発してかないとダメだと思っています。
> 例えば『かわいがる』というのも、
> 哺育園と相撲部屋では全く違う意味に使われるはずだ。
じつは「〜がる」というのは「表出」を意味するので、
「かわいい」というメッセージを行動で表現するという
点では「かわいがる」には一般的な意味があります。
これは、「形容詞には、暗黙の主語としての話者が
存在する」ということで、「彼は悲しい」とは
言わず、「彼は悲しんでいる」「悲しそうだ」になり、
「彼は寂しい」ではなく「彼は寂しがっている」
「寂しそうだ」になります。
その先のニュアンスの部分で、運用論的な話が
出てくるんじゃないかな。
826Maria
2018/09/11(火) 09:00:32.51ID:E7Dai500 >>822
> 形態素解析は目的じゃなくて手段なんだから、
> 後段の応用的な自然言語処理のタスクの性能に
> どれくらい寄与するかを示せって言ってるの。
> そこにあなたのシステムを導入したときに、
> 他のトークナイザより性能が高かったら
> みんな認めるでしょってこと。
他のトーカナイザは出力がシリアルでしょ?
こちらは「かな漢字変換における、候補選択前の、
構造を持ったデータ」が出力なんですよ。
ですから、「入れない」がイレナイなのか
ハイレナイなのかは、「使うほうが選んでね。
選択に重みづけをしたいんだったら、必要なデータは
乗っけてあげるから」という形なんです。
で、JAI-Perser はチャート法を使っているので、
候補探索自体の実行順序も決まっていなくて、
「探索戦略の部分も、そっちの都合に合わせますけど、
どうします?」っていう話があるわけです。
現在のプロダクション・ルールの適用順位はかなり
こなれているので、「最長一致で深さ優先探索で
最初に文末まで解析が成功したものを出力する」で
よければ、とりあえず土俵には上がれると思います。
> 形態素解析は目的じゃなくて手段なんだから、
> 後段の応用的な自然言語処理のタスクの性能に
> どれくらい寄与するかを示せって言ってるの。
> そこにあなたのシステムを導入したときに、
> 他のトークナイザより性能が高かったら
> みんな認めるでしょってこと。
他のトーカナイザは出力がシリアルでしょ?
こちらは「かな漢字変換における、候補選択前の、
構造を持ったデータ」が出力なんですよ。
ですから、「入れない」がイレナイなのか
ハイレナイなのかは、「使うほうが選んでね。
選択に重みづけをしたいんだったら、必要なデータは
乗っけてあげるから」という形なんです。
で、JAI-Perser はチャート法を使っているので、
候補探索自体の実行順序も決まっていなくて、
「探索戦略の部分も、そっちの都合に合わせますけど、
どうします?」っていう話があるわけです。
現在のプロダクション・ルールの適用順位はかなり
こなれているので、「最長一致で深さ優先探索で
最初に文末まで解析が成功したものを出力する」で
よければ、とりあえず土俵には上がれると思います。
827Maria
2018/09/11(火) 09:09:50.12ID:E7Dai500 >>823
「危ないですから」は、連体形「危ない」の直後に
用言「です」が来ているので、厳密にいうと、文法的には
正しくありません。
とはいえ、文法的に正しい「危ないのですから」
「危のうございますから」は、常識的には使いません。
そんなわけで、「危ないですから」⇒「危ないので」
「危険ですから」「危険ですので」と言い換えるのが
望ましいんですが …… それってコンピュータに
指摘されても嬉しくないと思うんだけどなぁ。
あたしらは日本語処理をやってるので
「そうか、なるほど」と思うだけですけど。
「危ないですから」は、連体形「危ない」の直後に
用言「です」が来ているので、厳密にいうと、文法的には
正しくありません。
とはいえ、文法的に正しい「危ないのですから」
「危のうございますから」は、常識的には使いません。
そんなわけで、「危ないですから」⇒「危ないので」
「危険ですから」「危険ですので」と言い換えるのが
望ましいんですが …… それってコンピュータに
指摘されても嬉しくないと思うんだけどなぁ。
あたしらは日本語処理をやってるので
「そうか、なるほど」と思うだけですけど。
829Maria
2018/09/11(火) 09:27:51.46ID:E7Dai500 あ、そうそう。 >>826 のチャート法うんぬんの話ですけど、
>>814
> ルールの追加に専門知識が必要で、以前のルールと
> バッティングし、いずれ破綻するわけだろう。
に関していうと、候補として出てくるだけで、バッティングは
しません。探索順序に関しても、疑似マルチで動かしていれば
順序が変わるでしょうが、クラウドで実行したら、それすら
関係のない話になります。
「専門知識が必要」というのは、「記述文法の知識」以上の
ものは必要ありません。もっとも、記述文法をマジメにやっている
ヒトは、日本国内にも十人いるかどうか(笑)
そういう意味では、「実用化される前に、まず専門家を育成しよう」
という話にはなるわけですが。
>>814
> ルールの追加に専門知識が必要で、以前のルールと
> バッティングし、いずれ破綻するわけだろう。
に関していうと、候補として出てくるだけで、バッティングは
しません。探索順序に関しても、疑似マルチで動かしていれば
順序が変わるでしょうが、クラウドで実行したら、それすら
関係のない話になります。
「専門知識が必要」というのは、「記述文法の知識」以上の
ものは必要ありません。もっとも、記述文法をマジメにやっている
ヒトは、日本国内にも十人いるかどうか(笑)
そういう意味では、「実用化される前に、まず専門家を育成しよう」
という話にはなるわけですが。
830デフォルトの名無しさん
2018/09/11(火) 09:34:53.57ID:t5mybBn/ 不愉快だから連投しないでくれる?
831Mb
2018/09/11(火) 09:49:53.59ID:E7Dai500832デフォルトの名無しさん
2018/09/11(火) 12:37:12.53ID:nzfI9if7 ゴミネタ連投されても迷惑
833デフォルトの名無しさん
2018/09/11(火) 14:25:30.42ID:pwo3DQbp 埋めるのが目的だろうから
運営に通報でもしない限りは
このまま続くだろうね
運営に通報でもしない限りは
このまま続くだろうね
834デフォルトの名無しさん
2018/09/11(火) 14:39:10.31ID:W6mUR8R6 そもそも >>1 に
「言語学の話題などは他のスレッドでお願いします。」ってあるんだけどな。
「言語学の話題などは他のスレッドでお願いします。」ってあるんだけどな。
835Maria
2018/09/11(火) 15:20:55.45ID:E7Dai500 >>834
そもそもチャート法というのは、
構文解析の手法として用いられていた
ものであって、それが形態素解析に
対しても威力を発する、という話なのよ。
で、「形態素解析レベルの文法は、
スクリプトとして外に出せる」っていう話を
しているわけ。
そのときに、「省略」の話が出てくるんで、
「そのあたりの問題は、スクリプトの記述によって
かなりの部分、回避できる」っていう話をして
いるんですけど、何か問題でも?
黙って引っ込んでると、叩かれるよぉ?
なんか言い返しなよね。
そもそもチャート法というのは、
構文解析の手法として用いられていた
ものであって、それが形態素解析に
対しても威力を発する、という話なのよ。
で、「形態素解析レベルの文法は、
スクリプトとして外に出せる」っていう話を
しているわけ。
そのときに、「省略」の話が出てくるんで、
「そのあたりの問題は、スクリプトの記述によって
かなりの部分、回避できる」っていう話をして
いるんですけど、何か問題でも?
黙って引っ込んでると、叩かれるよぉ?
なんか言い返しなよね。
836Maria
2018/09/11(火) 15:24:58.85ID:E7Dai500838Mr.Moto
2018/09/11(火) 15:35:18.33ID:E7Dai500 ROM ってる真面目な自然言語処理の研究者に告ぐ。
ザコネタでいいから絡んどけ。
なんかしら研究の種にはなるぞ?
ザコネタでいいから絡んどけ。
なんかしら研究の種にはなるぞ?
839デフォルトの名無しさん
2018/09/11(火) 15:52:16.29ID:W6mUR8R6 >>835
806-809みたいにウダウダと解釈を垂れたりとりたて詞がどうのこうの書いてるのをスレチと言ってるの。
806-809みたいにウダウダと解釈を垂れたりとりたて詞がどうのこうの書いてるのをスレチと言ってるの。
840Maria
2018/09/11(火) 15:57:15.72ID:E7Dai500841デフォルトの名無しさん
2018/09/11(火) 16:03:53.59ID:3CpNQap1 > 格の一意性が成立するという前提を置かないと
アンタ、現代の自然言語処理から完全に取り残されてるよ
アンタ、現代の自然言語処理から完全に取り残されてるよ
842Mb
2018/09/11(火) 17:10:15.07ID:E7Dai500 >>841
小松左京さんの『日本沈没』で、
「『造山活動東進説』とか言ってると、
冷飯を食わされるぞ」という話があったが、
「CG(汎文法)とか言ってると、冷飯を
食わされるぞ」とかいう話がマジである。
「現代の自然言語処理」って、どこにあるんだ?
「国が、どこに予算を出しているのか」っていう
話は、また別な話だぞ?
貴様、誰だ。所属と姓名を名宣(なの)れ。
「たれか」って誰何を三回したら、射殺しても
(「しゃさつしても」だ。「いころしても」ではない)
軍法上認められるんだぞ?
小松左京さんの『日本沈没』で、
「『造山活動東進説』とか言ってると、
冷飯を食わされるぞ」という話があったが、
「CG(汎文法)とか言ってると、冷飯を
食わされるぞ」とかいう話がマジである。
「現代の自然言語処理」って、どこにあるんだ?
「国が、どこに予算を出しているのか」っていう
話は、また別な話だぞ?
貴様、誰だ。所属と姓名を名宣(なの)れ。
「たれか」って誰何を三回したら、射殺しても
(「しゃさつしても」だ。「いころしても」ではない)
軍法上認められるんだぞ?
843Maria
2018/09/11(火) 17:34:34.73ID:E7Dai500 「そこで、自然言語処理システムを実際に扱って学んだ者は皆、
素直な心を持って吉原の高級ソープに、童貞を捨てにいった
賢い人に似ている。
本番行為を行わなくても、
知識と自信と満足とを持ち帰ったからである。
自然言語処理システムの理論を聞くだけで実際に操作した
ことのない者は皆、安い風俗に童貞を捨てにいった愚かな人に似ている。
本番前に勃起せず、手で擦っても立たず、本番行為に至らなかったからである。
イエスがこれらの言葉を語り終えられると、
群衆はその教えに非常に驚いた。マルクス主義フェミニストの
ようにではなく、風俗の現場の人間として
お教えになったからである。
日本語処理システムに、実際に触ってから
出直してらっしゃいね?
素直な心を持って吉原の高級ソープに、童貞を捨てにいった
賢い人に似ている。
本番行為を行わなくても、
知識と自信と満足とを持ち帰ったからである。
自然言語処理システムの理論を聞くだけで実際に操作した
ことのない者は皆、安い風俗に童貞を捨てにいった愚かな人に似ている。
本番前に勃起せず、手で擦っても立たず、本番行為に至らなかったからである。
イエスがこれらの言葉を語り終えられると、
群衆はその教えに非常に驚いた。マルクス主義フェミニストの
ようにではなく、風俗の現場の人間として
お教えになったからである。
日本語処理システムに、実際に触ってから
出直してらっしゃいね?
844デフォルトの名無しさん
2018/09/11(火) 20:25:40.66ID:uQlqoJNZ845Mr.Moto
2018/09/11(火) 20:48:57.08ID:E7Dai500 >>844
> 昔はそれなりに研究をやっていたようだが
研究なんかしてねぇんだよ。
開発と実装をしてるうちに、
後から従いてきた知識でしかねぇんだよ。
だから、「実際に やってみろ」って言ってんだよ。
で、開発の現場に戻ってくるぞ、って言ってんだよ。
おまいら自然言語処理をやってる奴は、これから
ケツ叩かれて全力疾走させられるぞ?って
警告してんだよ。
マジレスできねぇ奴は、この先相手にされねぇぞ?
> 昔はそれなりに研究をやっていたようだが
研究なんかしてねぇんだよ。
開発と実装をしてるうちに、
後から従いてきた知識でしかねぇんだよ。
だから、「実際に やってみろ」って言ってんだよ。
で、開発の現場に戻ってくるぞ、って言ってんだよ。
おまいら自然言語処理をやってる奴は、これから
ケツ叩かれて全力疾走させられるぞ?って
警告してんだよ。
マジレスできねぇ奴は、この先相手にされねぇぞ?
846デフォルトの名無しさん
2018/09/11(火) 20:53:19.25ID:uQlqoJNZ847Maria
2018/09/11(火) 21:30:00.69ID:E7Dai500 >>846
まぁ、誰に言ってんのかわかんないけど、
システムも組めない(つーか、業務に堪えられる
コードも書けない)奴が「自然言語処理」とか
言ってる時点で「ちゃんちゃらおかしい」と
思うのよねー。
Java プログラムのコーディングで勝負したかったら、
プログラム技術板のそれなりのスレッド(「Java の宿題
ここで答えます」とかね)で、ガチで勝負して下さっても
結構ですのよ?
まぁ、誰に言ってんのかわかんないけど、
システムも組めない(つーか、業務に堪えられる
コードも書けない)奴が「自然言語処理」とか
言ってる時点で「ちゃんちゃらおかしい」と
思うのよねー。
Java プログラムのコーディングで勝負したかったら、
プログラム技術板のそれなりのスレッド(「Java の宿題
ここで答えます」とかね)で、ガチで勝負して下さっても
結構ですのよ?
848デフォルトの名無しさん
2018/09/11(火) 21:55:28.59ID:Pzm7b9dm 外野から失礼します。
共起についてどう思われますか?
無いと自然言語処理の応用ができない気がして質問してみました。
大雑把に、共起は自然言語処理にどう関わりそうか、それとも要らないか程度でも話題になればと思います。
共起についてどう思われますか?
無いと自然言語処理の応用ができない気がして質問してみました。
大雑把に、共起は自然言語処理にどう関わりそうか、それとも要らないか程度でも話題になればと思います。
849Maria
2018/09/11(火) 22:48:51.67ID:E7Dai500 >>848
「共起」という概念で括れるかどうかは分かりませんが、
日本語においては、「係り結び」というものが、古くから存在します。
「係る」「受ける」の対応において、範囲を示すという意味では、
括弧に相当する役割があり、構文解析においては
効率化に結びつくという点で、通信という意味では、
合理的なのではないでしょうか。
「こそ」が来たら「〜め」が来るのを待つとか、
「ぞ」が来たら「なむ」が来るのを待つとかいった、
制禦の上での合理性があると思います。
「共起」という概念で括れるかどうかは分かりませんが、
日本語においては、「係り結び」というものが、古くから存在します。
「係る」「受ける」の対応において、範囲を示すという意味では、
括弧に相当する役割があり、構文解析においては
効率化に結びつくという点で、通信という意味では、
合理的なのではないでしょうか。
「こそ」が来たら「〜め」が来るのを待つとか、
「ぞ」が来たら「なむ」が来るのを待つとかいった、
制禦の上での合理性があると思います。
850デフォルトの名無しさん
2018/09/12(水) 08:28:10.94ID:pUOFOCFc >>848
>共起は自然言語処理にどう関わりそうか
共起1(反対)縦と横、黒と白、光と闇
共起2(属性)青赤黄緑、1234、ABCD
共起3(時代)信長と安土城、零戦と原爆、キン肉マンとファミコン
共起4(公式)解と係数、質量と体積、サインとコサイン
他にどんな『共起関係』を思いつけるだろうか?
>共起は自然言語処理にどう関わりそうか
共起1(反対)縦と横、黒と白、光と闇
共起2(属性)青赤黄緑、1234、ABCD
共起3(時代)信長と安土城、零戦と原爆、キン肉マンとファミコン
共起4(公式)解と係数、質量と体積、サインとコサイン
他にどんな『共起関係』を思いつけるだろうか?
851デフォルトの名無しさん
2018/09/12(水) 08:44:46.22ID:pUOFOCFc >共起3(時代)信長と安土城、零戦と原爆、キン肉マンとファミコン
『時代』については曖昧なところもある(原爆投下された頃は零戦なんて時代遅れ)ので、
信号機のような『赤』(正)『青』(否)『黄色』(曖昧)を。
『時代』については曖昧なところもある(原爆投下された頃は零戦なんて時代遅れ)ので、
信号機のような『赤』(正)『青』(否)『黄色』(曖昧)を。
852デフォルトの名無しさん
2018/09/12(水) 09:06:15.80ID:pUOFOCFc >>504
>冒険者の広場では提案広場・あしあと伝言板にて言論規制がしかれている。
・思いつく予防策
1.利用しない、なにも書かない
予防策と言っていいのかわかりませんが、私は冒険者の広場は極力利用しないようにしています
自分にそのつもりがなくても、相手の解釈次第で悪意のある文章だと思われてしまうことがありうるからです。
【訂正後】提案広場、落ち着いて!広場BANに要注意!
http://pan1946.blog.jp/archives/2426203.html
>冒険者の広場では提案広場・あしあと伝言板にて言論規制がしかれている。
・思いつく予防策
1.利用しない、なにも書かない
予防策と言っていいのかわかりませんが、私は冒険者の広場は極力利用しないようにしています
自分にそのつもりがなくても、相手の解釈次第で悪意のある文章だと思われてしまうことがありうるからです。
【訂正後】提案広場、落ち着いて!広場BANに要注意!
http://pan1946.blog.jp/archives/2426203.html
853Maria
2018/09/12(水) 10:06:19.28ID:H3XsJJBV >>851
そういう意味での共起関係は、必ずしも一次元ではなく、
もうちょっと複雑な関係になっているようです。
赤・青・白・黒は、それ自体が形容詞の語幹になります
(「赤い」「青い」「白い」「黒い」)。
また、「赤(明るい)⇔黒(蒙(くら))」
「白(明白。はっきりした)⇔青(=淡い)」
「赤(熟した。本来の性質が表に現れている)
⇔青(未熟な。本来の性質が表に現れていない)」
のような例があります。
そういう意味での共起関係は、必ずしも一次元ではなく、
もうちょっと複雑な関係になっているようです。
赤・青・白・黒は、それ自体が形容詞の語幹になります
(「赤い」「青い」「白い」「黒い」)。
また、「赤(明るい)⇔黒(蒙(くら))」
「白(明白。はっきりした)⇔青(=淡い)」
「赤(熟した。本来の性質が表に現れている)
⇔青(未熟な。本来の性質が表に現れていない)」
のような例があります。
854Mb
2018/09/12(水) 10:11:39.83ID:H3XsJJBV >>852
「おまえ、アホちゃうか?」は笑って済ませられるけど、
「あなたは、ちえおくれではありませんか?」だと
血の雨が降りかねん (-_-!)
関西人に「アホ」はいいけど「バカ」は禁忌、みたいな
地方性もある。
そうなると、「あほらしい」はOKだが「馬鹿馬鹿しい」
だと「誰が馬鹿だ!」と喧嘩になりかねん。
「おまえ、アホちゃうか?」は笑って済ませられるけど、
「あなたは、ちえおくれではありませんか?」だと
血の雨が降りかねん (-_-!)
関西人に「アホ」はいいけど「バカ」は禁忌、みたいな
地方性もある。
そうなると、「あほらしい」はOKだが「馬鹿馬鹿しい」
だと「誰が馬鹿だ!」と喧嘩になりかねん。
855Maria
2018/09/12(水) 10:20:37.36ID:H3XsJJBV856Maria
2018/09/12(水) 10:25:13.94ID:H3XsJJBV ちょっと軌道修正しておくと、
・シソーラスを作る
・出現頻度の相関を求めておく
あたりが、自然言語処理における定跡、
くらいの話になると思う。
・シソーラスを作る
・出現頻度の相関を求めておく
あたりが、自然言語処理における定跡、
くらいの話になると思う。
857Mr.Moto
2018/09/12(水) 10:33:58.65ID:H3XsJJBV 共起5 (ライバル)ソッピース・キャメルとフォッカー三葉、
スピットファイアとメッサーシュミット、砂漠の狐とラットパトロール、
ロンメルとパットン、竜と虎
スピットファイアとメッサーシュミット、砂漠の狐とラットパトロール、
ロンメルとパットン、竜と虎
858Maria
2018/09/12(水) 12:36:34.33ID:H3XsJJBV859Maria
2018/09/12(水) 21:24:29.80ID:H3XsJJBV そういえば、悪口というのは辞書に載りにくく、
しかもなかなか廃れない、という問題があります。
辞書作成担当者は、そのあたりにご注意を。
「昼行燈」(役に立ってない)
「天保銭」(ちょっと足りない)
「瞬間湯沸かし機」(すぐ熱くなる)
「蛍光灯」(応答が遅い)
なとが例になります。
英語圏では、
“Mr.Moto”(小賢しい日本人)
というのがあります。
しかもなかなか廃れない、という問題があります。
辞書作成担当者は、そのあたりにご注意を。
「昼行燈」(役に立ってない)
「天保銭」(ちょっと足りない)
「瞬間湯沸かし機」(すぐ熱くなる)
「蛍光灯」(応答が遅い)
なとが例になります。
英語圏では、
“Mr.Moto”(小賢しい日本人)
というのがあります。
860デフォルトの名無しさん
2018/09/13(木) 01:00:18.18ID:LigmLEis >>31
>数学モデルとシミュレーションにより、実践と理論の結合が図れるのです。
龍が如く極のマップ。東京・神室町の飲食店、販売店、プレイスポット、要所の場所や地名を地図にまとめてます。
https://dswiipspwikips3.jp/yakuza-kiwami/cheats-data/map-kamurochou.html
近くのコンビニでおにぎりを買った(コンビニの中に居る)
近くのコンビニでタクシーに乗った(コンビニの外に居る)
シミュレーターを動かしてみれば一目瞭然だ。
>数学モデルとシミュレーションにより、実践と理論の結合が図れるのです。
龍が如く極のマップ。東京・神室町の飲食店、販売店、プレイスポット、要所の場所や地名を地図にまとめてます。
https://dswiipspwikips3.jp/yakuza-kiwami/cheats-data/map-kamurochou.html
近くのコンビニでおにぎりを買った(コンビニの中に居る)
近くのコンビニでタクシーに乗った(コンビニの外に居る)
シミュレーターを動かしてみれば一目瞭然だ。
861デフォルトの名無しさん
2018/09/13(木) 01:14:54.52ID:LigmLEis 一次元(数直線)
二次元(平面座標)
三次元(空間座標)
四次元(ドラえもん)
『0』『1 』『2 』『3』は別扱いにしたいところ。指数関数や対数関数や確率統計などもそう。
二次元(平面座標)
三次元(空間座標)
四次元(ドラえもん)
『0』『1 』『2 』『3』は別扱いにしたいところ。指数関数や対数関数や確率統計などもそう。
862デフォルトの名無しさん
2018/09/13(木) 01:25:22.72ID:LigmLEis863デフォルトの名無しさん
2018/09/13(木) 03:09:57.93ID:x/k+qk9X >>862
>ジグソーパズルのように、断片的にでもとりあえずわかるところから解読していく
(4)全体の構成と設計
四番目のステップは「全体の構成と設計」です。
犯罪捜査でいえば犯行動機と犯行プロセスの全貌を推理して答を見出すことです。
歴史捜査では「真実の復元」と名付けましたが、ジグソーパズルでいえば、いくつかのピースの組み合わ
された塊を全体枠の適切な位置に順次はめ込んでいき、全体図を完成させる作業です。
http://www.issj.net/mm/mm0508/mm0508-5-ln.html
>ジグソーパズルのように、断片的にでもとりあえずわかるところから解読していく
(4)全体の構成と設計
四番目のステップは「全体の構成と設計」です。
犯罪捜査でいえば犯行動機と犯行プロセスの全貌を推理して答を見出すことです。
歴史捜査では「真実の復元」と名付けましたが、ジグソーパズルでいえば、いくつかのピースの組み合わ
された塊を全体枠の適切な位置に順次はめ込んでいき、全体図を完成させる作業です。
http://www.issj.net/mm/mm0508/mm0508-5-ln.html
864デフォルトの名無しさん
2018/09/13(木) 03:21:14.97ID:x/k+qk9X >>456
>各操作で、(「記号○と×のいずれかを」「表示させる操作」を「k回繰り返す」。)
この問題文の意味する『操作』とは、具体的に何をどうすることなのかを考察する人工知能が必要。
初見で理解できなくても、後の文からいろいろ類推しかつ検証していくこと。
>各操作で、(「記号○と×のいずれかを」「表示させる操作」を「k回繰り返す」。)
この問題文の意味する『操作』とは、具体的に何をどうすることなのかを考察する人工知能が必要。
初見で理解できなくても、後の文からいろいろ類推しかつ検証していくこと。
865787
2018/09/13(木) 04:41:44.40ID:8GqTf0bs >>790-793
>超えなきゃいけない壁があって前に進めない
でもIBMのワトソンなんかは一枚壁を越えたと思う
もちろん自然言語理解にはまだ何枚も壁があるけど
>「省略」と「理解」は不可分なので、扱いが難しい
>「制禦」「意図」という視点がある
従来の研究の枠組ではたしかに難しいんだけど
ただ細かい文法をつつき回すだけじゃなくて
ワトソンなんかはある程度の質問文の
意味や意図の理解をしているように思える
そして意味や文脈を理解しないと
ワトソンのような対話システムの実現は難しい
>超えなきゃいけない壁があって前に進めない
でもIBMのワトソンなんかは一枚壁を越えたと思う
もちろん自然言語理解にはまだ何枚も壁があるけど
>「省略」と「理解」は不可分なので、扱いが難しい
>「制禦」「意図」という視点がある
従来の研究の枠組ではたしかに難しいんだけど
ただ細かい文法をつつき回すだけじゃなくて
ワトソンなんかはある程度の質問文の
意味や意図の理解をしているように思える
そして意味や文脈を理解しないと
ワトソンのような対話システムの実現は難しい
866787
2018/09/13(木) 04:54:02.32ID:8GqTf0bs >>795
>これくらいのシステムであれば、
>現在の技術で充分に可能だと思うんだが
どうかなあ……?
もちろんその例文だけなら可能だし
辞書的な知識だけで上手く行きそうな雰囲気を醸し出してるけど
「ゾウは鼻が長いのに、キリンは首が長いのはなぜか?」
という問いに答えるには進化論について
かなり理解していないと的外れな回答をすることになる
データベースにある範囲だけで回答するなら可能だけど
対話システムは人工無能的なボロが出やすいから
もっと意味理解を進めないと現在の段階ではそれすら難しいと思う
文法をつつき回すだけではダメで
文法に回収できない意味や意図を理解することが
試されているのが今の自然言語処理のステージなんだと思う
>これくらいのシステムであれば、
>現在の技術で充分に可能だと思うんだが
どうかなあ……?
もちろんその例文だけなら可能だし
辞書的な知識だけで上手く行きそうな雰囲気を醸し出してるけど
「ゾウは鼻が長いのに、キリンは首が長いのはなぜか?」
という問いに答えるには進化論について
かなり理解していないと的外れな回答をすることになる
データベースにある範囲だけで回答するなら可能だけど
対話システムは人工無能的なボロが出やすいから
もっと意味理解を進めないと現在の段階ではそれすら難しいと思う
文法をつつき回すだけではダメで
文法に回収できない意味や意図を理解することが
試されているのが今の自然言語処理のステージなんだと思う
■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 習政権、高市首相への態度硬化 台湾有事発言で連日非難 中国 ★11 [ぐれ★]
- 国内ホテル、既にキャンセルも 訪日客関連業界、事態見守る ★3 [蚤の市★]
- 日本損失1.7兆円に修正 中国渡航自粛の影響試算 [蚤の市★]
- 橋下徹氏 外務省幹部の訪中受け「口だけ番長」へ痛烈指摘 「喧嘩は日本の完敗…なんとかっこ悪い日本か」 [冬月記者★]
- 【外国人問題】小野田紀美担当相「不法就労や不法滞在は許さない」 [シャチ★]
- 【野球】井端監督 大谷翔平、山本由伸らのWBCへの参加 「1日も早く返事ほしい」「待っててといっても、国内組が遅くなってしまう」★3 [冬月記者★]
- 千晴おはよう
- 【実況】博衣こよりのえちえち朝こよ🧪
- 中国「高市が頭を下げて謝罪しない限り、絶対に許さない」 [329329848]
- 🏡
- 「これが完成された醜い姿である>>1」←これなに?
- 安倍晋三の遺産、日銀ETF売却終了予定は2138年 [115996789]
