自然言語処理スレッド その4

■ このスレッドは過去ログ倉庫に格納されています
1デフォルトの名無しさん
垢版 |
2014/06/03(火) 05:40:00.54ID:yefNLumx
前前スレ 自然言語処理スレッド その2
http://mimizun.com/log/2ch/tech/1173105287/
前スレ 自然言語処理スレッド その3
http://mimizun.com/log/2ch/tech/1235129481/

このスレッドでは、日本語の構文解析、談話理解、情報検索、
文章生成などの技術に関する理論と(おもに)実装を扱います。
あくまでアプリケーションプログラミングの技術的な面に重点をおきたいので、
学術的な話はアリですが、いわゆる人工無能や哲学的AI話、
言語学の話題などは他のスレッドでお願いします。
2014/06/04(水) 00:23:39.07ID:qVJRsv3N
1乙
3片山博文MZ悪魔崇拝 ◆T6xkBnTXz7B0
垢版 |
2014/06/06(金) 16:12:41.21ID:dyn5MnFB
人工言語の構文解析ではたいていの場合、文法は固定されてるよね。
動的に解析する文法を変えたいときは、実行時にパーサジェネレータや
コンパイラを使わないといけないのか?
4デフォルトの名無しさん
垢版 |
2014/06/09(月) 11:47:07.19ID:PtiKDSQ8
研究職でもなければどうせ使い道ないのに
どいつもこいつもword2vec試しやがる
唯一金になりそうなのはparagraph vectorぐらいだな
5デフォルトの名無しさん
垢版 |
2014/06/09(月) 15:08:04.19ID:HHhmYyTe
ユージーン君はどんな技術つかってるの?
6デフォルトの名無しさん
垢版 |
2014/06/09(月) 15:33:05.97ID:PtiKDSQ8
仕事で使ってるのはbag-of-wordsかn-gramだよ
word2vec試しただけの糞記事書いてるカスは消えろ
7デフォルトの名無しさん
垢版 |
2014/06/09(月) 17:49:36.60ID:HHhmYyTe
人工知能の13歳の少年、チューリングテストに“合格”

英レディング大学は6月8日(現地時間)、アラン・チューリング博士没後60周年に当たる7日に同校が
英王立学会で開催した「Turing Test 2014」において、チューリングテストの初の合格者が出たと発表した。

合格したのはウクライナ在住の13歳の少年、ユージーン・グーツマンくんという設定のプログラム。
ユージーンくんは2001年にロシア人のウラジミール・ヴェセロフ氏(米国在住)、ウクライナ人の
ユージーン・デムチェンコ氏(ロシア在住)らが構築した。これまでも多数のチューリングテストイベントに
参加して改良を重ねられてきた。

チューリングテストは、「コンピュータの父」と呼ばれる20世紀の英数学者、アラン・チューリング博士が提案した、
人工知能を知的と呼べるかどうかを判断するためのテスト。人間が人工知能と対話して、
相手が人工知能か人間か判断できなければ、その人工知能は思考しているといえるというもの。
チューリング博士は、5分間のテストで人間の審判の30%をだませれば、人工知能は思考しているといえるとした
(Wikipediaより)。

今回のテストで、審査員の33%(審査員の人数は不明)がユージーンくんを人間だと判断した。

http://image.itmedia.co.jp/news/articles/1406/09/yu_turing.jpg
http://www.itmedia.co.jp/news/articles/1406/09/news049.html
8デフォルトの名無しさん
垢版 |
2014/06/13(金) 22:56:37.05ID:qhg9plHy
馬鹿
9デフォルトの名無しさん
垢版 |
2014/06/14(土) 00:57:41.13ID:O/sWuNjK
お前がなw
10デフォルトの名無しさん
垢版 |
2014/06/14(土) 09:49:46.90ID:C3RmOQgD
1. 言語の背景にある知識は書ききれないぐらい深い
つまりなにか抽象化した意味を記号化した瞬間に背景の実世界から離れてしまい,
人間がするような言語理解は記号化では不可能なように見受けられる.
2. 名詞や動詞の意味は組み合わせで理解されている
いわゆる「名詞の構造」や「動詞の構造」と独立して綺麗に書けない.
3. 自然言語処理システムは分野・タスク依存の情報が必要
クイズを解くならクイズの知識が必要.言語学だけの中立的知識だけではシステムはできない.
4. 汎用的な言語理解システムは難しいように見える
上記 3. と同様で分野依存の知識をいれて初めて使えるようになるので汎用は難しい.
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/E6-2.pdf

代数学や幾何学などは、最も抽象的な集合のもとに理論を積み上げ、さらに、集合の元同士
の関係が複雑になることから、記述する手段として、文字や記号が頻繁に用いられる。もちろ
んその内容は抽象的であり、意味を理解するには、何かしらの具体例に置き換える必要がある。
ところがこのように抽象化が進んだ内容を、具体的にイメージし、その意味を理解することが
できない、あるいは、そもそも記号で書かれている一語一語の意味がまず読み取れない学生が
非常に多く、このことが大学の数学をわからなくする一つの重大な要因となっているのである。

http://satsuki.ex.osaka-kyoiku.ac.jp/~j129307/miyazaki2.pdf

Project Euler に公開されている問題は数百問であり, 以上によって得られる関数と仕様書の対も
同程度の量にしかならない. このため, 解いた問題に対してその問題の解法に含まれる部分問題を考え,
部分問題を解くコードも同様に作成するように指示した. 例えば「1000 未満の自然数で,
3 の倍数となるものの和を求める」という問題があった場合, 「1000 未満の自然数の集合を求める」
「ある自然数 x が3 の倍数であるかどうか調べる」「与えられた自然数の集合x に含まれる要素の総和を求める」
などが部分問題として考えられる.
http://www.phontron.com/paper/oda14nl05.pdf
11デフォルトの名無しさん
垢版 |
2014/06/14(土) 10:04:31.11ID:C3RmOQgD
人物の行動を簡単なパラメータで表現する場合,頭部の位置・姿勢に着目することは,
人物の位置や注視先を推定することを考慮すれば合理的といえる.本研究では,予め人物
頭部のサンプル画像を用意しておくことで,モデルベースの位置・姿勢推定を行い,ほぼ
実用的な精度で人物の移動経路を追跡することが可能であることを示した.
そして,その移動軌跡において一定の傾向を維持する区間に分割し,それぞれの区間
ごとに人物の姿勢や周辺の物体との相対的な位置関係などの意味素性を数値的に評価し,
合成することで,自然言語の事象概念との対応付けを行うという基本的な考え方を提案した.
これは従来のテンプレートによる自然言語生成と比較して,より拡張性の高い柔軟な手法であるといえる.
http://www.las.osakafu-u.ac.jp/~ark/publication/kojima-thesis.pdf

これまでの考察で明らかとなった「認める」の別義は、以下の通りである。
・別義1:<ある範囲に注意を払うことにより><対象を><捉え>
<(あらかじめ持っている)対象に関する知識と同定する>
・別義2:<外部の状況(他者の意見・指摘なども含む)を><妥当なものとして><受け入れる>
・別義3:<他者の能力や(能力の反映である)作品を><価値のあるものとして><受け入れる>
・別義4:<他者の未実現の行為を><妥当なものとして><受け入れる>
http://www.lang.nagoya-u.ac.jp/nichigen/issue/pdf/5/5-09.pdf

例えば、「引っ越す」という動詞の語彙概念構造は、次のように規定される。
「X が Y に引っ越す」→ <X オブジェクトが自分の住所アトリビュートの値を Y に変更する>
上記の規定により、「X が引っ越す」という場合、「X オブジェクトは可変の住所アトリビュートを持
たねばならない」ことが導かれる。これにより、組織も可変の住所アトリビュートを有するので、
組織も引っ越し可能であることが導かれる。これは、従来の意味論における意味役割の概念よりも
精密に述語(動詞等)と項(名詞等)の間の意味関係を規定できることを示している。
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/B1-1.pdf
12デフォルトの名無しさん
垢版 |
2014/06/14(土) 12:47:56.94ID:2GCCkitO
サンプルコードあくしろよ
13片山博文MZ悪魔崇拝 ◆T6xkBnTXz7B0
垢版 |
2014/06/14(土) 13:18:14.77ID:TMbzloys
「ひらがな電卓」Windows用フリーソフト。

ひらがなで無量大数までの四則演算、分数計算、小数計算、ルート、
三角関数、余り、パーセント計算ができます!!!
http://katahiromz.web.fc2.com/calc-h/
14デフォルトの名無しさん
垢版 |
2014/06/14(土) 14:59:25.78ID:C3RmOQgD
例えば、こんな問題はいかがでしょうか。
ちなみにこれは昨日、ラジオで聞いた問題です。
「300円もって買い物に行きました。そして、100円のお菓子と
40円のお菓子と60円のお菓子を買いました。
おつりはいくらでしょう?」
という問題です。

これを聞いて100円と答える時、その思考は以下のようなものではないでしょうか。
300ー(100+40+60)=100

間違っていませんね。
買ったお菓子の合計は200円なので、300?200は100としているわけです。

これを、図を使って場面をイメージしてみるのです。

このようにお金が図として描ければ見えてきませんか。

そうなんです。
これはいわゆるクイズなので、実は・・・「おつりなし」が答えなんです。
300円持っていって、200円のお菓子を買ったところで、
200円を出すわけですから、おつりはありませんよね。

ずるい!という声が聞こえそうですが、
でも、これを「いや、おつりはないでしょ!?」と答えられるかどうかって
文章問題がイメージできているかという大切なところであると思うのです。
問題文を与えられて、見た数字だけで演算決定をしてしまうから間違えるのです。

http://mhidetoshi.exblog.jp/22011978
2014/06/14(土) 15:34:15.93ID:h7hlzhCn
レジに一回だけ通したとは書いていないので、60円のお菓子の時に40円、
40円のお菓子の時に60円、都合100円のおつりを受け取ると言う解釈もあり得るね。

普通、子供にお使いに行かせるなら余裕を持ってお金を預けて
戻ってきたときに残額をおつりとして受け取る。なので、おつりが100円と言う答えもあり得る。
16デフォルトの名無しさん
垢版 |
2014/06/14(土) 16:09:45.04ID:C3RmOQgD
割り算というのは、実生活では特殊な演算だと思う。

今年入学した402人の小学1年生を10組に分けるとどうなるか。

402人を、できるかぎり等しい人数になるよう分けるなら、40人の組が8組、41人の組が2組。
(402÷10=40余り2、40人ずつ分けた後で、残りの2人を分ける)

でも他の場合を考えると(例えば「少なくとも十人以上」とか)、数え上げは難しいものとなろう。
17デフォルトの名無しさん
垢版 |
2014/06/14(土) 16:20:00.41ID:C3RmOQgD
>>15
>レジに一回だけ通したとは書いていないので、60円のお菓子の時に40円、
>40円のお菓子の時に60円、都合100円のおつりを受け取ると言う解釈もあり得るね。

それでも、(10円玉が30個で合計)300円もって買い物に行きました、だとおつりは0になる。
それから政府が新たに「300円玉」を発行したともなれば、話は別となろう。
2014/06/15(日) 13:44:13.39ID:0Xbi4t4E
word2vecで使われてるhierarchical softmaxって
教師信号をハフマン符号にしただけ?
2014/06/15(日) 14:36:22.47ID:0Xbi4t4E
そんな単純じゃなかったわ
https://gist.github.com/kokukuma/85bebedb0635485e4f5b
20デフォルトの名無しさん
垢版 |
2014/06/15(日) 18:21:24.22ID:r1yj7QX5
http://www.phontron.com/paper/oda14nl05.pdf

x1がx2で割り切れなくなるまでx1をx2で割り→x1がx2で割り切れなくなるまで(繰り返して)x1をx2で割り

(繰り返して)があれば、容易に「while文」に翻訳できる。

文脈から自動的に省略語を補って、翻訳しやすい形に自動変形するアルゴリズムも必要。
21デフォルトの名無しさん
垢版 |
2014/06/16(月) 10:59:25.96ID:4kD5cm9H
せいぜい機械的にできる処理って形態素解析くらいまでだろうな。形態素解析ならスパース表現でできそうだ。
めくらでも会話できるけど、音以外の五感がないわけではないし
22デフォルトの名無しさん
垢版 |
2014/06/16(月) 11:07:05.33ID:4kD5cm9H
形態素解析ができてから、回りの状況と自然言語の関係を照らしあわせて単語ごとに構文を学習する。
回りの状況はテキストだけじゃ表現が難しい
2014/06/16(月) 11:56:09.75ID:xNeMvzgG
割り算・分数は、「平均」または「単位あたり」と理解されるべき概念と思う。「平均点」は数の総和を人数で割って得られた数。
「速度」は物体や波が単位時間あたりに動いた距離。
2014/06/16(月) 11:57:19.39ID:xNeMvzgG
900 :デフォルトの名無しさん:2009/02/20(金) 20:46:21.00
「類似文検索システム」としては、名詞+助詞「の」+名詞+、のように文構造のパターンを網羅しておき、
目新しい文章が出た時に文構造パターン認知できるようにしておくとか。
例えば「身長の高い男が私の横を通り過ぎた」「髪の長い女が彼の手を握った」はいずれも、
名詞+助詞「の」+形容詞+名詞+助詞「が」+名詞+助詞「の」+名詞+助詞「を」+動詞。
25デフォルトの名無しさん
垢版 |
2014/06/16(月) 13:00:19.74ID:xNeMvzgG
(1) ◆新銀行4,1 の中身
(e4,2:ガ)13 (e4,3:ガ)14 十七日に大蔵省の銀行免許を取得、14 (e4,4:ガ)15 二月上旬までに 増資して15 (e4,5:
ガ)16 資本金を 四百億円とし、16 三月二十日をめどに、開業する。13
この点を考慮するために,参照表現の出現位置を人手で修正し,その結果に対して人手で参照表現を選択する.
ただし,任意の表現を許してしまうと問題が発散するため,今回の評価では「参照表現を省略する」「参照表現を主題化し
て明示的に記述する(つまり,助詞 “は” もしくは “には”をともなって表現する)」「主題化せずに明示的に記述する
(つまり,助詞 “が/を/に” をともなって表現する)」の 3 種類から選択してもらい,人手生成の傾向を分析する.

http://www.cl.cs.titech.ac.jp/~ryu-i/papers/NL206-15.pdf

(58) a. 学生が3人この鍵でドアを開けた
b. ?? 学生がこの鍵で3人ドアを開けた
(58a-b) は、遊離数量詞が、隣接する名詞句を修飾することを示す。12
(58b) では、「3人」と
「学生」が隣接していないため、意図された修飾関係が成立しない。この観察をふまえて、
Miyagawa (1989) は、(59) の文法性が非対格仮説の証拠となることを指摘する。
(59) ドアがこの鍵で3つ開いた
非対格仮説によれば、(59) の「開く」が非対格動詞であることから、「ドア」は、(60) に示
すように、目的語の位置で主題の役割を得た後に、主語の位置に移動する。

http://www.ic.nanzan-u.ac.jp/LINGUISTICS/staff/saito_mamoru/pdf/saito.2013.pdf

日本語の省略がわかる本 誰が?誰に?何を?
成山 重子 著 / 明治書院(810.7ナ)
日本語の特徴である省略を文化と文法から捉えた本。語らいの制約から省略
の順序の制約まで体系的に解説。文法が苦手な人や中級者以下の学習者のため
に「省略のインスタント文法」も収録。
https://www.ishikari-lib-unet.ocn.ne.jp/html/%E3%81%82%E3%81%8B%E3%81%9F%E3%81%BE72.pdf
26デフォルトの名無しさん
垢版 |
2014/06/17(火) 11:34:59.62ID:sceXYbna
(5)「意味されるもの」と「意味するもの」を分離することにより、この二つのそれぞれに適した表
現形式を独自に発展させることができる。「意味されるもの」の表現方法は、談話分析や語用論の研究成
果を取り入れることによってさらに発展させることが可能である。また、「意味するもの」の表現形式としては、
制限自然言語と RDF/OWL 以外にも様々なものを使用することができ、「意味されるもの」の内容に応じて最も
適した表現形式を選択することができる。様々な形式の情報を一体的に扱うシステムの開発も可能であろう。
http://sigswo.org/papers/SIG-SWO-A1303/SIG-SWO-A1303-04.pdf

h4i 前文脈の事態が後文脈の事態の前提となる : 「〜れば」のような条件節は前文脈の事態が後文脈の事態が成
立するための前提条件となる.この際,パタン中の名詞句が「こと」のような明確な事態を導入する表現の場合
であっても,「可能性」などの前文脈の事態にモダリティの情報を付与する表現であっても,同様に前提となる関
係を表すことになる.例えば,例 (9) では,「これ(=途上国向けの環境分野の援助)を引き上げる」ことが「事
態が改善する」ことの必要条件となっている.
(9) これを向こう5年間、30%台後半、5000億円程度に 引き上げることをすれば、事態は大きく 改善される。


http://www.cl.cs.titech.ac.jp/~ryu-i/papers/nlp2014_ryu-i_discrel.pdf

実際のところ"this"や"is"だけでもその意味は多数あり、文章が長くなるほど意味の組み合わせは多くなり、
「組み合わせの爆発」という現象が起きコンピュータは止まってしまう。さらに、40 代のドリフ世代にとって
"This is a pen."はまた別の意味がある。
http://ed-www.ed.okayama-u.ac.jp/~shinri/terasawa/files%5Cthinking_new_theory_of_thinkingV5.pdf
27デフォルトの名無しさん
垢版 |
2014/06/19(木) 03:03:30.38ID:xTtna/5L
「まわるまわるよ、時代は回る」
「 地球は回る、君を乗せて 」

上の二つの「回る」は、同じ意味ですか?
28デフォルトの名無しさん
垢版 |
2014/06/19(木) 07:49:02.24ID:66eAVPNK
>>27
>まわるまわるよ、時代は回る

「明治時代は栄光だったが、昭和時代は暗黒だった」(司馬遼太郎)というふうに、時代は回るという意味。

>地球は回る、君を乗せて

「地軸」を中心にして回転している、という意味。
■ このスレッドは過去ログ倉庫に格納されています