X



自然言語処理スレッド その4
■ このスレッドは過去ログ倉庫に格納されています
0001デフォルトの名無しさん垢版2014/06/03(火) 05:40:00.54ID:yefNLumx
前前スレ 自然言語処理スレッド その2
http://mimizun.com/log/2ch/tech/1173105287/
前スレ 自然言語処理スレッド その3
http://mimizun.com/log/2ch/tech/1235129481/

このスレッドでは、日本語の構文解析、談話理解、情報検索、
文章生成などの技術に関する理論と(おもに)実装を扱います。
あくまでアプリケーションプログラミングの技術的な面に重点をおきたいので、
学術的な話はアリですが、いわゆる人工無能や哲学的AI話、
言語学の話題などは他のスレッドでお願いします。
0003片山博文MZ悪魔崇拝 ◆T6xkBnTXz7B0 垢版2014/06/06(金) 16:12:41.21ID:dyn5MnFB
人工言語の構文解析ではたいていの場合、文法は固定されてるよね。
動的に解析する文法を変えたいときは、実行時にパーサジェネレータや
コンパイラを使わないといけないのか?
0004デフォルトの名無しさん垢版2014/06/09(月) 11:47:07.19ID:PtiKDSQ8
研究職でもなければどうせ使い道ないのに
どいつもこいつもword2vec試しやがる
唯一金になりそうなのはparagraph vectorぐらいだな
0005デフォルトの名無しさん垢版2014/06/09(月) 15:08:04.19ID:HHhmYyTe
ユージーン君はどんな技術つかってるの?
0006デフォルトの名無しさん垢版2014/06/09(月) 15:33:05.97ID:PtiKDSQ8
仕事で使ってるのはbag-of-wordsかn-gramだよ
word2vec試しただけの糞記事書いてるカスは消えろ
0007デフォルトの名無しさん垢版2014/06/09(月) 17:49:36.60ID:HHhmYyTe
人工知能の13歳の少年、チューリングテストに“合格”

英レディング大学は6月8日(現地時間)、アラン・チューリング博士没後60周年に当たる7日に同校が
英王立学会で開催した「Turing Test 2014」において、チューリングテストの初の合格者が出たと発表した。

合格したのはウクライナ在住の13歳の少年、ユージーン・グーツマンくんという設定のプログラム。
ユージーンくんは2001年にロシア人のウラジミール・ヴェセロフ氏(米国在住)、ウクライナ人の
ユージーン・デムチェンコ氏(ロシア在住)らが構築した。これまでも多数のチューリングテストイベントに
参加して改良を重ねられてきた。

チューリングテストは、「コンピュータの父」と呼ばれる20世紀の英数学者、アラン・チューリング博士が提案した、
人工知能を知的と呼べるかどうかを判断するためのテスト。人間が人工知能と対話して、
相手が人工知能か人間か判断できなければ、その人工知能は思考しているといえるというもの。
チューリング博士は、5分間のテストで人間の審判の30%をだませれば、人工知能は思考しているといえるとした
(Wikipediaより)。

今回のテストで、審査員の33%(審査員の人数は不明)がユージーンくんを人間だと判断した。

http://image.itmedia.co.jp/news/articles/1406/09/yu_turing.jpg
http://www.itmedia.co.jp/news/articles/1406/09/news049.html
0008デフォルトの名無しさん垢版2014/06/13(金) 22:56:37.05ID:qhg9plHy
馬鹿
0009デフォルトの名無しさん垢版2014/06/14(土) 00:57:41.13ID:O/sWuNjK
お前がなw
0010デフォルトの名無しさん垢版2014/06/14(土) 09:49:46.90ID:C3RmOQgD
1. 言語の背景にある知識は書ききれないぐらい深い
つまりなにか抽象化した意味を記号化した瞬間に背景の実世界から離れてしまい,
人間がするような言語理解は記号化では不可能なように見受けられる.
2. 名詞や動詞の意味は組み合わせで理解されている
いわゆる「名詞の構造」や「動詞の構造」と独立して綺麗に書けない.
3. 自然言語処理システムは分野・タスク依存の情報が必要
クイズを解くならクイズの知識が必要.言語学だけの中立的知識だけではシステムはできない.
4. 汎用的な言語理解システムは難しいように見える
上記 3. と同様で分野依存の知識をいれて初めて使えるようになるので汎用は難しい.
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/E6-2.pdf

代数学や幾何学などは、最も抽象的な集合のもとに理論を積み上げ、さらに、集合の元同士
の関係が複雑になることから、記述する手段として、文字や記号が頻繁に用いられる。もちろ
んその内容は抽象的であり、意味を理解するには、何かしらの具体例に置き換える必要がある。
ところがこのように抽象化が進んだ内容を、具体的にイメージし、その意味を理解することが
できない、あるいは、そもそも記号で書かれている一語一語の意味がまず読み取れない学生が
非常に多く、このことが大学の数学をわからなくする一つの重大な要因となっているのである。

http://satsuki.ex.osaka-kyoiku.ac.jp/~j129307/miyazaki2.pdf

Project Euler に公開されている問題は数百問であり, 以上によって得られる関数と仕様書の対も
同程度の量にしかならない. このため, 解いた問題に対してその問題の解法に含まれる部分問題を考え,
部分問題を解くコードも同様に作成するように指示した. 例えば「1000 未満の自然数で,
3 の倍数となるものの和を求める」という問題があった場合, 「1000 未満の自然数の集合を求める」
「ある自然数 x が3 の倍数であるかどうか調べる」「与えられた自然数の集合x に含まれる要素の総和を求める」
などが部分問題として考えられる.
http://www.phontron.com/paper/oda14nl05.pdf
0011デフォルトの名無しさん垢版2014/06/14(土) 10:04:31.11ID:C3RmOQgD
人物の行動を簡単なパラメータで表現する場合,頭部の位置・姿勢に着目することは,
人物の位置や注視先を推定することを考慮すれば合理的といえる.本研究では,予め人物
頭部のサンプル画像を用意しておくことで,モデルベースの位置・姿勢推定を行い,ほぼ
実用的な精度で人物の移動経路を追跡することが可能であることを示した.
そして,その移動軌跡において一定の傾向を維持する区間に分割し,それぞれの区間
ごとに人物の姿勢や周辺の物体との相対的な位置関係などの意味素性を数値的に評価し,
合成することで,自然言語の事象概念との対応付けを行うという基本的な考え方を提案した.
これは従来のテンプレートによる自然言語生成と比較して,より拡張性の高い柔軟な手法であるといえる.
http://www.las.osakafu-u.ac.jp/~ark/publication/kojima-thesis.pdf

これまでの考察で明らかとなった「認める」の別義は、以下の通りである。
・別義1:<ある範囲に注意を払うことにより><対象を><捉え>
<(あらかじめ持っている)対象に関する知識と同定する>
・別義2:<外部の状況(他者の意見・指摘なども含む)を><妥当なものとして><受け入れる>
・別義3:<他者の能力や(能力の反映である)作品を><価値のあるものとして><受け入れる>
・別義4:<他者の未実現の行為を><妥当なものとして><受け入れる>
http://www.lang.nagoya-u.ac.jp/nichigen/issue/pdf/5/5-09.pdf

例えば、「引っ越す」という動詞の語彙概念構造は、次のように規定される。
「X が Y に引っ越す」→ <X オブジェクトが自分の住所アトリビュートの値を Y に変更する>
上記の規定により、「X が引っ越す」という場合、「X オブジェクトは可変の住所アトリビュートを持
たねばならない」ことが導かれる。これにより、組織も可変の住所アトリビュートを有するので、
組織も引っ越し可能であることが導かれる。これは、従来の意味論における意味役割の概念よりも
精密に述語(動詞等)と項(名詞等)の間の意味関係を規定できることを示している。
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/B1-1.pdf
0012デフォルトの名無しさん垢版2014/06/14(土) 12:47:56.94ID:2GCCkitO
サンプルコードあくしろよ
0013片山博文MZ悪魔崇拝 ◆T6xkBnTXz7B0 垢版2014/06/14(土) 13:18:14.77ID:TMbzloys
「ひらがな電卓」Windows用フリーソフト。

ひらがなで無量大数までの四則演算、分数計算、小数計算、ルート、
三角関数、余り、パーセント計算ができます!!!
http://katahiromz.web.fc2.com/calc-h/
0014デフォルトの名無しさん垢版2014/06/14(土) 14:59:25.78ID:C3RmOQgD
例えば、こんな問題はいかがでしょうか。
ちなみにこれは昨日、ラジオで聞いた問題です。
「300円もって買い物に行きました。そして、100円のお菓子と
40円のお菓子と60円のお菓子を買いました。
おつりはいくらでしょう?」
という問題です。

これを聞いて100円と答える時、その思考は以下のようなものではないでしょうか。
300ー(100+40+60)=100

間違っていませんね。
買ったお菓子の合計は200円なので、300?200は100としているわけです。

これを、図を使って場面をイメージしてみるのです。

このようにお金が図として描ければ見えてきませんか。

そうなんです。
これはいわゆるクイズなので、実は・・・「おつりなし」が答えなんです。
300円持っていって、200円のお菓子を買ったところで、
200円を出すわけですから、おつりはありませんよね。

ずるい!という声が聞こえそうですが、
でも、これを「いや、おつりはないでしょ!?」と答えられるかどうかって
文章問題がイメージできているかという大切なところであると思うのです。
問題文を与えられて、見た数字だけで演算決定をしてしまうから間違えるのです。

http://mhidetoshi.exblog.jp/22011978
0015デフォルトの名無しさん垢版2014/06/14(土) 15:34:15.93ID:h7hlzhCn
レジに一回だけ通したとは書いていないので、60円のお菓子の時に40円、
40円のお菓子の時に60円、都合100円のおつりを受け取ると言う解釈もあり得るね。

普通、子供にお使いに行かせるなら余裕を持ってお金を預けて
戻ってきたときに残額をおつりとして受け取る。なので、おつりが100円と言う答えもあり得る。
0016デフォルトの名無しさん垢版2014/06/14(土) 16:09:45.04ID:C3RmOQgD
割り算というのは、実生活では特殊な演算だと思う。

今年入学した402人の小学1年生を10組に分けるとどうなるか。

402人を、できるかぎり等しい人数になるよう分けるなら、40人の組が8組、41人の組が2組。
(402÷10=40余り2、40人ずつ分けた後で、残りの2人を分ける)

でも他の場合を考えると(例えば「少なくとも十人以上」とか)、数え上げは難しいものとなろう。
0017デフォルトの名無しさん垢版2014/06/14(土) 16:20:00.41ID:C3RmOQgD
>>15
>レジに一回だけ通したとは書いていないので、60円のお菓子の時に40円、
>40円のお菓子の時に60円、都合100円のおつりを受け取ると言う解釈もあり得るね。

それでも、(10円玉が30個で合計)300円もって買い物に行きました、だとおつりは0になる。
それから政府が新たに「300円玉」を発行したともなれば、話は別となろう。
0020デフォルトの名無しさん垢版2014/06/15(日) 18:21:24.22ID:r1yj7QX5
http://www.phontron.com/paper/oda14nl05.pdf

x1がx2で割り切れなくなるまでx1をx2で割り→x1がx2で割り切れなくなるまで(繰り返して)x1をx2で割り

(繰り返して)があれば、容易に「while文」に翻訳できる。

文脈から自動的に省略語を補って、翻訳しやすい形に自動変形するアルゴリズムも必要。
0021デフォルトの名無しさん垢版2014/06/16(月) 10:59:25.96ID:4kD5cm9H
せいぜい機械的にできる処理って形態素解析くらいまでだろうな。形態素解析ならスパース表現でできそうだ。
めくらでも会話できるけど、音以外の五感がないわけではないし
0022デフォルトの名無しさん垢版2014/06/16(月) 11:07:05.33ID:4kD5cm9H
形態素解析ができてから、回りの状況と自然言語の関係を照らしあわせて単語ごとに構文を学習する。
回りの状況はテキストだけじゃ表現が難しい
0023デフォルトの名無しさん垢版2014/06/16(月) 11:56:09.75ID:xNeMvzgG
割り算・分数は、「平均」または「単位あたり」と理解されるべき概念と思う。「平均点」は数の総和を人数で割って得られた数。
「速度」は物体や波が単位時間あたりに動いた距離。
0024デフォルトの名無しさん垢版2014/06/16(月) 11:57:19.39ID:xNeMvzgG
900 :デフォルトの名無しさん:2009/02/20(金) 20:46:21.00
「類似文検索システム」としては、名詞+助詞「の」+名詞+、のように文構造のパターンを網羅しておき、
目新しい文章が出た時に文構造パターン認知できるようにしておくとか。
例えば「身長の高い男が私の横を通り過ぎた」「髪の長い女が彼の手を握った」はいずれも、
名詞+助詞「の」+形容詞+名詞+助詞「が」+名詞+助詞「の」+名詞+助詞「を」+動詞。
0025デフォルトの名無しさん垢版2014/06/16(月) 13:00:19.74ID:xNeMvzgG
(1) ◆新銀行4,1 の中身
(e4,2:ガ)13 (e4,3:ガ)14 十七日に大蔵省の銀行免許を取得、14 (e4,4:ガ)15 二月上旬までに 増資して15 (e4,5:
ガ)16 資本金を 四百億円とし、16 三月二十日をめどに、開業する。13
この点を考慮するために,参照表現の出現位置を人手で修正し,その結果に対して人手で参照表現を選択する.
ただし,任意の表現を許してしまうと問題が発散するため,今回の評価では「参照表現を省略する」「参照表現を主題化し
て明示的に記述する(つまり,助詞 “は” もしくは “には”をともなって表現する)」「主題化せずに明示的に記述する
(つまり,助詞 “が/を/に” をともなって表現する)」の 3 種類から選択してもらい,人手生成の傾向を分析する.

http://www.cl.cs.titech.ac.jp/~ryu-i/papers/NL206-15.pdf

(58) a. 学生が3人この鍵でドアを開けた
b. ?? 学生がこの鍵で3人ドアを開けた
(58a-b) は、遊離数量詞が、隣接する名詞句を修飾することを示す。12
(58b) では、「3人」と
「学生」が隣接していないため、意図された修飾関係が成立しない。この観察をふまえて、
Miyagawa (1989) は、(59) の文法性が非対格仮説の証拠となることを指摘する。
(59) ドアがこの鍵で3つ開いた
非対格仮説によれば、(59) の「開く」が非対格動詞であることから、「ドア」は、(60) に示
すように、目的語の位置で主題の役割を得た後に、主語の位置に移動する。

http://www.ic.nanzan-u.ac.jp/LINGUISTICS/staff/saito_mamoru/pdf/saito.2013.pdf

日本語の省略がわかる本 誰が?誰に?何を?
成山 重子 著 / 明治書院(810.7ナ)
日本語の特徴である省略を文化と文法から捉えた本。語らいの制約から省略
の順序の制約まで体系的に解説。文法が苦手な人や中級者以下の学習者のため
に「省略のインスタント文法」も収録。
https://www.ishikari-lib-unet.ocn.ne.jp/html/%E3%81%82%E3%81%8B%E3%81%9F%E3%81%BE72.pdf
0026デフォルトの名無しさん垢版2014/06/17(火) 11:34:59.62ID:sceXYbna
(5)「意味されるもの」と「意味するもの」を分離することにより、この二つのそれぞれに適した表
現形式を独自に発展させることができる。「意味されるもの」の表現方法は、談話分析や語用論の研究成
果を取り入れることによってさらに発展させることが可能である。また、「意味するもの」の表現形式としては、
制限自然言語と RDF/OWL 以外にも様々なものを使用することができ、「意味されるもの」の内容に応じて最も
適した表現形式を選択することができる。様々な形式の情報を一体的に扱うシステムの開発も可能であろう。
http://sigswo.org/papers/SIG-SWO-A1303/SIG-SWO-A1303-04.pdf

h4i 前文脈の事態が後文脈の事態の前提となる : 「〜れば」のような条件節は前文脈の事態が後文脈の事態が成
立するための前提条件となる.この際,パタン中の名詞句が「こと」のような明確な事態を導入する表現の場合
であっても,「可能性」などの前文脈の事態にモダリティの情報を付与する表現であっても,同様に前提となる関
係を表すことになる.例えば,例 (9) では,「これ(=途上国向けの環境分野の援助)を引き上げる」ことが「事
態が改善する」ことの必要条件となっている.
(9) これを向こう5年間、30%台後半、5000億円程度に 引き上げることをすれば、事態は大きく 改善される。


http://www.cl.cs.titech.ac.jp/~ryu-i/papers/nlp2014_ryu-i_discrel.pdf

実際のところ"this"や"is"だけでもその意味は多数あり、文章が長くなるほど意味の組み合わせは多くなり、
「組み合わせの爆発」という現象が起きコンピュータは止まってしまう。さらに、40 代のドリフ世代にとって
"This is a pen."はまた別の意味がある。
http://ed-www.ed.okayama-u.ac.jp/~shinri/terasawa/files%5Cthinking_new_theory_of_thinkingV5.pdf
0027デフォルトの名無しさん垢版2014/06/19(木) 03:03:30.38ID:xTtna/5L
「まわるまわるよ、時代は回る」
「 地球は回る、君を乗せて 」

上の二つの「回る」は、同じ意味ですか?
0028デフォルトの名無しさん垢版2014/06/19(木) 07:49:02.24ID:66eAVPNK
>>27
>まわるまわるよ、時代は回る

「明治時代は栄光だったが、昭和時代は暗黒だった」(司馬遼太郎)というふうに、時代は回るという意味。

>地球は回る、君を乗せて

「地軸」を中心にして回転している、という意味。
0029デフォルトの名無しさん垢版2014/06/19(木) 11:47:01.23ID:7DkBqMX+
>>28
>地球は回る

太陽の回りを公転して回っている、というのも有りだろ?
0030デフォルトの名無しさん垢版2014/06/20(金) 05:49:29.43ID:408WaNYH
4.1.1 第 1 問
後半の問いに対して,点 P 自体を (x, y) として解くことはできなかったため,
点 P の像を (x, y) として命題を記述した.変数の導入方法には,試行錯誤が必要である.
4.1.2 第 2 問
知識 (e) を受験数学で学ぶことはないと思われるが,MaxValue[] や MinValue[] を利用するためには,
このような,プログラムではなく数式で表現するための知識が有用であろう.
知識 (f) を用いずに,面積を三角関数で記述したままでは,MaxValue[] や MinValue[] で最大値や最小値を
求めることはできなかった.三角関数を含む式に関する問題では,このような変数変換が有力なテクニックである.
 難問として有名な本問だが,数式処理システムを利用すれば,比較的簡単に解ける.しかしその解法は,
文献 [小島 89]などに掲載されているような,人間が手で解く方法とは大きく異なっている.
4.1.3 第 3 問
a についての 3 次方程式になることがわかって初めて知識(b) が利用できる.このように,具体的な方針を事前に決める
のが難しい場合がある.本手法における第 3 問の結論は図 1(a) だが,模範解答は図1(b) のように,曲線の式や交点の座標,
曲線自体や点自体を含むかどうかも描いたものになる.
4.1.4 第 4 問
Mathematica では,馬 i=1 x i−1 のような簡単な計算が,特殊な仮定(この場合は x ̸= 1)の下に行われる危険があること
を知っておかなければならない.Reduce[] の引数の {a, s, b} を {a, b, s} にすると解けない.変数の順番が大切である.
4.1.5 第 5 問
接平面を (x − 1) + ay + b(z − 1) = 0 の形で記述すると,計算時間は 68 秒から 3300 秒に,利用記憶容量は 21 MB から
230 MB に増加する.このように,得られる結果は同等でも,変数の導入方法によって計算時間は大きく異なる場合がある.
4.1.6 第 6 問
問題をそのまま定式化しても,現実的な時間では解けない.(a),(b) のような知識によって,計算量を減らす必要がある.
体積 f を,t の関数と u と v の関数に分けずに,MaxValue[]で最大値を求めることはできなかった.f を 2 つの部分に分
けられることは,解いている途中で初めてわかることである.
https://kaigi.org/jsai/webprogram/2014/pdf/768.pdf
0031デフォルトの名無しさん垢版2014/06/20(金) 16:45:06.34ID:Egd9IXkN
7.3 数学モデルは現実世界と論理世界を結ぶ架け橋の一つ
 私は企業に勤務していた頃、いろいろな分野のプラントの制御システムの開発や動特性シミュレーション
に従事してきましたが、そこで数学モデルの有効性を痛感しました。
 それは、いったん数学モデルが作成できれば世界がまったく変わってしまうことです。現実世界では、
対象の挙動は構成、材料、形状や動作環境などいろいろな条件に左右され、それを大きく変えることは
物理的に難しいことが多く、我々の思考もそれに縛られることが多いのも事実です。
 数学モデルが生成できれば、論理世界に入ることができ、そこでは禁止されているのは論理的な矛盾だけです。
数学理論はもちろん、関連した数値解析、コンピュータ・グラフィックや種々の計画法が応用できます。
それにより、現実世界にとどまっている限り得られない新しいアイデアが出てくる可能性があります。
数学モデルは現実世界と論理世界を結ぶ架け橋となります。これを一般化すると、「モデルは現実世界
と仮想世界を結ぶ架け橋」と言えるかもしれません。
 ただ、論理世界で得られた結果を現実世界で実現するためには、それが現実世界で有効かまた実現可能
なものなのかを調べる必要があります。しかし、それは論理世界の中では不可能です。現実世界に戻すためには、
別の方法が必要です。それがシミュレーションです。数学モデルとシミュレーションにより、実践と理論の結合が図れるのです。
http://www.wind.sannet.ne.jp/masa-t/semioeng/modeling/modelasim/mas07/mas07.html
0032デフォルトの名無しさん垢版2014/06/23(月) 11:54:56.02ID:wCGes4Or
(1) John,fired Dave,because he had too many absesces.(he=dave)
(1) John,fired Dave,because he had too many employees.(he=dave)
これら 2 文は,同一の文構造であり,違いは absences か,
employees のみである.he には John も Dave も入りうるため,
統語的な特徴および意味的な特徴は役に立たない.
ここで重要な手がかりとなるのは,「fire する側は従業員を抱える立場」
「欠勤が多い人は fired される」といった,事象間の関係知識である.
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/A5-2.pdf
0033デフォルトの名無しさん垢版2014/06/23(月) 17:07:41.81ID:Z0nKY4vk
完全に形態素解析したいんだけどできない。
小野 名詞,固有名詞,人名,姓,*,*,小野,オノ,オノ
妹 名詞,一般,*,*,*,*,妹,イモウト,イモート
子 名詞,接尾,助数詞,*,*,*,子,シ,シ
は 助詞,係助詞,*,*,*,*,は,ハ,ワ
遣 動詞,自立,*,*,五段・ラ行,体言接続特殊2,遣る,ヤ,ヤ
隋 名詞,一般,*,*,*,*,隋,ズイ,ズイ
使 名詞,接尾,一般,*,*,*,使,シ,シ
です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
EOS
になる。mecabで辞書パラメータ最小値にしたんだけど。
どうすればいいのだろうか
0035デフォルトの名無しさん垢版2014/06/24(火) 00:30:04.82ID:13L7pvDP
できない
0036デフォルトの名無しさん垢版2014/06/24(火) 00:45:44.58ID:13L7pvDP
どうしても辞書登録が認識してくれない。徳川家康はできれば徳川+家康でなく徳川家康と認識
してほしいのだが確実にできる手だてはないのだろうか?
0038デフォルトの名無しさん垢版2014/06/24(火) 01:36:52.54ID:13L7pvDP
mecabでどうするのかを知りたい。
0039デフォルトの名無しさん垢版2014/06/24(火) 08:21:43.05ID:+csYm/QE
mecabが優秀じゃなくて、助詞をもつなどの日本語文法が機械的な解析に向いていただけだ。
0040デフォルトの名無しさん垢版2014/06/24(火) 11:28:06.49ID:AfD6RzLL
向いてない向いてない。
わかち書きのような特殊な書き方をしてない限り、単語の区切りが不明瞭とか。
0041デフォルトの名無しさん垢版2014/06/24(火) 17:41:46.27ID:FbF3Qsch
逐一辞書登録するのは限界があるよね。
Google検索やWikipediaのデータを引っ張ってきて用語を補整するなんてことも必要になりそう。
0043デフォルトの名無しさん垢版2014/06/25(水) 01:28:47.07ID:A+D1SfZu
>>Google検索やWikipediaのデータを引っ張ってきて用語を補整するなんてことも必要になりそう。
それができない。WikiPediaをDLしてアンカー抜き出して用語集作っても
コストの値を調節しないと正しくできない.
mecabは速いだけか?
0044デフォルトの名無しさん垢版2014/06/25(水) 01:32:05.16ID:A+D1SfZu
Jumanかkyteaがいいのか?
mecabは微妙に形態素がへん。Webの記事ならとても99%も正解があるとは思えない
新聞記事でもあやしい
0046デフォルトの名無しさん垢版2014/06/26(木) 09:41:16.59ID:S6b66RTi
述部の言語構造分析をもとに,「辞書定義文」,「用語属性」,「分布類似度」,「機能表現」という複数の言語知識を用い,
それらを素性とした識別学習で同義判定を行う.
https://www.jstage.jst.go.jp/article/jnlp/20/4/20_539/_pdf

 つまり、「台所」という表現が料理という場面=料理フレームを喚起するトリガーとして働き、その
ようなフレームのなかで、料理人や調理作業、調理道具、さらに料理にかかる費用等、料理に関わる
多様な要素が指示されるわけである。国広は、このような言語現象を多面的多義と呼び、その他にも
「学校」「病院」「銀行」といった概念が、建物や組織、そこで営まれる活動等、多様な現象の集合とし
て分析されると指摘している。
http://opac.lib.yamanashi.ac.jp/metadb/up/honkan/13_302-320.pdf

(1)同義語:同じ意味を持つ単語であり、テキスト中での置き換えが可能である単語のペア。「コンピュータ」と「電子計算機」など。
(2)上位/下位語:一方が他方の上位概念であるような単語ペア。「コンピュータ」と「サーバ」など。
(3)部分/全体語:一方が他方の一部であるような単語ペア。「帽子」と「つば」など。
(4)対義語:対となる概念を示す単語ペア。「男」と「女」など。
(5)兄弟語:同義ではないが、共通の上位概念を持つ単語ペア。「ルータ」と「サーバ」など。
(6)関連語:類似しておらず、階層的でもないが、概念的に連想される単語ペア。「細胞」と「細胞学」など。
http://www.google.com/patents/WO2014033799A1?cl=ja

例(2)の動詞「教える」は、以下のような意味を持っていることから、動詞自体が方向性を持っていることが伺える。
・行動や身を処し方などについて注意を与えて導く。いましめる。さとす。
・知っている事や自分の気持、要求などを他の人に告げ知らせる。
・知識、技芸などを身につけるようにさせる。教授する。
・おだてたりして、悪い事をするようにしむける。

http://www.ninjal.ac.jp/event/specialists/project-meeting/files/JCLWorkshop_no5_papers/JCLWorkshop_No5_04.pdf
0047デフォルトの名無しさん垢版2014/06/27(金) 04:03:33.62ID:MjVrnFmf
新聞とかのデータからから「名詞+助詞+動詞」の組み合わせをひろってきたいんだけど、構文解析する必要ありますか?場違いだったらすみません
0048デフォルトの名無しさん垢版2014/06/28(土) 06:42:58.08ID:gMf17FhW
◎2chスレッド勢いランキングサイトリスト◎

★+ニュース板
・ 2NN (推奨サイト)
・ 2chTimes
★+ニュース板新着
・ 2NN新着
・ Headline BBY
・ unker Headline
★+ニュース板その他
・ Desktop2ch
・ 記者別一覧
★全板
・ 全板縦断勢いランキング (推奨サイト)
・ スレッドランキング総合ランキング
・ ログ速
★全板実況込み
・ 2勢 (推奨サイト)
・ READ2CH
・ i-ikioi

※ 要タイトル検索
※ 2chブラウザ併用推奨
0049デフォルトの名無しさん垢版2014/06/28(土) 13:20:04.17ID:pYYcNfOX
例えば、「空港へのアクセスを調べる」という入力文に対して、「アクセス」を換言したい場合、
「空港への◯◯」という前文脈と「◯◯を調べる」という後文脈に分けてコーパスを探索し、
◯◯に該当する名詞のうち共通する名詞を抽出する。図 1 の例では、前文脈と後文脈で共通して
用いられる「乗り換え」「料金」「行き方」の 3 単語が抽出される。
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/D5-1.pdf

意味空間は1次元ではなく多次元である. どの属性に注目して(観点で)分類するかによって、いろいろな分類の仕方が考えられる.
身近な例で「料理」について考えてみる.古今東西の料理の種類は相当な数になり、分類の仕方も人によって異なる.
ここで調理法、材料、地域の3 つの観点で分類するとつぎのようになる.
調理法の観点で分類すると 生もの、煮物、焼き物
材料の観点で分類すると  魚料理、肉料理、野菜料理
地域の観点で分類すると  和食、中華、洋食
例えば「刺し身」は、料理を3つの観点によって分類した結果、連想された用語「魚料理」「生もの」「和食」の狭義語である.
逆に「刺し身」の広義語が「生もの」「魚料理」「和食」の3つあることになる.その結果、網構造になる。これを図にすると、図1のようになる.
http://www.asahi-net.or.jp/~wd2y-kkb/t.pdf
0050デフォルトの名無しさん垢版2014/06/28(土) 13:47:07.22ID:mTJgjjdL
>>47
構文解析は必要ないが形態素解析はいる
0054デフォルトの名無しさん垢版2014/06/29(日) 19:17:16.27ID:8NVTS3/J
図やイラストの理解
センター試験の英語の問題では、図やイラストが多用されます。人間であればだれでも理解できるような簡単な図ですが、
これを理解することはコンピュータにとっては至難の業です。画像認識の研究はさかんに行われていますが、ほとんどの
研究は写真を対象としており、図やイラストを理解する研究はほとんど行われていません。これは、デフォルメされたイメージ
を理解するためにはさまざまな常識が必要であり、今のところ有効なアプローチが全く見当たらないためと考えられます。
人間にとっては図やイラストの理解は試験問題を解く上で重要なポイントではないですが、人間にとって当たり前すぎるからこそ、
逆にコンピュータにとっては非常に難しいと言えます。
http://21robot.org/research_activities/english/

 物理シミュレータを使うことの将来性について、横野氏は、「例えば、テーブルの上を転がるものを見たとき、
人はとっさに手を出してテーブルから落ちないようにします。ところが、今のロボットは、転がっているものを認識できても、
物理の法則に従ってそれがテーブルから落ちることまでは予測できません。人工頭脳が進展すれば、実世界の状況を理解し、
物理法則に従って変化する事象を物理シミュレーションによってモデル化し、将来を予測することもできるでしょう」と語る。
http://21robot.org/%E3%83%9B%E3%83%BC%E3%83%A0/introduce/NII-Special-2/
0055デフォルトの名無しさん垢版2014/06/30(月) 11:11:53.76ID:yTE03nVF
一次視覚野はほぼ解明されてる
写真とイラストはもう区別しない
0057デフォルトの名無しさん垢版2014/06/30(月) 13:42:52.23ID:tZCwK3PP
>>55
>一次視覚野はほぼ解明されてる
>写真とイラストはもう区別しない

 おそらく最初とは異なる判断になったのではないでしょうか。このように、私たちは経験やこれまでの条件づけによって、
無意識のうちに「決めつけ」を行いがちです。この絵のように、わずか数秒見ただけでも大きな結論の違いを生むことが
あるわけですから、これまで長い人生の中で培ってきた「決めつけ」は、あなたのさまざまな判断に大きな影響を及ぼします。
そして、誤った先入観や印象による決めつけは非常に危険なものといわざるを得ません。

この絵、何に見えますか?――あなたの“思い込み”をテストする
http://bizmakoto.jp/bizid/articles/0905/29/news009.html
0058デフォルトの名無しさん垢版2014/06/30(月) 16:33:45.79ID:yTE03nVF
>>57
それは二次視覚野以上の話だ
0059デフォルトの名無しさん垢版2014/06/30(月) 17:46:07.82ID:ULkK/oEi
>>57
鼠に見えたりオッサンに見えたり・・・人間がイラストを解読するメカニズムはよくわからない。
0060デフォルトの名無しさん垢版2014/06/30(月) 18:56:54.14ID:OP+eMRFG
3つは違う絵だから、ネズミに見えるのもおっさんに見えるのも
その中間に見えるのも意図通りとしか感じない
0061デフォルトの名無しさん垢版2014/06/30(月) 20:02:41.31ID:bnSHXbvL
今一番画像処理で進んでるのはコンボリューションニューラルネット
畳み込みをしてて、二次視覚野に近いとは言われてる
0064デフォルトの名無しさん垢版2014/06/30(月) 21:03:06.40ID:9KK/EJtO
技術は、大量のテキストにタグを付けてコーパス化したりとか、そういう方向に応用されてる
だろうと思うけど。
0066デフォルトの名無しさん垢版2014/06/30(月) 21:14:43.35ID:CGk8SAom
いいアイデアを思い付いた!!

ワトソンをWebに公開し、何回か質問できる権利を販売すればIBMがぼろ儲けできるぞい!
0067デフォルトの名無しさん垢版2014/06/30(月) 21:46:33.42ID:avOqRzMr
>>62
とりあえずは医療診断に使おうとしている。
画像診断や画像認識、音声認識技術と組み合わせれば、診断分野に人間が
出る幕はなくなるんじゃないか
0071デフォルトの名無しさん垢版2014/07/01(火) 17:42:24.79ID:MLoIfLOU
自動改題システムがあったらこうやる。本問は、正三角形ではなく直角二等辺三角形だったら、また放物線ではなく楕円だったら、
問題とその解法はどう変わるか。あるいは設定が変え方によっては、高校数学では解答できなくなるのか。 

> 東大理系数学2004年第1問
0072デフォルトの名無しさん垢版2014/07/01(火) 17:48:46.07ID:MLoIfLOU
>>24
長文を短文の箇条書きに書き換えるアルゴリズム、短文の箇条書きを長文にまとめるアルゴリズムを考えてみる。
やり方は人海戦術で多くの長文を、短文の箇条書きに書き換え、意味内容について詳細にタグ付けして、インプットする。
類似の文章に遭遇したら、選択検出できるようにする。
0074デフォルトの名無しさん垢版2014/07/05(土) 11:17:57.64ID:EeQIx6Tc
 SWでは図12のような手の形,動き,顔・頭,身体の部分などを表す図像的な記号を二次元的に配置して,
人間にとって分かりやすく手話を記述する.図13にSWによる日本手話の記述例を示す.これらの記号の集合
はISWA(International Sign Writing Alphabet)と呼ばれており,ISWA2008には639種類の基本記号が含まれる.
向きの違いなどを考慮するとその数は約35,000種類に上る.
https://www.jstage.jst.go.jp/article/essfr/4/4/4_4_282/_pdf

本研究の最終的な目標は, CL を組み込んだ手形変化と, CL を用いた図像的な手の動きが組み合わさった
手話表現 CL 述語 (CL 構文, Classi?er Predicate)[3]の生成を機械翻訳上で行うことにある.
CL 述語は, 現実世界での場所・形状・動き (動きの軌跡) 等が手話表現空間上でもリンクするように CL 手形
を用いて表現するもので, 手話の意思伝達において非常に重要な役割を担っている.
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/P7-12.pdf
0075デフォルトの名無しさん垢版2014/07/05(土) 15:51:46.96ID:PDgdEPrp
word2vecとdeep learningって別に関係無いよね?
word2vecの前身にrecurrent neural networkが使われてたってだけで
現在のword2vecの実装はロジスティック回帰ベースのものになってるし
0076デフォルトの名無しさん垢版2014/07/05(土) 21:00:44.58ID:yP4JAf0g
(5-4) この野菜は害虫に強い.(植物の野菜)
(5-4) 太郎は野菜をたくさん食べる.(食物の野菜)
http://tdl.libra.titech.ac.jp/hkshi/xc/contents/pdf/116061503/6

赤い三角,青い丸などの図形を見せられ,それについての質問「何色ですか」
「何という形ですか」に対して「赤」や「丸」などと試行錯誤的に答え,
その答えに対する評価を利用して正しく答えられるように学習するシステムを構築する.
https://kaigi.org/jsai/webprogram/2014/pdf/474.pdf

手順(6)では,既存オントロジーに対し,概念追加処理を行う.既存オントロジーにおいて,
対象領域の中でも最上位に位置すると考えられる概念をルート概念として設定する.
Protégé を使用して既存オントロジーの可視化を行った例を図 5 に示す.図 5の可視化範囲においては,
紫の楕円で囲んである概念をルート概念としている.なぜならこれらの概念が理科に関連する
概念の最上位概念として適当であると推測できるからである.このようにして手動で設定した
ルート概念は“時”,“動物”,“事象”,“位置”,“三日月形のもの”,“別のもの”,
“生物”,“動物”,“植物”,“生物”,“自然現象によって出来るもの”,“具体的あるいは
抽象的存在物”,“抽象物”の計 13 概念である.
http://sigswo.org/papers/SIG-SWO-A1303/SIG-SWO-A1303-05.pdf
0077デフォルトの名無しさん垢版2014/07/06(日) 13:17:55.07ID:UIel1dtG
□(日常的)状況理解と(代数スキーマ)問題構造理解
• 支援が必要なのは問題モデル表現,日常的な状況はよく知っている
• 状況に基づく理解には問題文からの暗黙的な特徴抽出が必要
- 最初に「形式主義」が役に立つ理由 [Nathan 1988]
• 相互に支援「状況が問題モデルの意味付けに」「問題スキーマが状況モデル作成に」
「予測2」
与えられたカバーストーリにおけるキャラクタ・イベント・関係を量的な解法に必要な形式的な記号と
表現の知識と関係づけることにより数学的にストーリ状況を解釈するよう励まされた生徒は,
文章題の解を導き出せる方程式の生成において,ストーリのフレーズと方程式のマッピングを行う
直接的な変換に基づくアプローチを使う対照者より有意になるであろう.
「予測3」
与えられたカバーストーリにおけるキャラクタ・イベント・関係の知識に形式的な記号と表現を関係づけ
ることにより代数式を状況的に解釈するよう励まされた生徒は,代数式の状況的な記述の生成において,
ストーリのフレーズと方程式のマッピングを行う直接的な変換に基づくアプローチを使う対照者より有意になるであろう.
「予測4」
状況的に推論を行う問題解決者は,フレーズ志向の対照者より,カバーストーリを伴うかもしれない状況的
な方程式の組の適切さ,あるいは不適切さを認識する能力をつけるだろ
http://miwalab.cog.human.nagoya-u.ac.jp/database/resume/2003-02-04.pdf
0078デフォルトの名無しさん垢版2014/07/06(日) 15:17:27.05ID:Tf6s8TDO
句構造とそれに対応付けられた述語項構造情報を持つ,統語情報と意味情報を統合した日本語ツリーバンク
について述べた.構築した 20,000 文を既存の構文解析器に適用することにより,文節係り受け解析と同程度
の解析精度を持ちつつ,詳細な統語情報を出力できることを確かめた.
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/B5-3.pdf

UML では,オブジェクトを状態機械と考え,その振舞いを状態遷移図で表す.記法としては,基本的に Harelの
Statechart を採用している.たとえば,図 5 は Fowler の本 [2] からとった.図の「動作中」と名前を付けているの
が親状態 (superstate) である.その中に 3 つの子状態があるが,それを隠して 1 つの状態と見なしたものが「動作中」である.
http://tamai-lab.ws.hosei.ac.jp/pub/ss01paper.pdf

つまり、図的メディアは表現している情報の内容概略をまず直観的に把握することができ、その点において文書メディア
と大きく異なる。例えば、多くの図形要素がある方向に整列していれば、順序もしくは流れの意味が瞬時に感じられるが、
同じ意味を表現した文書は通読しなければわからない(図 2.1)。
http://www.image.esys.tsukuba.ac.jp/~murayama/work/ms_thesis.pdf
0079デフォルトの名無しさん垢版2014/07/07(月) 12:36:07.24ID:bhOiadyO
2.2 語彙・構文的言い換え
語彙・構文的言い換えに限っても,純粋に統語論で扱えそうな言い換えか
ら語の詳細な意味に立ち入る必要のある言い換えまで多岐にわたる。こうし
た言い換えは,実現に必要な知識の種類の観点から便宜的に次の4種類に分けられる。
統語的言い換え 個別の語の意味に立ち入らなくても統語論の記述レベルで概ね説明できる言い換え
(3) 最初に合格したのは高橋さんだ ⇔ 高橋さんが最初に合格した
語彙的言い換え 語の同義性だけで概ね説明できる,統語操作を伴わない局所的言い換え
(4) 一層の苦境に陥る恐れがある ⇔ 一層の窮地に陥る可能性がある
語彙構成的言い換え 語の統語的特性と意味的特性に基づいて構成的に説明できると考えられる規則性の高い言い換え
(5) 2 位が先頭との距離を縮めた ⇔ 2位と先頭の距離が縮まった
推論的言い換え 内包的意味が近似的に等価な言い換えのうち,上のどの種類にも当てはまらないもの
(6) 財政再建が急務の課題だ ⇔緊急に財政再建する必要がある
http://paraphrasing.org/~fujita/publications/coauthor/inui-LF-2.pdf
0080デフォルトの名無しさん垢版2014/07/09(水) 09:13:08.64ID:W1L77FJX
イヌ語、イルカ語、サル語を解析するアルゴリズムありますか?
0082デフォルトの名無しさん垢版2014/07/09(水) 20:08:34.07ID:s3czgtxE
たとえばどのようにしたら?
0083デフォルトの名無しさん垢版2014/07/10(木) 11:50:45.70ID:b8e/9c1m
10^5単語
10^3個の単語からなる文章

(10^5)^(10^3)の組み合わせ(テンソル)

全ての組み合わせを予め計算するのは不可能だ
構文が似ている単語は同じ構文を持つと仮定し、確率的に構文解析すればいいのか?
0084デフォルトの名無しさん垢版2014/07/10(木) 14:23:18.66ID:aR1UjDzC
>>83
>10^5単語

固有名詞(住所・氏名など)を一般化し、さらに頻出単語のみに絞る。
0085デフォルトの名無しさん垢版2014/07/10(木) 14:39:03.10ID:b8e/9c1m
>>84
オートマトンでやるからテンソル演算にはならないが、それにしても桁違いだから絞ってどうなる量じゃない。
未知の単語が来た時対応できないし、自分で入力されたことのない文章を構文的に正しいものを推定して組み立てないといけない。
0086片山博文MZ悪魔崇拝 ◆T6xkBnTXz7B0 垢版2014/07/18(金) 14:38:59.47ID:XMEHR0Aa
自然言語相手にすべてのケースのテストデータを作成しようとしたら、800MB超えてしまった。。。
愚かだな。
0090デフォルトの名無しさん垢版2014/07/23(水) 06:05:31.34ID:cG8Of2p8
日本語のmecab cabochaと同じことを英語でする場合には
どのソフトを使えばいいのでしょうか?
0091デフォルトの名無しさん垢版2014/07/26(土) 22:52:13.10ID:vhGqByQW
Stanford CoreNLPでぐぐってみ
0095片山博文MZ次期CEO ◆T6xkBnTXz7B0 垢版2014/07/30(水) 01:03:45.57ID:yEskz56N
違う違う。そんな文字コードが固定された融通の利かないありきたりの形態素解析ツールの
1ユーザーにとどまるのはイヤだ。もっとオープンでダイナミックに組織化されるシステムでなきゃ。
えっ、大規模機械学習や統計学を否定するの? ひょっとして馬鹿?
0096デフォルトの名無しさん垢版2014/07/30(水) 01:06:51.20ID:yEskz56N
あげ
0097デフォルトの名無しさん垢版2014/07/30(水) 14:46:58.32ID:nHLRqrzx
moses-supportやparser-supportでアホな質問ばかりする中国人やアラビア人にも真摯に対応する姿に感心する
0099デフォルトの名無しさん垢版2014/08/06(水) 18:09:18.10ID:acb72KUN
ところでだ。「チンボがシコシコする」という日本語表現は、文法的に正しいのか?

チンボ「を」シコシコするのではなくて、チンボ「が」シコシコする。この場合、「チンボ」は主語となる。

オブジェクト指向で言う「集約」は2種類あって、全体(俺)と部分(チンボ)が繋がっている場合と、
全体(俺)と部分(チンボ)が別々になっている場合とが考えられる。けれども「チンボ」はそれ自体
が独立した生き物であり、所有者の意思とは無関係に、勃起して「シコシコする」。
例えば寝てる時にエロい夢みて朝起きてみたらチンコが勃起して射精してたとか。

違うか?

「頭がズキズキする」は良いが、「チンボがシコシコする」はダメな理由を、50字以内で述べろ!>>98
0100デフォルトの名無しさん垢版2014/08/29(金) 20:13:29.62ID:pIYD+XWo
1. 辞書の違いによる形態素単位の分割
2. 機能語,複合語などによる文節分割
3. 鍵括弧内の読点による文の分割
4. 鍵括弧による文節分割
5. 機能文節などの特殊な文節による分割
6. 係り先の文節を複数持つか

http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/P3-15.pdf

(1)二格深層格の出現比率はコーパスによって有意な差がある.特に「場所」,「複合辞」,「目的」
における差が顕著である.
(2)定性的に分類された深層格を定量的に見ると頻度において差が顕著であった.特に「対象」(間
接目的語)の頻度が高い.一方,「場所」や「時間」の頻度は全体の割合から見るとさほど高くない.
(3)二格と共起する名詞と動詞と深層格との関係について主成分分析を行った結果,「結果」「複合
辞」「その他」>「副詞」「目的」>「時間」「場所」の順に他の深層格との隔たりが確認された.これに対して,
「対象」「役割」「動作主」「頻度」は共起語においては特性が薄いため,深層格推定にも困難が予想される.
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/P5-3.pdf

今後は、平成 28 年度末を目標として、日本語の書き言葉の文 4 万文に統辞・意味解析情報をタグ付けし
た欅ツリーバンクを完成させる予定である。また、これとは別に、対話データのタグ付けも計画している。
開発したツリーバンクのうち公開可能なものは全て以下のサイトで配布する予定である。

http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/P8-8.pdf
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況