自然言語処理スレッド その4

■ このスレッドは過去ログ倉庫に格納されています
1デフォルトの名無しさん
垢版 |
2014/06/03(火) 05:40:00.54ID:yefNLumx
前前スレ 自然言語処理スレッド その2
http://mimizun.com/log/2ch/tech/1173105287/
前スレ 自然言語処理スレッド その3
http://mimizun.com/log/2ch/tech/1235129481/

このスレッドでは、日本語の構文解析、談話理解、情報検索、
文章生成などの技術に関する理論と(おもに)実装を扱います。
あくまでアプリケーションプログラミングの技術的な面に重点をおきたいので、
学術的な話はアリですが、いわゆる人工無能や哲学的AI話、
言語学の話題などは他のスレッドでお願いします。
2014/06/28(土) 18:38:56.18ID:ago1EUHo
>>51 死ねカス。氏ねじゃなくて死ね。
54デフォルトの名無しさん
垢版 |
2014/06/29(日) 19:17:16.27ID:8NVTS3/J
図やイラストの理解
センター試験の英語の問題では、図やイラストが多用されます。人間であればだれでも理解できるような簡単な図ですが、
これを理解することはコンピュータにとっては至難の業です。画像認識の研究はさかんに行われていますが、ほとんどの
研究は写真を対象としており、図やイラストを理解する研究はほとんど行われていません。これは、デフォルメされたイメージ
を理解するためにはさまざまな常識が必要であり、今のところ有効なアプローチが全く見当たらないためと考えられます。
人間にとっては図やイラストの理解は試験問題を解く上で重要なポイントではないですが、人間にとって当たり前すぎるからこそ、
逆にコンピュータにとっては非常に難しいと言えます。
http://21robot.org/research_activities/english/

 物理シミュレータを使うことの将来性について、横野氏は、「例えば、テーブルの上を転がるものを見たとき、
人はとっさに手を出してテーブルから落ちないようにします。ところが、今のロボットは、転がっているものを認識できても、
物理の法則に従ってそれがテーブルから落ちることまでは予測できません。人工頭脳が進展すれば、実世界の状況を理解し、
物理法則に従って変化する事象を物理シミュレーションによってモデル化し、将来を予測することもできるでしょう」と語る。
http://21robot.org/%E3%83%9B%E3%83%BC%E3%83%A0/introduce/NII-Special-2/
55デフォルトの名無しさん
垢版 |
2014/06/30(月) 11:11:53.76ID:yTE03nVF
一次視覚野はほぼ解明されてる
写真とイラストはもう区別しない
2014/06/30(月) 11:48:04.73ID:9KK/EJtO
モジュール理論とか、何十年の間にだいぶ進んだよな
57デフォルトの名無しさん
垢版 |
2014/06/30(月) 13:42:52.23ID:tZCwK3PP
>>55
>一次視覚野はほぼ解明されてる
>写真とイラストはもう区別しない

 おそらく最初とは異なる判断になったのではないでしょうか。このように、私たちは経験やこれまでの条件づけによって、
無意識のうちに「決めつけ」を行いがちです。この絵のように、わずか数秒見ただけでも大きな結論の違いを生むことが
あるわけですから、これまで長い人生の中で培ってきた「決めつけ」は、あなたのさまざまな判断に大きな影響を及ぼします。
そして、誤った先入観や印象による決めつけは非常に危険なものといわざるを得ません。

この絵、何に見えますか?――あなたの“思い込み”をテストする
http://bizmakoto.jp/bizid/articles/0905/29/news009.html
58デフォルトの名無しさん
垢版 |
2014/06/30(月) 16:33:45.79ID:yTE03nVF
>>57
それは二次視覚野以上の話だ
59デフォルトの名無しさん
垢版 |
2014/06/30(月) 17:46:07.82ID:ULkK/oEi
>>57
鼠に見えたりオッサンに見えたり・・・人間がイラストを解読するメカニズムはよくわからない。
2014/06/30(月) 18:56:54.14ID:OP+eMRFG
3つは違う絵だから、ネズミに見えるのもおっさんに見えるのも
その中間に見えるのも意図通りとしか感じない
61デフォルトの名無しさん
垢版 |
2014/06/30(月) 20:02:41.31ID:bnSHXbvL
今一番画像処理で進んでるのはコンボリューションニューラルネット
畳み込みをしてて、二次視覚野に近いとは言われてる
2014/06/30(月) 20:49:30.42ID:CGk8SAom
IBMのワトソン君は何の役に立ってるの?
2014/06/30(月) 21:02:54.51ID:CGk8SAom
一家に1台ワトソン君
2014/06/30(月) 21:03:06.40ID:9KK/EJtO
技術は、大量のテキストにタグを付けてコーパス化したりとか、そういう方向に応用されてる
だろうと思うけど。
2014/06/30(月) 21:07:00.10ID:CGk8SAom
みんなでワトソン君をどうやって活用するか考えよう!!
2014/06/30(月) 21:14:43.35ID:CGk8SAom
いいアイデアを思い付いた!!

ワトソンをWebに公開し、何回か質問できる権利を販売すればIBMがぼろ儲けできるぞい!
2014/06/30(月) 21:46:33.42ID:avOqRzMr
>>62
とりあえずは医療診断に使おうとしている。
画像診断や画像認識、音声認識技術と組み合わせれば、診断分野に人間が
出る幕はなくなるんじゃないか
2014/06/30(月) 21:49:01.19ID:kvIkRbCF
>>65
役場の窓口にワトソン君を置いて、公務員の人件費削減
2014/07/01(火) 04:28:13.07ID:9WHDZwaI
それなんてエキスパートシス・・・いや、いい、忘れてくれ
2014/07/01(火) 08:59:30.77ID:xCHeKPxQ
電話サポートなら出来そうだね。休日や時間外用にでも
71デフォルトの名無しさん
垢版 |
2014/07/01(火) 17:42:24.79ID:MLoIfLOU
自動改題システムがあったらこうやる。本問は、正三角形ではなく直角二等辺三角形だったら、また放物線ではなく楕円だったら、
問題とその解法はどう変わるか。あるいは設定が変え方によっては、高校数学では解答できなくなるのか。 

> 東大理系数学2004年第1問
72デフォルトの名無しさん
垢版 |
2014/07/01(火) 17:48:46.07ID:MLoIfLOU
>>24
長文を短文の箇条書きに書き換えるアルゴリズム、短文の箇条書きを長文にまとめるアルゴリズムを考えてみる。
やり方は人海戦術で多くの長文を、短文の箇条書きに書き換え、意味内容について詳細にタグ付けして、インプットする。
類似の文章に遭遇したら、選択検出できるようにする。
2014/07/01(火) 20:10:32.48ID:WdBXMFPF
>>67
「マギはどう言っている?」
「2対1でガンだと回答しています」
74デフォルトの名無しさん
垢版 |
2014/07/05(土) 11:17:57.64ID:EeQIx6Tc
 SWでは図12のような手の形,動き,顔・頭,身体の部分などを表す図像的な記号を二次元的に配置して,
人間にとって分かりやすく手話を記述する.図13にSWによる日本手話の記述例を示す.これらの記号の集合
はISWA(International Sign Writing Alphabet)と呼ばれており,ISWA2008には639種類の基本記号が含まれる.
向きの違いなどを考慮するとその数は約35,000種類に上る.
https://www.jstage.jst.go.jp/article/essfr/4/4/4_4_282/_pdf

本研究の最終的な目標は, CL を組み込んだ手形変化と, CL を用いた図像的な手の動きが組み合わさった
手話表現 CL 述語 (CL 構文, Classi?er Predicate)[3]の生成を機械翻訳上で行うことにある.
CL 述語は, 現実世界での場所・形状・動き (動きの軌跡) 等が手話表現空間上でもリンクするように CL 手形
を用いて表現するもので, 手話の意思伝達において非常に重要な役割を担っている.
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/P7-12.pdf
75デフォルトの名無しさん
垢版 |
2014/07/05(土) 15:51:46.96ID:PDgdEPrp
word2vecとdeep learningって別に関係無いよね?
word2vecの前身にrecurrent neural networkが使われてたってだけで
現在のword2vecの実装はロジスティック回帰ベースのものになってるし
76デフォルトの名無しさん
垢版 |
2014/07/05(土) 21:00:44.58ID:yP4JAf0g
(5-4) この野菜は害虫に強い.(植物の野菜)
(5-4) 太郎は野菜をたくさん食べる.(食物の野菜)
http://tdl.libra.titech.ac.jp/hkshi/xc/contents/pdf/116061503/6

赤い三角,青い丸などの図形を見せられ,それについての質問「何色ですか」
「何という形ですか」に対して「赤」や「丸」などと試行錯誤的に答え,
その答えに対する評価を利用して正しく答えられるように学習するシステムを構築する.
https://kaigi.org/jsai/webprogram/2014/pdf/474.pdf

手順(6)では,既存オントロジーに対し,概念追加処理を行う.既存オントロジーにおいて,
対象領域の中でも最上位に位置すると考えられる概念をルート概念として設定する.
Protégé を使用して既存オントロジーの可視化を行った例を図 5 に示す.図 5の可視化範囲においては,
紫の楕円で囲んである概念をルート概念としている.なぜならこれらの概念が理科に関連する
概念の最上位概念として適当であると推測できるからである.このようにして手動で設定した
ルート概念は“時”,“動物”,“事象”,“位置”,“三日月形のもの”,“別のもの”,
“生物”,“動物”,“植物”,“生物”,“自然現象によって出来るもの”,“具体的あるいは
抽象的存在物”,“抽象物”の計 13 概念である.
http://sigswo.org/papers/SIG-SWO-A1303/SIG-SWO-A1303-05.pdf
77デフォルトの名無しさん
垢版 |
2014/07/06(日) 13:17:55.07ID:UIel1dtG
□(日常的)状況理解と(代数スキーマ)問題構造理解
• 支援が必要なのは問題モデル表現,日常的な状況はよく知っている
• 状況に基づく理解には問題文からの暗黙的な特徴抽出が必要
- 最初に「形式主義」が役に立つ理由 [Nathan 1988]
• 相互に支援「状況が問題モデルの意味付けに」「問題スキーマが状況モデル作成に」
「予測2」
与えられたカバーストーリにおけるキャラクタ・イベント・関係を量的な解法に必要な形式的な記号と
表現の知識と関係づけることにより数学的にストーリ状況を解釈するよう励まされた生徒は,
文章題の解を導き出せる方程式の生成において,ストーリのフレーズと方程式のマッピングを行う
直接的な変換に基づくアプローチを使う対照者より有意になるであろう.
「予測3」
与えられたカバーストーリにおけるキャラクタ・イベント・関係の知識に形式的な記号と表現を関係づけ
ることにより代数式を状況的に解釈するよう励まされた生徒は,代数式の状況的な記述の生成において,
ストーリのフレーズと方程式のマッピングを行う直接的な変換に基づくアプローチを使う対照者より有意になるであろう.
「予測4」
状況的に推論を行う問題解決者は,フレーズ志向の対照者より,カバーストーリを伴うかもしれない状況的
な方程式の組の適切さ,あるいは不適切さを認識する能力をつけるだろ
http://miwalab.cog.human.nagoya-u.ac.jp/database/resume/2003-02-04.pdf
78デフォルトの名無しさん
垢版 |
2014/07/06(日) 15:17:27.05ID:Tf6s8TDO
句構造とそれに対応付けられた述語項構造情報を持つ,統語情報と意味情報を統合した日本語ツリーバンク
について述べた.構築した 20,000 文を既存の構文解析器に適用することにより,文節係り受け解析と同程度
の解析精度を持ちつつ,詳細な統語情報を出力できることを確かめた.
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/B5-3.pdf

UML では,オブジェクトを状態機械と考え,その振舞いを状態遷移図で表す.記法としては,基本的に Harelの
Statechart を採用している.たとえば,図 5 は Fowler の本 [2] からとった.図の「動作中」と名前を付けているの
が親状態 (superstate) である.その中に 3 つの子状態があるが,それを隠して 1 つの状態と見なしたものが「動作中」である.
http://tamai-lab.ws.hosei.ac.jp/pub/ss01paper.pdf

つまり、図的メディアは表現している情報の内容概略をまず直観的に把握することができ、その点において文書メディア
と大きく異なる。例えば、多くの図形要素がある方向に整列していれば、順序もしくは流れの意味が瞬時に感じられるが、
同じ意味を表現した文書は通読しなければわからない(図 2.1)。
http://www.image.esys.tsukuba.ac.jp/~murayama/work/ms_thesis.pdf
79デフォルトの名無しさん
垢版 |
2014/07/07(月) 12:36:07.24ID:bhOiadyO
2.2 語彙・構文的言い換え
語彙・構文的言い換えに限っても,純粋に統語論で扱えそうな言い換えか
ら語の詳細な意味に立ち入る必要のある言い換えまで多岐にわたる。こうし
た言い換えは,実現に必要な知識の種類の観点から便宜的に次の4種類に分けられる。
統語的言い換え 個別の語の意味に立ち入らなくても統語論の記述レベルで概ね説明できる言い換え
(3) 最初に合格したのは高橋さんだ ⇔ 高橋さんが最初に合格した
語彙的言い換え 語の同義性だけで概ね説明できる,統語操作を伴わない局所的言い換え
(4) 一層の苦境に陥る恐れがある ⇔ 一層の窮地に陥る可能性がある
語彙構成的言い換え 語の統語的特性と意味的特性に基づいて構成的に説明できると考えられる規則性の高い言い換え
(5) 2 位が先頭との距離を縮めた ⇔ 2位と先頭の距離が縮まった
推論的言い換え 内包的意味が近似的に等価な言い換えのうち,上のどの種類にも当てはまらないもの
(6) 財政再建が急務の課題だ ⇔緊急に財政再建する必要がある
http://paraphrasing.org/~fujita/publications/coauthor/inui-LF-2.pdf
80デフォルトの名無しさん
垢版 |
2014/07/09(水) 09:13:08.64ID:W1L77FJX
イヌ語、イルカ語、サル語を解析するアルゴリズムありますか?
2014/07/09(水) 19:42:55.77ID:k9yY+Ntl
>>80
バウリンガルと同じアプローチで可能
82デフォルトの名無しさん
垢版 |
2014/07/09(水) 20:08:34.07ID:s3czgtxE
たとえばどのようにしたら?
83デフォルトの名無しさん
垢版 |
2014/07/10(木) 11:50:45.70ID:b8e/9c1m
10^5単語
10^3個の単語からなる文章

(10^5)^(10^3)の組み合わせ(テンソル)

全ての組み合わせを予め計算するのは不可能だ
構文が似ている単語は同じ構文を持つと仮定し、確率的に構文解析すればいいのか?
84デフォルトの名無しさん
垢版 |
2014/07/10(木) 14:23:18.66ID:aR1UjDzC
>>83
>10^5単語

固有名詞(住所・氏名など)を一般化し、さらに頻出単語のみに絞る。
85デフォルトの名無しさん
垢版 |
2014/07/10(木) 14:39:03.10ID:b8e/9c1m
>>84
オートマトンでやるからテンソル演算にはならないが、それにしても桁違いだから絞ってどうなる量じゃない。
未知の単語が来た時対応できないし、自分で入力されたことのない文章を構文的に正しいものを推定して組み立てないといけない。
86片山博文MZ悪魔崇拝 ◆T6xkBnTXz7B0
垢版 |
2014/07/18(金) 14:38:59.47ID:XMEHR0Aa
自然言語相手にすべてのケースのテストデータを作成しようとしたら、800MB超えてしまった。。。
愚かだな。
2014/07/18(金) 15:09:02.82ID:D2raAtlG
800MBならまだましでは?
2014/07/19(土) 21:02:40.01ID:mm+kcL5W
まずは、この無限大に近い組み合わせと戦わないといけないのか。
ランダム抽出か、代表値でやってみるか。
89デフォルトの名無しさん
垢版 |
2014/07/22(火) 12:13:33.59ID:E09TR4vO
チンパンジー語解読される
http://wired.jp/2014/07/22/dictionary-of-chimpanzee/
2014/07/23(水) 06:05:31.34ID:cG8Of2p8
日本語のmecab cabochaと同じことを英語でする場合には
どのソフトを使えばいいのでしょうか?
91デフォルトの名無しさん
垢版 |
2014/07/26(土) 22:52:13.10ID:vhGqByQW
Stanford CoreNLPでぐぐってみ
2014/07/27(日) 08:37:51.99ID:b6NTPR2W
>>89
言語構造を見つけたらまた来てくれ
2014/07/29(火) 05:02:08.10ID:lhxkPIlc
>>91
nltk
よりそっちの方がお勧めなんです?
2014/07/30(水) 00:17:55.16ID:yEskz56N
動詞活用と動的パーサーを頑張ってやるぞー!

エイエイオー!
2014/07/30(水) 01:03:45.57ID:yEskz56N
違う違う。そんな文字コードが固定された融通の利かないありきたりの形態素解析ツールの
1ユーザーにとどまるのはイヤだ。もっとオープンでダイナミックに組織化されるシステムでなきゃ。
えっ、大規模機械学習や統計学を否定するの? ひょっとして馬鹿?
96デフォルトの名無しさん
垢版 |
2014/07/30(水) 01:06:51.20ID:yEskz56N
あげ
2014/07/30(水) 14:46:58.32ID:nHLRqrzx
moses-supportやparser-supportでアホな質問ばかりする中国人やアラビア人にも真摯に対応する姿に感心する
2014/07/30(水) 22:44:45.78ID:PuN0tVbh
http://anond.hatelabo.jp/20090330065954
JavaのStanford CoreNLP
より 
pythonのnltk
の方が良いみたいですね
99デフォルトの名無しさん
垢版 |
2014/08/06(水) 18:09:18.10ID:acb72KUN
ところでだ。「チンボがシコシコする」という日本語表現は、文法的に正しいのか?

チンボ「を」シコシコするのではなくて、チンボ「が」シコシコする。この場合、「チンボ」は主語となる。

オブジェクト指向で言う「集約」は2種類あって、全体(俺)と部分(チンボ)が繋がっている場合と、
全体(俺)と部分(チンボ)が別々になっている場合とが考えられる。けれども「チンボ」はそれ自体
が独立した生き物であり、所有者の意思とは無関係に、勃起して「シコシコする」。
例えば寝てる時にエロい夢みて朝起きてみたらチンコが勃起して射精してたとか。

違うか?

「頭がズキズキする」は良いが、「チンボがシコシコする」はダメな理由を、50字以内で述べろ!>>98
100デフォルトの名無しさん
垢版 |
2014/08/29(金) 20:13:29.62ID:pIYD+XWo
1. 辞書の違いによる形態素単位の分割
2. 機能語,複合語などによる文節分割
3. 鍵括弧内の読点による文の分割
4. 鍵括弧による文節分割
5. 機能文節などの特殊な文節による分割
6. 係り先の文節を複数持つか

http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/P3-15.pdf

(1)二格深層格の出現比率はコーパスによって有意な差がある.特に「場所」,「複合辞」,「目的」
における差が顕著である.
(2)定性的に分類された深層格を定量的に見ると頻度において差が顕著であった.特に「対象」(間
接目的語)の頻度が高い.一方,「場所」や「時間」の頻度は全体の割合から見るとさほど高くない.
(3)二格と共起する名詞と動詞と深層格との関係について主成分分析を行った結果,「結果」「複合
辞」「その他」>「副詞」「目的」>「時間」「場所」の順に他の深層格との隔たりが確認された.これに対して,
「対象」「役割」「動作主」「頻度」は共起語においては特性が薄いため,深層格推定にも困難が予想される.
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/P5-3.pdf

今後は、平成 28 年度末を目標として、日本語の書き言葉の文 4 万文に統辞・意味解析情報をタグ付けし
た欅ツリーバンクを完成させる予定である。また、これとは別に、対話データのタグ付けも計画している。
開発したツリーバンクのうち公開可能なものは全て以下のサイトで配布する予定である。

http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/P8-8.pdf
101デフォルトの名無しさん
垢版 |
2014/08/29(金) 21:20:47.93ID:zSOx7Ia5
構文解析って文法的に正しいかどうかしか判断できないんじゃないの?
102デフォルトの名無しさん
垢版 |
2014/08/29(金) 23:25:55.15ID:bwbSKW1s
>>101
>構文解析って文法的に正しいかどうかしか判断できないんじゃないの?

なら、「チンボがシコシコする」という日本語表現は、文法的に正しいのか?
103デフォルトの名無しさん
垢版 |
2014/08/30(土) 02:26:42.95ID:BAPN2lOA
単語と動詞という分類で言えば正しいが、単語としては確率低い組み合わせだろうなぁ
104デフォルトの名無しさん
垢版 |
2014/08/30(土) 09:34:03.26ID:014RRRVX
指示表現と文体―「この」のジャンル別コーパス分析を中心に
https://www1.doshisha.ac.jp/~cjtl210/data1/22_ryuuhyoo.pdf
日本語機能表現の自動検 出と統計的係り受け解析への応用
https://www.jstage.jst.go.jp/article/jnlp1994/14/5/14_5_167/_pdf
文脈の多様性に基づく名詞換言の提案
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/D5-1.pdf
構文構造の処理技術 - 芝浦工業大学
http://www.sic.shibaura-it.ac.jp/~sugimoto/nlps/nlps14-3.pdf
文体から見た『今昔物語集』の語彙 ―『日本語歴史コーパス 平安時代編』と比較して
http://www.ninjal.ac.jp/event/specialists/project-meeting/files/JCLWorkshop_no4_papers/JCLWorkshop_No4_15.pdf
NTCIR MedNLP: 本邦初の医療分野の言語処理コンテスト
http://mednlp.jp/PAPER/2013-jcmi-ntcir.pdf
単語間結合度に基づく複単語表現のアライメントの改善
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/A2-4.pdf
NTCIR MedNLP-2: 医療分野の言語処理
http://must.c.u-tokyo.ac.jp/sigam/sigam05/sigam0512.pdf
述語と項の位置関係ごとの候補比較による日本語述語項構造解析
http://hayashibe.jp/publications/JNLP2014.pdf
「述語構造の意味範疇の普遍性と多様性―理論的および応用的な成果―」
http://www.ninjal.ac.jp/event/specialists/project-meeting/m-2013/20140202-ninjal2014/pdf/008.pdf
検索・分析のための手順文章からの意味構造抽出
http://db-event.jpn.org/deim2014/final/proceedings/C3-2.pdf
コーパスに基づく日本語の文法形式の使用傾向の記述 ―「大きい・な」「小さい・な」の使い分けについて―
http://ir.nul.nagoya-u.ac.jp/jspui/bitstream/2237/19119/1/1306.pdf
大域的な統語情報を用いた単語アラインメントの改善
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/A3-2.pdf
対訳抽出におけるハブの影響
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/B2-2.pdf
105デフォルトの名無しさん
垢版 |
2014/08/30(土) 09:35:42.15ID:014RRRVX
述部意味関係コーパスの構築
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/C4-4.pdf
日本語文章に対する述語項構造アノテーション仕様の考察
https://www.jstage.jst.go.jp/article/jnlp/21/2/21_333/_pdf
機械学習を用いたニ格深層格の自動付与の検討
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/D6-2.pdf
統辞・意味情報を付加した日本語コーパスの構築欅ツリーバンク プロトタイプ について
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/P8-8.pdf
記号化による数学文の理解—線形代数における数学文を中心として—
http://www.seto.nanzan-u.ac.jp/msie/gr-thesis/2013/10se201.pdf
文の意味構成に伴う高次元空間の最適化と単語表現学習
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/D6-3.pdf
用語の属性を考慮した上位,下位概念辞書の構築
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/B6-1.pdf
学校数学における確率を捉える枠組みの一提案
―数学的モデルとしての確率という視点から―
http://www.juen.ac.jp/math/miyakawa/article/2013-ronhatu-ikarashi.pdf
『現代日本語書き言葉均衡コーパス』形態論情報アノテーション支援システムの設計・実装・運用
https://www.jstage.jst.go.jp/article/jnlp/21/2/21_301/_pdf
統語情報と意味情報を統合した日本語句構造ツリーバンクの構築
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/B5-3.pdf
統計的日本語述語項構造解析のための素性設計再考
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/D1-5.pdf
教師あり機械学習による助詞「も」の分析
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/P8-11.pdf
単語出現頻度を考慮した事後確率制約による単語アライメント
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/A3-4.pdf
日本語カルテをアノテートする
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/P5-2.pdf
比喩表現コーパスの構築と問題点-言語学の立場から-
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/P3-2.pdf
106デフォルトの名無しさん
垢版 |
2014/09/08(月) 02:15:18.02ID:P298uFJ/
東大のプロジェクトどうなったのw
もう挫折ですか
107デフォルトの名無しさん
垢版 |
2014/09/08(月) 09:27:57.13ID:m/nJA+ci
>>101
機械的な構文解析のこと?
正しいかどうかじゃなくて、正しいと仮定して解釈することじゃないのかな
意味ある形で分かれてるかどうかは、人が解釈するしかないような気がするけど。
2014/09/08(月) 11:11:27.22ID:p73tUNq8
ひらがな電卓Calc-H ver.0.8.0
http://katahiromz.web.fc2.com/calc-h/

まだまだ頑張るぞ!!!
109デフォルトの名無しさん
垢版 |
2014/09/08(月) 21:00:23.20ID:wT2B4Cec
>>107
いや、コンパイラの構文解析って正しいか間違ってるかしか出力しないじゃん
2014/09/09(火) 01:59:16.85ID:gwS2ebzP
なんでやねん
最低でもツリー構造くらい取るわ
111デフォルトの名無しさん
垢版 |
2014/09/09(火) 08:12:04.96ID:FnHbwOUK
「問題文を読んで題意が理解できない」ってのは、去年の東ロボと共通する点に思える。

教えているうちに気づいたことがあります。それは、数学の問題文を読んでその題意が理解できない子どもが目立って増えた、
ということです。「問題文を読んで題意が理解できない」といっても、いろいろなタイプがあります。
1.?語彙力が不足していて文節と文節のつながりがわからない。
2.?数学特有の言葉、つまり記号や用語の定義が理解できていない。
3.?文章と文章のつながりがわからず、条件がつかめない(演繹的な推論による文法の知識がない)。
4.?文章が長くなると全体像がつかめなくなり、題意の目標が捉えられない(論理的な読解力の不足)。

『読解力を強くする算数練習帳』著:佐藤恒雄
「数学とは、何のために勉強するんだ」と悩んでいる人へ
http://gendai.ismedia.jp/articles/-/37357
112デフォルトの名無しさん
垢版 |
2014/09/11(木) 17:25:16.70ID:sSttSQlP
自然言語は社会性を表現できないとダメだろう

オートマトンの集団がいて
それぞれが他のオートマトンと自然言語でのみ通信できる
任意のオートマトンは、自分以外のオートマトンの社会的な状態を知っているか推測できる
113デフォルトの名無しさん
垢版 |
2014/09/12(金) 11:01:38.13ID:E5d9ulLz
子供は指差しで覚える
http://development.kt.fc2.com/point.html
2014/09/12(金) 13:53:52.51ID:6MLnTCJT
http://livedoor.blogimg.jp/dfdgg/imgs/b/a/ba89783c.jpg

http://livedoor.blogimg.jp/dfdgg/imgs/2/5/251eed64.jpg

http://livedoor.blogimg.jp/dfdgg/imgs/1/8/1812a8fa.jpg

http://livedoor.blogimg.jp/dfdgg/imgs/3/0/301bcf4f.jpg

http://livedoor.blogimg.jp/dfdgg/imgs/a/e/ae860fd3.jpg

http://livedoor.blogimg.jp/dfdgg/imgs/d/4/d49c5e51.jpg
115片山博文MZ次期CEO ◆T6xkBnTXz7B0
垢版 |
2014/10/11(土) 00:07:21.76ID:bs/sFubV
学習ありの字句解析の上に動的パーサーを乗せれば最強
116デフォルトの名無しさん
垢版 |
2014/10/13(月) 21:41:40.39ID:8+60HAaA
機械は人間と同じように現実世界を認識したり、また人間と同じように来るべき状況を推論することはできない。
けれども人力で「擬似状況シミュレータ」と「注釈付きコーパス」を充実させれば、試験問題の回答率は向上する。
例えば「マクドナルドのハンバーガーを買う」というフレーム問題は、試験の範囲内ということで人力インプット。
マクドナルドは企業・店屋で、ハンバーガーは商品・食べ物、そして「買う」については、所持金と支払い金額
とお釣りはいくらかという、試験の範囲内だけで連想する。数学や物理に関してはパターンがある程度決まっており、
入試の範囲内にのみ対応させればいい。但し言語解釈が正しくできないと、同じ問題は解けても類似の問題は解けない。
朝三暮四になっていないか、一つの問題を様々な角度から理解させたり、表現や設定を変えて類題を作ってみる。

>もし台車を動かしても,天井は落ちてこない.
>もし台車を動かしても,部屋の壁の色はかわらない.
>もし台車を動かしても,部屋の電気は消えない.
>もし台車を動かしても,壁に穴があいたりしない.

考えられる全ての可能性を、人力でインプットする。例えば台車を動かしたときに停電が起これば、部屋の電気は消える。
2014/10/15(水) 07:18:38.39ID:beWphTMz
問題に出てきたものだけ考えればいいんじゃないの?
台車が斜面を動く問題で衛星の軌道や壁の色なんてのは考えなくて良い。その上で天井や床は動かないとか、台車が斜面にめり込むことはないとかだけを考えればフレーム問題は抑えられる。
2014/10/15(水) 11:31:02.58ID:hrBmyTxM
デネット フレーム問題 でググれ
2014/10/15(水) 15:22:08.72ID:beWphTMz
10個も同時に物体が出てこないんだし全ての組み合わせを考えても10!で3628800、十分に時間内に解答可能。
2014/10/15(水) 16:35:37.73ID:beWphTMz
トチ狂ってたわ。10!も無い。2^10しか無いから尚更速い。
121デフォルトの名無しさん
垢版 |
2014/10/17(金) 16:43:02.23ID:724m77ZA
@noricoco さんの最後のお話はいわゆる東ロボ、東大入試を突破する人工知能プロジェクトについての記念講演だったのだが、
中身は数学基礎論をいかに実世界に接地するのか、という極めて意欲的・現実的なお話であった。論理だけでは解けない問題
を経験的に解く。しかも、それは単なるパターンマッチではなく、コンピュータ将棋の初期の開発で評価関数をヒューリスティック
に設計していたように、入試問題に合わせて作り込む、というものである。かといって80年代に逆戻りする、というわけではなく、
「この問題は数学的にどのクラスの問題(たとえば集合論)なのか」「高校数学の範囲内で解を求めようとすると、どうなるか」
といったようなことを記述するのである。
自分も学部生時代は数学基礎論をかじったことがあり、それこそが哲学ではなく言語学、そして自然言語処理へと専門を変えて
いく理由となったのだが、このようなプログラムがその当時あって、自分が参画できるのであれば、哲学の立場のまま哲学を現実
世界に基礎付ける、という方向に挑戦していたかもしれない。東ロボプロジェクト全体に関しては、あまり重要な問題を解いている
わけではないと半ば距離を置いて見ていたが、少なくとも数学に関しては、とても野心的な試みであり、数学の問題が解けるよう
になるだけでも、このプロジェクトは人類にとって大いに意味のある試みなのではなかろうか。
http://d.hatena.ne.jp/mamoruk/20141004/p1
122デフォルトの名無しさん
垢版 |
2014/10/17(金) 21:14:01.02ID:UIYNCvLu
すっかり聞かなくなったけどとうロボどうなったの
123デフォルトの名無しさん
垢版 |
2014/10/17(金) 23:45:31.75ID:mnwHFJbg
664 :デフォルトの名無しさん:2009/02/20(金) 20:42:25.00
大辞林
日本語「国語+百科」大辞典の最高峰、「スーパー大辞林3.0」のoneswing仕様版。
「現代語義優先方式」にもとづく解説で知りたいことがすぐ分かる。  
実際に使われている意味を懇切丁寧に解説し揺れ動く日本語の現在を映し出す
25万2千語を収録。本製品では、百科的要素として動植物のカラー写真約1,000点
様々なモノクロ線画約2,000点および鳥虫の鳴き声の音声約270点を収録。
日本語のアクセントが表示されているほか、注意が必要な約1,000語には音声を付与しており耳で確認することが可能。
さらに、近代の作品から採録した豊富な用例ほか同音語や類義語の使い分け誤用などの解説も充実。
http://jp.fujitsu.com/group/personal/services/jisho/kaiset95.html

>25万2千語を収録

ではその25万2千語全ての単語について、百万冊の書籍をスパコン「京」で形態素解析し、
さらにコンピュータの「誤読」と「理解不能表現」を分析抽出し、これらを「人力で修正」し、
「属性フレーム」と「意味ネットワーク」と「RDFトリプル」を作成というわけにはいきませんか。
コンピュータには何が理解できて何が理解できないのかも、ここではっきりさせられませんか。

 そして次に、ワトソンの「誤答」はワトソンが自然言語を理解していないことを示している。アメリカの都市名を
問う質問に対して、カナダの都市名を答えたというのだ。そのときには失笑が起こったという。これは知識の誤り
ではない。問題文の文意自体を理解していないから起こることだ。開発途中では、ファーストレディーの名を問
われているのに大統領の名を答えるといった間違いも起こしているらしい。
http://d.hatena.ne.jp/r-hiragi/20130218/1361158109

あるいは現在の技術では、未だにコンピュータの「誤読」と「理解不能表現」が多すぎて無理なのですか。
けれどもそれなら2チャンネラー百万人を動員して、人力でオントロジー作成という手もあると思われますが。
124デフォルトの名無しさん
垢版 |
2014/10/17(金) 23:51:06.28ID:Lz6GLdVj
>2チャンネラー百万人を動員して、人力でオントロジー作成

一般にコーパスアノテーションは複数の作業者により実施され,異論があるにせよ
アノテーションの一貫性がほぼ唯一の定量的な評価方針となる。このため,
基準の修正はアノテーション従事者全てで共有する必要がある。作業者の多くは
人文系の日雇いもしくは時間単価で働くパート労働者であり,基準の見直しの
たびに動機づけを含めた組織運営が必要になる.
https://www.jstage.jst.go.jp/article/jnlp/21/2/21_95/_pdf
125デフォルトの名無しさん
垢版 |
2014/10/23(木) 13:59:17.26ID:H9x7O/fU
PAS-NNLM のモデルとしての表現力 SVO に関しては, 本実験では PAS-NNLM の学習後のモデルを用
いた ‘PAS-NNLM comp’ により, ‘PAS-NNLM add’よりも高い相関係数 (0.42) を得た. これは Tsubaki
ら [10] の C-NLM による結果 (0.38) を上回るものである. この C-NLM は, 動詞と目的語のペアのみに着目
して NNLM を学習するモデルである. しかし, 同じくTsubaki ら [10] の CoC-NLM による相関係数 (0.47)
には及ばなかった. CoC-NLM の優れている点は, 一種の語義曖昧性解消の手法を, 動詞-目的語の組み合わせ
の意味構成に取り入れたことである. また, Kartsaklisと Sadrzadeh [7] も, 単語からの意味構成の前に語義
曖昧性の解消を行うことの重要性を示している. 本研究の PAS-NNLM では, 品詞の情報は用いているものの,
その他の明示的な語義曖昧性の解消を行っていない. より文脈に依存した語義曖昧性解消の手法を取り
入れることにより, さらなる性能向上が考えられる.
http://www.logos.t.u-tokyo.ac.jp/~hassy/publications/nlp2014/paper.pdf

言語学における語彙意味論の立場からすれば,その名詞の意味構造に記載すべき内容は語を成立させる最低限の要素に
限るというのが基本的な立場であろう.これは本研究の枠組みでいうならば情報抽出システムをソフトウェアと捉えた場合,
システム辞書が持つ基本オブジェクトデータと捉えることが出来る.つまり,評判やその診療所 (インスタンス) に関する人
からみた認識などは,既存のオブジェクトデータに対して動的に加えられた属性項目と考えられる.人の言語表現はまさに発
話者の認識において,抽象的に聞き手と共有するオブジェクトに対して個別の情報を加えることで新たな情報を提供している
と捉えるならば,こうした名詞意味構造の属性の拡張は取り込むべき機能であり,ソフトウェアにおけるオブジェクト指向の
枠組み?6で情報抽出システムを構成していく必要がある.
https://kaigi.org/jsai/webprogram/2014/pdf/679.pdf
2014/10/23(木) 20:25:59.88ID:FP/Pp1Ki
【技術】ロボットは東京大学の入試に合格できるか? 「東ロボくん」、猛勉強で私大A判定も [10/23]
http://daily.2ch.net/test/read.cgi/newsplus/1414063059/
127デフォルトの名無しさん
垢版 |
2014/10/29(水) 15:23:53.31ID:WOXCtObY
翻訳って不可逆変換された後のデータから、別の不可逆変換された後のデータにいきなり変換しようとしてるから困難なんだよね。
いわばjpgからjpg2000にraw画像に戻さずに変換しようとしてる
2014/10/29(水) 17:53:35.79ID:TaY3Bs2I
超解像みたいな
2014/10/29(水) 19:15:45.42ID:N8JvcROE
読み・書き・聞き取りの最強の日本語コーパス「三位一体」
プロジェクトを開始しました。
ご期待下さい。
2014/10/29(水) 23:38:27.55ID:zlK0g2wj
raw画像に戻すってのは、
中間言語式の翻訳のこと?
131デフォルトの名無しさん
垢版 |
2014/10/30(木) 00:55:36.93ID:iSxCzdRK
1pixごとの完全に元のデータ

自然言語の場合で言うなら、必ずしも言語である必要もないと思う
132デフォルトの名無しさん
垢版 |
2014/10/30(木) 01:56:04.20ID:jdjv0M6/
鏡に映るものを計る、それがMZの目標である。
133 【東電 74.8 %】
垢版 |
2014/10/30(木) 12:36:21.88ID:VubmAqci
>>125
また、そんなことばっか言うて!キミはいい加減にしたまえ。ボクはキミをあまり知らない。もう面倒くさいったらありゃしゃんせ


神戸市の東、芦屋西宮の知的障害者施設で未成年利用者に性的な行為をして淫行条例で逮捕された三田谷学園元職員の堂垣直人(西宮市老松町)は、結局どういう罪になったの?
被害者家族のケアを芦屋市役所と兵庫県警はちゃんとやったのか?
差別や虐待は環境を選べない子供には関係ない。

http://www.youtube.com/watch?v=JxMzW3ZlV4g&;sns=em


執行猶予終了までまだあるよ。
134デフォルトの名無しさん
垢版 |
2014/10/31(金) 16:05:31.03ID:0ns/rhdq
【科学】人工知能「東ロボくん」、センター模試英語で平均点超え 全体成績は私大8割と国公立4校でA判定 21年度までの東大合格目標??2ch.net
http://daily.2ch.net/test/read.cgi/newsplus/1414724624/
2014/11/01(土) 11:21:29.62ID:m4AuzDYU
えつ!
136デフォルトの名無しさん
垢版 |
2014/11/03(月) 08:11:18.01ID:tokfpTJi
代ゼミ物理問題のイラスト。

http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/a/8/a8fbf865.jpg
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/3/b/3b63acc4.jpg
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/3/b/3b65850a.jpg
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/2/8/28b52d74.jpg

@やAは無理でも、Cの図なら「四角い箱」「四角い物体」くらいの大雑把な認識をする。
それは「弁当箱」かもそれないし、「本」かもしれないし、「小包」かもしれない。
次にBの図ろ考えると、点線が途中までになっていて、「何かが入っている箱」と考えられる。
文章では、「板」と「水」を入れて「板は沈める」ということになっている。
けれども「板」といってもそれは物理的に何の役割を果たすのかも考えなければならない。
137デフォルトの名無しさん
垢版 |
2014/11/03(月) 08:35:06.90ID:gGej6kOp
(1)今年は3パーセント物価が上昇し、来年は5パーセント物価が上昇するという。平均の予想物価上昇率はいくつか。
(2)今年は3パーセント物価が上昇するという人と、5パーセント上昇するという人がいる。平均の予想物価上昇率はいくつか。
<ロボットは東大に入れるか 新井紀子>

「今年は〜」
@ 西暦○年度(現在)2)
A 去年は、来年は、○年前は、○年後は〜(1)
B うるう年だ

「物価が上昇」
@ どの月間に、どの年間に(1)、何%の割合か(1)(2)
A 品目別には〜、○円上昇、○円下落

「〜という人」
@ 〜という名前の人間が居る(人間A、人間B)
A 人間Aは○○と述べた、人間Bは△△と述べた(2)

機械には連想思考は期待できない以上、徹頭徹尾人力でインプットあるのみ。
138デフォルトの名無しさん
垢版 |
2014/11/03(月) 09:22:18.89ID:tokfpTJi
>公式に当てはめる単純なタイプの問題には対応できますが、図形の性質に着目するような応用タイプの問題にはまだ対応できないようです。

「方べきの定理」という公式にあてはめるだけの問題も、図形がらみだと機械には理解できないらしい。
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/f/d/fd1497d7.jpg

余計な部分を消せば、「円に交わる(または接する)、平行ではない2本の直線」と、数式化できる。
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/0/c/0cdeedcc.jpg

図形の性質に着目するような応用タイプの問題は、余計な部分を消して、公式に当てはめる単純なタイプの問題に帰着させること。
設定が複雑になったら、「○本の直線と、○個の円と、○個の三角形と、○箇所の接点と、○箇所の交点」をバラバラに抽出し、しかる後に全ての組み合わせを提示する。
139デフォルトの名無しさん
垢版 |
2014/11/03(月) 11:07:24.52ID:gGej6kOp
今回も出来の悪かった数列について。

b1 = 1 , bn+1 = bn + 3 → 階差数列 Cn = bn+1 - bn を考える

東ロボは、こんな程度の初歩的な連想ゲームも出来なかった。式の同値変形は東ロボの得意技であり、
bn+1 - bn = 3  と変形できれば簡単ではなかろうか。同様に 3bn+1 = 3bn + 4 → bn+1 = bn + 4/3 
→ bn+1 - bn = 4/3 も可能なはずだ。それから式の同値変形の手順も教え込んでおきたい。
140デフォルトの名無しさん
垢版 |
2014/11/03(月) 11:29:13.15ID:gGej6kOp
物理の第三問は、「段差を作った容器に浅く水をはる」「斜め方向に一定周期の平面羽を入射させる」の文から、以下のような類題を検索できないだろうか。

図1のような深さが変化する水槽に水を入れ図2のように深さが変わる境界面に対して、45°の方向から斜めに平面波を進行させたところ、
http://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q12119401572
141デフォルトの名無しさん
垢版 |
2014/11/03(月) 18:22:59.01ID:tokfpTJi
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/f/1/f1f74737.jpg

 ブルーベリーがのったデコレーションケーキ(のイラスト)なんて、おそらく多くの
人が生まれて初めて見るものでしょうね。なのに、われわれはそれがそうだと、正し
くわかる。どうしてなのでしょうか。これは認知科学という分野の難問のひとつです。
 だいたい、このイラスト、変なんです。ブルーベリーの直径って1センチ未満ですよ。
だとすると、このケーキ、直径が12センチくらいしかないことになる。そんなの、
おかしいでしょう?(笑)にもかかわらず、その年のセンター入試を受けた受験生たち
は誰一人としてそれを変だと思わず、粛々と問題を解いたんですね。
 ちなみに私の職場で、ケーキにプチトマトがのってるね、と言ったひとがいますね(笑)。
<ロボットは東大に入れるか 新井紀子>

>ケーキにプチトマトがのってるね、

楕円形の周上に、白っぽい不定形の何かと、黒っぽい円形の何かが、交互に並んでいる。
但しこの図を立体として観察すると、楕円形は円形を現しており、また黒っぽい円形の何かの中心部が白くなっているのは球形と推測される。
142デフォルトの名無しさん
垢版 |
2014/11/03(月) 19:01:37.56ID:ieVOoQg9
東ロボくんって画像処理系の人ほとんどいないでしょ
143デフォルトの名無しさん
垢版 |
2014/11/03(月) 23:09:51.81ID:tokfpTJi
初頭幾何は、不要な線を消して、必要な線だけにしないと、定理が使えない。

元の図形
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/3/a/3aaa1e5f.jpg
単純化して、2QT=QR
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/0/1/01eaff32.jpg

線分QTと線分QRの関係を求めるのに、どの線が必要で、どの線が不要なのか。
また必要な線が無い場合は、点と点同士を結んだり線分を延長させたりして、補助線を引く。
計算力にモノを言わせて、しらみつぶしに全ての場合を調べつくすというやり方もある。

正九角形があり辺を共有しない三角形はいくつあるか。という問題があり、答えは30らしいです。なぜこうなるのでしょうか?
http://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q10114300645

全ての場合をしらみつぶしに数え上げるアルゴリズムは可能ですか?
144デフォルトの名無しさん
垢版 |
2014/11/04(火) 00:06:26.26ID:LJyHsHlb
組み合わせ最適化だろ
オーダーくらい自分で考えろよ
145デフォルトの名無しさん
垢版 |
2014/11/04(火) 02:08:02.45ID:Td6UKxL3
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/5/8/589fbe91.jpg

全滅だった表問題だが、このくらいならエクセル処理できるのではないか。
146デフォルトの名無しさん
垢版 |
2014/11/04(火) 10:46:33.52ID:Td6UKxL3
イラスト理解は、とりあえず形状と色彩だけを、「遠近法」で大雑把に捉えて推定するくらいの機能を。

>ケーキにプチトマトがのってるね、

ケーキだのクリームだのブルーベリーだのは特定できなくてもいい。まず「形状」は、手書きの文字認識機能
は向上しているのだから、その技術を応用すればいい。また「色彩」は白黒でも遠近法が把握できるように工夫する。
楕円形の周上に、白っぽい不定形の何かと、黒っぽい円形の何かが、交互に並んでいる。但しこの図を立体
として観察すると、まず何かの土台があって、上部の楕円形は円形を現しており、また黒っぽい円形の何かの
中心部が白くなっているのは球形と推測される。
147デフォルトの名無しさん
垢版 |
2014/11/04(火) 11:14:12.09ID:Td6UKxL3
>>116
>朝三暮四になっていないか、一つの問題を様々な角度から理解させたり、表現や設定を変えて類題を作ってみる。

私の講座のテキストで恐縮ですが、コチラの2問をご覧ください。
一見すると、「お菓子を配る問題」「直方体を積み上げる問題」と別の問題に見えます。
しかし、解いてもらえるとわかりますが、この2問は素因数分解を使って解く、
同じパターンの問題です。つまり類題ってことになりますね。
さらに、(細かい説明は解説に任せますが)2つの問題とも「2以上」という語句が共通しており、
この「2以上」が解法の方針を示してくれる重要な語句だということがわかります。
これより類題とは、問題文の重要語句が共通している問題を指すことがわかります。
したがって、皆さんが類題を認識するためには、問題文の重要ポイントを意識しない
といけないんだっていうことがわかりますね?
http://shibasaki873.blog.fc2.com/blog-entry-74.html
148デフォルトの名無しさん
垢版 |
2014/11/04(火) 11:49:28.30ID:Td6UKxL3
>日本語の形式表現変換については,物理科目では極めて困難で,

>余計な部分を消せば、「円に交わる(または接する)、平行ではない2本の直線」と、数式化できる。

そもそも自然言語というのは、単語ひとつとっても『不要な情報』で溢れ返っている。例えば『板』という単語の用途は様々で、
物理学的にみれば「剛体」にもなりうるし「物体」にもなりえるし「障害物」にもなりえる。東大の二次試験などは分野が複数
にまたがっていて一層わかりにくい。自然言語文を題意に合わせた形式表現変換するには、膨大な連想シソーラス網から、
必要な部分だけを切り出すこと。
他の煩雑かつ不要な情報を完全に除外し「重要ポイント」のみを抽出する。入試問題の多くは過去問の焼き直しだが、
表面上の言い回しを変えていたり、別の図柄を用いていたりして、改題して出題される場合が多い。似た問題は出るが
同じ問題は出ない。単純な問題に不要な情報を追加してわざとわかりにくくしているのだ。こういう場合は「類型問題」
の候補をいくつか挙げて、共通事項を抽出するというアルゴリズムが不可欠になってくる。
149デフォルトの名無しさん
垢版 |
2014/11/05(水) 13:11:11.01ID:TFchYdUt
ていうかどうしたいのかね。
画像処理では物体認識と、座標位置は取得できけど。
150デフォルトの名無しさん
垢版 |
2014/11/06(木) 07:15:21.52ID:1dD9kBwW
http://blog.livedoor.jp/dg_law/archives/52234923.html

>日本語の形式表現変換については,物理科目では極めて困難で,数学のような半自動化さえ難しい。
>日本語が曖昧すぎるため。たとえば「金属を折り曲げる」や「滑らかな坂」を東ロボくんが自力で理解して,
>シミュレーターに取り込むのは,少なくとも現状では絶対に無理。

こういうのは、物理用の形式表現変換コーパスを用意しておきたい。

>金属を折り曲げる

長方形のABCDがある。金属板は一様で、質量はM。金属板をEFとGHでそれぞれ直角に折り曲げて、
水平な床に置きCDの中点Iから軽い糸でおもりをつるす。おもりの質量がある値より大きいと金属板は倒れてしまう
mはどのような値になるか?
http://okwave.jp/qa/q7197628.html

この類題に、「金属板」=「金属でできた板」とアノテーションをつけておけば、「金属を折り曲げる」にも応用できる。
また金属を折り曲げると、支点とモーメントはどうなるかという連想思考も可能になる。

>滑らかな坂

したがって滑らかな坂を転がる質点は運動の方向が斜面の形状によって変わろうとも力学的エネルギーの保存は成り立っている。
http://www.ep.sci.hokudai.ac.jp/~heki/pdf/mechanics5.pdf

全ての文章を完璧に形式表現変換できなくても、過去問の解法パターンからある程度の推論はできる。
入力予測機能を備えた文字変換システムのように、解法予測機能をつける。
151デフォルトの名無しさん
垢版 |
2014/11/06(木) 13:15:54.06ID:1dD9kBwW
http://www.ep.sci.hokudai.ac.jp/~heki/pdf/mechanics5.pdf

>なめらかな面に束縛された質点の運動。

これをどうやってコンピューターに理解させるか、どう形式変換するか。

mv2/2(運動エネルギー) + mgh(位置エネルギー) = 一定、となる物理現象とでも定義しようか。
滑らかな面は不定曲線でもいいということで。これなら風が吹いたり電磁気が出たりで別のエネルギー加減
が生じない限り、公式当てはめで楽に解答できる。
同じ内容の物理現象を、別の言葉で言い換えたり、別のイラスト図で書き換えたりして、形式変換コーパスを増やす。
2014/11/06(木) 14:50:01.57ID:1dD9kBwW
数学TAの第5問「104を素因数分解すると〜」ができなかったのは何故かを数学担当者に聞いてみた。
いくら東ロボが語学オンチでも、これはないだろう、と。

http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/3/0/301029f2.jpg

前文の「104以下の自然数で,104と互いに素である自然数の個数を求めよう。」に目がくらんで解答できなかったらしい。
余計なノイズ(最初の問いでは)が判断を狂わせたのだ。何がノイズかは、文章の一部を何百回もランダムに抜き出して吟味するしかない。
長文は一文一文を分解して(省略語を補い、かつ「それ」「これ」などの代名詞の内容は明確にした上で)、
例えば一つの大問に10の文章があったら、その中からランダムに一つ(10通り)、ランダムに2つ(10×9÷2=45通り)、
ランダムに3つ(10・9・8÷3・2)・・・というふうに挙げてみる。また一つの文を文節に区切ったり、短い文に書き換えたり、
省略語を補ったり、ランダムにいくつかの文節を切り取ってみたりして、小問ごとに必要な要素だけを抽出する。

http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/8/f/8f23e42b.jpg

数列もからっきしだった。これの最初の問いは、ある条件での等比数列の一般項を求めるというごく初歩的な問い。

いったんノイズを消去して、a2 = 24 , a5 = 192 から r^3 = 8
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/5/6/56b247f8.jpg
あとから復活させて、公比は実数だから r = 2 よって
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/2/8/28b927d8.jpg
公比=2、かつ a2 = 24 より 初項a1 = 12 、よって数列{an}の一般項は an = 12(2)^(n-1)
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/c/3/c3506aa2.jpg

あとは東ロボくんお得意の「同値変形」で楽勝のはず。
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。