自然言語処理スレッド　その４

**デフォルトの名無しさん** · 2014/06/03(火) 05:40:00.54

前前スレ　自然言語処理スレッド　その２
http://mimizun.com/log/2ch/tech/1173105287/
前スレ　自然言語処理スレッド　その３
http://mimizun.com/log/2ch/tech/1235129481/

このスレッドでは、日本語の構文解析、談話理解、情報検索、
文章生成などの技術に関する理論と(おもに)実装を扱います。
あくまでアプリケーションプログラミングの技術的な面に重点をおきたいので、
学術的な話はアリですが、いわゆる人工無能や哲学的AI話、
言語学の話題などは他のスレッドでお願いします。

**デフォルトの名無しさん** · 2015/04/05(日) 08:15:51.92

タグ除去すらできないって（笑）

**デフォルトの名無しさん** · 2015/04/06(月) 11:50:16.79

まぁ、地味にうちのi5マシンでも
英語版Wikipediaデータのコンバータ使ったら、5日かかったからな。
SQLのINSERT外して、タグ除去ってやり方なら一瞬だけど、
XMLに変換して、綺麗に構造的に展開していくタイプのツールだと、とんでもない時間かかる。

**デフォルトの名無しさん** · 2015/04/06(月) 15:48:02.41

なんでそれを早く用意しなかった

**デフォルトの名無しさん** · 2015/04/20(月) 14:39:42.43

Wikipedia のdumpをapache solrに入れて検索してるんだけど
遅すぎる
どうやったらgoogleの半分の速度でいいから高速検索できるんだ

**デフォルトの名無しさん** · 2015/04/20(月) 15:47:41.04

つelasticsearch

**デフォルトの名無しさん** · 2015/04/21(火) 07:29:39.62

東ロボが「図とグラフの把握」をクリアするころには、連想型アニメイラスト作成支援ツールが普及して、
漫画家はアシスタントを雇う必要が無くなっているに違いない。イラストの大半は既存のオブジェクト
の組み合わせで、それとこれとはどんな繋がりがあるのかが理解できればいい。

**デフォルトの名無しさん** · 2015/04/22(水) 10:52:46.25

また東ロボの話か

**デフォルトの名無しさん** · 2015/04/27(月) 18:01:44.51

質問「ロボットはジグソーパズルを解けるか」

**デフォルトの名無しさん** · 2015/05/07(木) 18:56:37.96

自然言語理解＝単語と助詞の連想ゲーム。例えば「象はバナナを食べる」はOKだが、
「バナナは象を食べる」は×。このように現実に有り得ない組合せは、予め削除しておく。
嘉門達夫の「あったら怖いセレナーデ」を、一億通り作成しておきたい。

**デフォルトの名無しさん** · 2015/05/15(金) 16:53:00.42

日本語の語彙的換言知識の質的評価
https://dl.dropboxusercontent.com/u/2152477/arc/14/14NLC-kajiwara.pdf
日本語の語彙平易化システムの構築
https://dl.dropboxusercontent.com/u/2152477/arc/15/15IPSJ-kajiwara.pdf
高専関連報道記事を活用した活動情報の獲得と分析

https://dl.dropboxusercontent.com/u/2152477/arc/15/15NLP-konishi.pdf
高次脳機能障害スクリーニング検査支援ツールの開発

https://dl.dropboxusercontent.com/u/2152477/arc/15/15NLP-yamamoto.pdf
日本語の語彙平易化評価セットの構築

https://dl.dropboxusercontent.com/u/2152477/arc/15/15NLP-kajiwara.pdf
評判分析における品詞情報と意味類型情報の有効性比較

https://dl.dropboxusercontent.com/u/2152477/arc/15/15NLP-okada.pdf

**デフォルトの名無しさん** · 2015/06/11(木) 16:58:19.47

ボトムアップな言い換え事例収集
ある範囲のテキストをとことん言い換える (内省)
　l 仮説: 100人集めればある程度の網羅性を担保できる
　l パイロット作業
n BCCWJから言い換え元の文をサンプル
n ひたすら言い換え →150事例/5時間(ペースはほぼ一定)
　l trivial なものも結構含む
　l minimal pair となる負例は別途要作成
l 宮尾さん「人間の限界はたかがしれている」
http://paraphrasing.org/~fujita/publications/fujita-NLP2015WS-slides.pdf

**デフォルトの名無しさん** · 2015/06/13(土) 10:59:18.21

才能の無い人の思い付きほど邪魔なものはない

**デフォルトの名無しさん** · 2015/06/20(土) 06:18:33.41

2.1 述語項構造に基づく共起関係のモデル化
述語項構造は, 述語とその任意個の項の関係を記述するものである. 例えば,
HPSG に基づく構文解析器 Enju によると, 以下の文

An importer might be able to make payment in his own domestic currency.

に関して表 1 のような述語と項の関係が得られる.Enju における述語項構造では,
動詞だけでなく任意の単語が述語として扱われる. 表 1 では, 主語と目的語に対応する
名詞句を項とする他動詞 make に加え,動詞句の付加部を構成する前置詞 in も述語
として扱われている. これにより, 様々な種類の述語を介して句と句の関係が記述される.

http://www.logos.t.u-tokyo.ac.jp/~hassy/publications/nlp2015/paper.pdf

**デフォルトの名無しさん** · 2015/06/20(土) 07:25:49.31

3.1 よく知られている単語の抽出
スクリーニング検査の被験者は，一般的に高齢者が多く，「三単語復唱」で用いる単語には新造語や流行語
は適切ではない．これに対し，童話や童謡は，対象が幼児，児童である故に，そこに出現する単語の多くは，
あらゆる年代の人間に親しみ深く，非常に認知度が高い．そこで，本研究では童話や童謡歌詞を題材とし，
それらに出現頻度の高い名詞を抽出して，「三単語」の候補とすることにした．
本研究では，日本の童話 210 編，童謡 90 曲1をコーパスとして用い，そこから，出現頻度の高い名詞を自
動抽出した．抽出された名詞を日本語語彙大系2の一般名詞意味属性体系に準拠させて「食べ物」，「乗り物」，
「植物」，「動物」，「建築物」，「日用品」，「スポーツ」，「空想物」の 8 つのカテゴリに分類して格納する．
これら 8 つのカテゴリは，互いに意味属性体系上の包含関係が生じないように定めた．この作業の終了後，
「三単語」に適さないと思われる名詞を手動で削除し，さらに，各カテゴリに，適切と思われる名詞を適量ずつ追加した．
http://www.anlp.jp/proceedings/annual_meeting/2015/pdf_dir/B4-4.pdf

**デフォルトの名無しさん** · 2015/06/20(土) 08:37:02.94

言語処理部とシミュレータ部を組み合わせることで、「場合の数・確率」の文章題に自動で解答する
システムを開発中であるが、現状では正答率は低い。シミュレータ部では、多くの問題タイプに対応
できるようにして、より汎用的なプログラムにする必要がある。言語処理部では、問題文を変換する
パターンを増やしていき、変換可能率をあげるとともに、オブジェクトが玉でないものにも対応する必要がある。

数学確率文章題の自動解答システムの開発

http://www.anlp.jp/proceedings/annual_meeting/2015/pdf_dir/B2-3.pdf

これができるようになれば、東ロボは東大理３入ってるだろう。

**デフォルトの名無しさん** · 2015/06/20(土) 12:11:28.08

文章中の数箇所をワイルドカードで置き換えることによって
表現されるいわゆる文章テンプレートは, 自然言語生成の分野
で使われ, また, ワイルドカードに入る語を見ることで関係抽
出にも使われる. 次々に新しいテンプレートを増やす必要があ
る場合, 人手でテンプレートを作る作業は高コストであり自動
的にテンプレートを抽出する必要がある.
http://www.anlp.jp/proceedings/annual_meeting/2015/pdf_dir/D1-2.pdf

**デフォルトの名無しさん** · 2015/06/21(日) 00:51:58.71

>>302
Apache solarより
Indriというデータベースの方が良いと聞いた

**デフォルトの名無しさん** · 2015/06/21(日) 00:53:04.18

>>304
の間違い

**デフォルトの名無しさん** · 2015/06/22(月) 11:16:04.74

本稿では，マンガ作品において重要な要素である登場人物の顔領域検出について，
学習サンプルの違いによる検出率の変化を検討する．マンガの登場人物の顔領域は
現実の顔画像と比較して，個々の特徴変化が大きい傾向にある．
そこで，顔検出器の学習に，特定の登場人物の顔画像のみを使用した場合と，
複数の登場人物の顔画像を使用した場合について，検出率の比較を行った．

http://www.ams.giti.waseda.ac.jp/pdf-files/2015IEICE_D_12_31_yanagisawa.pdf

**デフォルトの名無しさん** · 2015/06/22(月) 13:30:11.67

東ロボは別のスレたてろ

**デフォルトの名無しさん** · 2015/06/22(月) 20:47:32.82

全国大会とかゴミだから邪魔

**デフォルトの名無しさん** · 2015/06/23(火) 07:28:27.73

4. アノテーション作業と問題点
「たら」「れば」「なら（ば）」の３つの条件表現アノテーション作業はガイドライン設計
者 2 名で行った。それぞれの表現について、多くの文章の中から該当の表現が出現
する部分を抜き出し、その用法がどのカテゴリに属するかを、テストをもとに判断した。
アノテーションの件数は「たら」「れば」「なら（ば）」それぞれ 200 件ずつ、計 600 件行った
アノテーションを行う中で、以下のような例に対するアノテーションが問題となった。
https://www.ninjal.ac.jp/event/specialists/project-meeting/files/JCLWorkshop_no7_papers/JCLWorkshop_No.7_10.pdf

　実験の結果から, 全体的に「対象」の役割をもつヲ格名詞句に焦点が置かれる傾向があるが,
段階的に「対象」から「到達点」あるいは「道具」へ焦点が移っているということがわかった. 焦点
が置かれるところが類似している動詞は, 意味内容も似通っていることが明らかになったといえる.
　日本語の使役空間移動動詞には, 「－が－に－を動詞」の型と「－が－で－を動詞」型があるが,
どちらの型もとれる動詞もある. その場合,対象がヲ格で示され, ニ格で到達点が示された動詞は,
そのニ格がヲ格となって中身よりも容器のほうに焦点が置かれ, ヲ格の対象物はデ格で表されることになる.
　これらの動詞について, 対象物・到達点・容器・道具を示すと考えられる名詞句のどこに焦点が置かれ,
それを話題として取り上げるか, その傾向を調べたのであるが, 全体的にはヲ格名詞句に焦点が置か
れる傾向があることが明らかになった.
http://www.jcss.gr.jp/themes/jcss2014/meetings/JCSS2014/proceedings/pdf/JCSS2014_P1-27.pdf

辞典類にあって、「し」の用法としては、〈並列〉と〈原因理由〉とは立項されるが、〈果〉は立てられていない。
たしかに、、〈34）の例は〈果〉を示しているが注意しておくべきは「だから」の語が直前にあるように、
そうした接続語の支えが必要であるように思うが、このことは、「し」が何を列挙するのかということを
考える上でも興味深いように思う。
http://www.lib.shimane-u.ac.jp/kiyo/a014/035/004.pdf

**デフォルトの名無しさん** · 2015/06/23(火) 12:24:22.70

従来の係り受けアノテーションは、専門家がそれぞれの文節に対して一つの係り先をタグ付けしている。
この手法だと、例 (2) のように、意味的にはどちらにもとれるような係り受けに対して、係り先をどちらか
に決める必要があり問題となる。
本タスクでは、クラウドソーシングによる係り受けのアノテーションを試行した。一つのタスクは、一つ
の文節の係り先を判定するタスクとした。ワーカーへのインストラクションを図 1 に示す。係り先の候補と
しては、KNP が出力する係り先候補とタグ付きコーパスの正解係り先とした。タグ付きコーパスとしては、
京都大学 Web 文書リードコーパス 2 を用いた。このコーパスは京大コーパスと同じ基準で係り受けがタグ
付けされている。
Yahoo!クラウドソーシング 3 を用いて、一つの文節の係り先につき 10 人のワーカーに判定を依頼した。

https://kaigi.org/jsai/webprogram/2015/pdf/2L3-4.pdf

項省略型は，動詞などの述語の項が省略されているケースで，いわゆるゼロ照応として知られている
問題である．ゼロ照応解析は述語項構造解析の範囲であるが，ゼロ照応解析には自動解析が困難な
例が多数存在しており，すべての問題を対象に自動解析を試みた場合に解析精度が極端に低くなる
ことが報告されている [飯田 12]．特に，今回は省略された項が述語と異なる文に出現する文間ゼロ照応
の問題となっているが，文間ゼロ照応の自動解析は文内ゼロ照応と比較して精度が極端に低く
（例えば [今村 15]）依然大きな課題である．
https://kaigi.org/jsai/webprogram/2015/pdf/2L3-4.pdf

**デフォルトの名無しさん** · 2015/06/24(水) 10:18:27.20

Apache solarはsenを組み込めるけど
他でmecab組み込めたりするのあるのかな

**デフォルトの名無しさん** · 2015/06/24(水) 22:50:57.26

mosesのmlでまたバカが騒ぎ出した

**デフォルトの名無しさん** · 2015/06/25(木) 13:26:33.36

アノテーションは、人手でやるしかない。コンピュータはただの計算機で自然言語はただの文字列にすぎず、
人間が教えていかないとどうにもならない。

自分は NAIST 松本研にいたからこそこういうタグ付けの方法論を教わったが、自然言語処理の研究室でも
ほとんどの研究室ではこういうノウハウがなく、卒論や修論で闇雲にタグ付けして再利用できないデータが
再生産されているのではないか、と懸念する（先輩から引き継いだ、というか教員から渡されたデータを使っ
て実験したりしても、元々のデータがあやしいのでちゃんとした研究にならない、みたいな）。
コロナ社の言語処理シリーズでもアノテーションの方法論について誰か書いてくれるといいのに、と編集の方
にときどきお話ししているのだが、想定読者が少なすぎるのか（確かにマニアックなテーマで、ほとんどの人
はデータを作る側ではなく使う側）、引き受け手がいないのか、まだ動きが見えないようである。
http://d.hatena.ne.jp/mamoruk/20150529/p1

2 つ目は，4.4.2 項で述べたエラー要因に対する対策を実現することである．対応策の
中には，否定表現や時制表現の処理など，比較的容易に実現できるものもあるが，特にエ
ラーの要因の中で大きな割合を占める人物抽出やパターンに関する問題の解決策は時間
をかけて深く探求する必要がある．M人手においては完全に人手でパターンの構築を行っ
ているため，パターンが少ないことが大きな問題である．そのため，人物間の関係を表す
典型的な言い回しを数多く発見する手法を検討する必要がある．
https://dspace.jaist.ac.jp/dspace/bitstream/10119/12702/5/paper.pdf

もっと沢山の、人手によるアノテーションコーパスが必要。

**デフォルトの名無しさん** · 2015/06/30(火) 09:53:09.21

JavaだとMavenにmecabあるので自動でインストールできるけど
Cabochaがないみたい

みんな手動でインストールしてるの？

**デフォルトの名無しさん** · 2015/06/30(火) 12:11:15.70

はい

**デフォルトの名無しさん** · 2015/06/30(火) 21:26:32.37

かぼちゃインストールめんどくさいよねえ

**デフォルトの名無しさん** · 2015/07/01(水) 07:24:28.67

KNPのほうがめんどくさくね？

**デフォルトの名無しさん** · 2015/07/01(水) 21:28:38.00

野良レポジトリでcabochaらしきものあったけど

**デフォルトの名無しさん** · 2015/07/03(金) 12:58:38.55

mavenに

mecab
kuromoji
go

形態素解析ばかり３つもあるのか
どれが一番いいんだろ

cabochaも誰かつくればいいのに

**デフォルトの名無しさん** · 2015/07/04(土) 23:32:46.44

mecabがダントツでデファクト

**デフォルトの名無しさん** · 2015/07/08(水) 01:38:18.18

http://www.lemurproject.org/indri/
IndriにMeCab組み込んで日本語検索してる研究らしき発表はあるのに
公式のホームページにMeCabの組み込み方が書いてない

ワイルドカード検索できるっぽいからSolrより良い感じなんだけど
日本語検索の方法がわからない

**デフォルトの名無しさん** · 2015/07/08(水) 06:14:03.89

solrもワイルドカードできるだろ

**デフォルトの名無しさん** · 2015/07/08(水) 11:39:07.72

以前に使った時はSolrのワイルドカード検索はかなり機能が限定的だった
*が一ヶ所しか使えなくて複数がダメだった

**デフォルトの名無しさん** · 2015/07/11(土) 07:30:19.31

じゃあindriでやれば？

**デフォルトの名無しさん** · 2015/07/18(土) 17:06:52.27

機能表現解析の結果を表 1，2 に示す．これらの結果より，CRF を用いることでベースラインよりも
高い性能での機能表現解析が可能であることが分かった．CRFの結果から，範囲同定は比較的高
い性能で行えるが，曖昧性解消は難しいことが分かった．
https://www.ipsj.or.jp/award/9faeag0000004ej9-att/5Q-02.pdf

本稿では，数学入試問題自動解法の概要を示した後，その技術課題について述べる。
http://img.jp.fujitsu.com/downloads/jp/jmag/vol66-4/paper03.pdf

**デフォルトの名無しさん** · 2015/08/07(金) 16:15:26.34

Mecabで分かち書きしたのを結合して元の文章にもどす
逆変換の様なものってないのでしょうか

やりたいのは名刺部分だけ言い換えをした文を作りたいのです

**デフォルトの名無しさん** · 2015/08/07(金) 22:10:35.42

名刺部分か。。。
難しいかもね

**デフォルトの名無しさん** · 2015/08/07(金) 22:49:42.50

プログラムは全く書けないの？ものすごく単純な事だと思うんだけど
ただスパムっぽいので協力したくない

**デフォルトの名無しさん** · 2015/08/07(金) 23:06:48.26

Mecabはそもそも単語の位置を返すので、結合も糞もないと思いますが。

**デフォルトの名無しさん** · 2015/08/07(金) 23:30:11.31

多分wakatiオプションで半角スペース区切りされてるのをくっつけたいんだと思う

**デフォルトの名無しさん** · 2015/08/07(金) 23:32:33.40

>>339
すごく高度な質問なので皆んな戸惑ってるよ。
事例を載せてくれた方が分かりやすい。入力した原文、MeCabの出力、期待する結果。

**デフォルトの名無しさん** · 2015/08/08(土) 03:26:46.26

MecabはC++で書かれているので、C++から使うのが一番楽です。
ラティスを好きなようにいじれば好きなように加工できます。

**デフォルトの名無しさん** · 2015/08/08(土) 09:42:57.56

質問を見る限りC++を使えるとは思えないのでPythonRubyあたりが無難だと思う

**デフォルトの名無しさん** · 2015/08/08(土) 13:51:08.73

イイエ、C++が一番簡単です。

**デフォルトの名無しさん** · 2015/08/08(土) 15:52:12.50

彼がコンパイルの概念を理解できるとは思えないので

**デフォルトの名無しさん** · 2015/08/08(土) 16:45:27.74

C++は言語自体が扱いずらいだろ

**デフォルトの名無しさん** · 2015/08/08(土) 16:51:37.06

使ってみた中ではJavascriptが一番難しかった。
ハゲそうになる。

**デフォルトの名無しさん** · 2015/08/08(土) 16:53:39.89

>>347
>>350
どう考えてもC++よりJavaScriptのほうがやさしい

**デフォルトの名無しさん** · 2015/08/08(土) 17:03:17.95

イヤイヤ、Javascriptはかなり難しいよ。

C++は基本的に型がハッキリしてるから、コンパイラが誤りをみつけてくれるけど、
Javascriptは実行しないとわからない。
テストを書いても簡単にすり抜けるし、毛が抜ける。

**デフォルトの名無しさん** · 2015/08/08(土) 17:30:12.22

JavaScriptよりC++がかんたんに思えるとしたら
それはおそらくC++をCに近い状態で書いている

**デフォルトの名無しさん** · 2015/08/08(土) 17:37:01.00

>>353
Cもかなり難しいよ。

C++が一番簡単だよ。
C++11以降はほとんど何の文句もない。
やりたいことがすぐできるようになってる。

元の話題に出てくる、MecabをもしもJavascriptで書くとかなったら
腹痛と吐き気に悩まされると思う。
誰でも。

**デフォルトの名無しさん** · 2015/08/08(土) 17:56:22.37

君がJavaScriptの書き方知らないだけでしょ

**デフォルトの名無しさん** · 2015/08/08(土) 18:24:19.95

>>354
＞Cもかなり難しい
C ⊂ C++ だからCのほうがやさしい

＞C++が一番簡単
おそらくC++とJSの学習量が違ってる
同じ学習量だったらJSのほうがやさしい

**デフォルトの名無しさん** · 2015/08/08(土) 18:32:46.48

>>356
イヤイヤ、C++が一番簡単。

Cなんてオーバーロードすらできないし。

**デフォルトの名無しさん** · 2015/08/08(土) 18:49:06.65

テスト書いててすり抜けの意味がわからない
jsの仕様わかってないだけやん

**デフォルトの名無しさん** · 2015/08/08(土) 18:58:24.44

>>356
一票！

**デフォルトの名無しさん** · 2015/08/08(土) 19:06:53.94

Javascriptは難しいよ。
テンプレートすらないし。

**デフォルトの名無しさん** · 2015/08/09(日) 08:06:39.17

頭がC++で凝り固まってるんだろ
多言語使えない可哀想なやつになっちゃったね

**デフォルトの名無しさん** · 2015/08/09(日) 14:40:14.70

動的型言語のjavascriptに対して、templateも無いから難しいって言ってる時点で、jsに対する知見がないわけで、、、
知見のない人が優劣判断なんて出来るはずもないと思うの、、、

**デフォルトの名無しさん** · 2015/08/09(日) 18:55:33.51

速度重視と言いながらmltonを使わずにc言語使っちゃう人が多すぎる
どこが速度重視なんだ

**デフォルトの名無しさん** · 2015/08/09(日) 20:52:48.18

JavaScript書き方が多彩すぎてつらい

**デフォルトの名無しさん** · 2015/08/09(日) 20:54:49.89

JavaScript書き方が多彩すぎてつらい

**デフォルトの名無しさん** · 2015/08/09(日) 21:27:14.38

大事なこと？

**デフォルトの名無しさん** · 2015/08/09(日) 22:32:14.42

本当にJavascriptで自然言語処理してるのか?

**デフォルトの名無しさん** · 2015/08/15(土) 01:46:01.15

動的型付けが簡単だと言ってる奴は書捨てしか書いたことないか脳内型推論が得意な天才

**デフォルトの名無しさん** · 2015/08/21(金) 09:53:06.85

田宮栄一かよ

**デフォルトの名無しさん** · 2015/08/23(日) 18:26:25.13

分布表現の正確な定義は？

**デフォルトの名無しさん** · 2015/08/31(月) 18:43:52.25

25000×25000＝626000000通りの「共起関係」、及び２９種類の「属性」を、人力で分析してアノテーションコーパスを作成すべき！

(3) 学習語彙：小学生用の国語辞典に登録されている語彙約 25000 語。語彙数は，『新教育基本語彙』[3]などを根拠とする。
小学生の理解語彙の上限を示すとされる。
http://www.nise.go.jp/kenshuka/josa/kankobutsu/pub_f/f-141/f-141_2.pdf

本研究では，意味の似ている語をまとめると共起ベクトルの距離は近くなるという仮定を前提に，単語間の共起頻度を用い
るのではなく，単語に付随する意味属性を利用する．単語の意味属性には，単語を意味によって分類整理したシソーラスであ
る分類語彙表を利用し分類語に適用する．
http://db-event.jpn.org/deim2015/paper/335.pdf

意味役割の種類
現段階での意味役割の種類を記述する．大きく 4 つの類にわけて，中分類で 29 種類を定義した．
さらにこれらに対して属性タイプが付与される形である．まず 29 種類を以下に示す．
構文類 ? 連語，外の関係，補語相当
対象類 ? 経験者，被使役者，対象，基準, 相互, 起点，着点，起点・着点，通過点，経路，方向
動作主類 ? 使役，原因，動作主，使役者，手段
条件周辺類 ? 限界，領域，場所，時間，条件，様態，程度，目的，順接，逆接
http://www.ninjal.ac.jp/event/specialists/project-meeting/files/JCLWorkshop_no6_papers/JCLWorkshop_No6_06.pdf

**デフォルトの名無しさん** · 2015/09/02(水) 08:44:33.62

ここって低レベルな話でもいい？

全文検索したくてSuffix Arrayを作ってみたんだけど
調べるとTrieというデータ構造もあるじゃない？

Trieで文字単位の全文検索の準備をする場合は
Trie構築時に文字列の開始位置を1文字ずつずらして切り出した文字列を入力すればいいの？

**デフォルトの名無しさん** · 2015/09/08(火) 17:07:13.89

新井　今の人工知能にとって一番難しいのは深い言語処理。例えば、人間が何かを命令してロボットがそれを
理解して何かをする場合、命令パターンが決まっていれば簡単です。ですが災害救助現場などで、人間が何か
の指示をして、ロボットが画像認識による状況理解と合わせて問題解決する場合は難しい。そして、
もっとも必要なのは深い言語処理です。
　数学や物理の問題に見られる非常に限られたフレームという縛りがある設定であっても、現段階の自然言語
処理では極めて困難です。でもそこが一番伸びしろが大きいことも事実です。
https://cakes.mu/posts/10730

**デフォルトの名無しさん** · 2015/09/12(土) 09:59:59.57

>>371
＞25000×25000＝626000000通りの「共起関係」

有り得る共起関係、有り得ない共起関係。

例えば「自動車に乗る」は○だが、「雲に乗る」は×。

**デフォルトの名無しさん** · 2015/10/01(木) 15:50:28.34

職業PGだけど専門が違います。
趣味で自然言語処理やりたいですがいいですか？

**デフォルトの名無しさん** · 2015/10/01(木) 15:55:49.74

　これを見てわかることは、Googleの翻訳は、図20でもとても理解し難いところがあったように性能はそこそこですが、
Yahooの翻訳は、人間が機械と同じ条件で行った翻訳にかなり近いレベルまで達しています。よって、
点数をみた限りでは、翻訳システムによっては、文脈まで考えなければこれ以上の上達は難しいことがわかります。
人間でも、文脈を考えるかどうかで10ポイント以上の差がついているので、機械翻訳がこれ以上人間並みに近づくためには、
文章の前後の繋がりを考えるという、計算機にとっては殊の外大きな技術的チャレンジが必要なことが、
このデータを基にわかったという実験結果です。
http://www.scat.or.jp/scatline/scatline98/pdf/scat98_seminar_01.pdf

**デフォルトの名無しさん** · 2015/10/02(金) 06:13:00.34

単語の使われ方の類似度をベクトルで表現したいんですが、どんな方法がいいでしょうか？
他の単語との距離空間をつくるのがいいと思ってるんですが

**デフォルトの名無しさん** · 2015/10/03(土) 20:05:53.04

今はword2vecが最も定番で安定してます
理屈も単純だし

**デフォルトの名無しさん** · 2015/10/25(日) 23:00:25.20

https://github.com/klb3713/sentence2vec
の実装を読んでるんだけど
skip-gramの実装が

word2vecの時の入力層=l2　出力層 =l1
なのに
sent2vecの時の入力層=l1 出力層=l2

になっててインデックスが逆になってる

なんか実装が怪しくないか？

**デフォルトの名無しさん** · 2015/11/14(土) 22:37:12.15

北大の入試問題と等価な ZF+ の式 (Zermelo‐Fraenkel)
http://www.ssken.gr.jp/MAINSITE/event/2015/20150828-hpcf/lecture-01/SSKEN_hpcf2015_anai_presentation.pdf

文頭から一気に訳す（形式変換）のではなく、細かく分割して質問応答システムで『前処理』しておくのはどうか。
「球面Ｓ」＝「中心点は？半径は？面積は？体積は？通る点は？　・・・ets」
「直線ｌ」「ｘｙｚ空間内」＝「法線ベクトルは？通る点は？　・・・ets」

今回の東大模試でも、『「（一つの）小石」を「３つの（いずれかの箱）」に「（ある条件で）移動させる」』を、
東ロボは全く把握できなかったようだ。ここでの「小石」というのは単にある条件で移動する「点」に過ぎないが、
物理の問題では「小石」がおもりの役割を果たしていたり、水中に沈めてその体積と浮力はいくらかなんて
ことが問われたりもする。文脈によって訳し分けるのは現状困難かもしれないが、入試で問われる内容
はパターンが限られており、ある程度の予測と候補の絞り込みは可能に思える。

**デフォルトの名無しさん** · 2015/11/15(日) 10:33:40.85

大学の授業の数学の課題はとけるのけ
自然言語解釈できなくてもいいけど

**デフォルトの名無しさん** · 2015/11/17(火) 22:57:26.06

成功報酬20000円の宿題出したよ
解いて行ってね
http://peace.2ch.net/test/read.cgi/tech/1432402159/

**デフォルトの名無しさん** · 2015/11/19(木) 10:25:00.56

確率の問題ってどうやって解くの？
QEでは解けないよね？

**デフォルトの名無しさん** · 2015/11/19(木) 14:04:39.52

>>383
＞確率の問題ってどうやって解くの？
＞QEでは解けないよね？

数学確率文章題の自動解答システムの開発
http://www.anlp.jp/proceedings/annual_meeting/2015/pdf_dir/B2-3.pdf

**デフォルトの名無しさん** · 2015/11/19(木) 14:30:09.74

　句構造文法による解析，あるいは格文法解析，係り受け解析のいずれかが行われることが多い。
しかし，たとえば，図4に示すような比較的短い文でもいくつもの正しい解析が成り立つ。
長い文になれば可能な構造は爆発的に増え，そのうちのどれをとるべきかは非常に難しくなる。
その文が話された場面状況，あるいは文章の場合はそれまでに述べられてきたことから作られる
状況知識によって解釈されることになるが，現在の機械翻訳ではその状況を具体的に扱うことが
できていない。日本語に多い主語や目的語の省略について，前後2，3の文からそれを推定して
復元することが試みられている段階である。
https://www.jstage.jst.go.jp/article/johokanri/58/8/58_616/_pdf

**デフォルトの名無しさん** · 2015/11/19(木) 14:57:31.01

（物理的に・常識的に）あり得ない共起関係は、即刻に翻訳候補から外すアルゴリズムが必要。

「炎を食べる」「ヒマワリが跳ぶ」「自動車が泳ぐ」「犬が喋る」「クジラが走る」「テレビが躍る」「クラゲの骨」「ミミズの耳」・・・etc

**デフォルトの名無しさん** · 2015/12/26(土) 04:45:32.56

　さらに重要なのは、Unbabelの機械翻訳ソフトの精度が急上昇していることだ。Unbableには「機械が間違えた
翻訳と人間が修正した結果」というデータが猛烈な勢いで集まっている。このデータを「教師データ」にして機械学習
を実行すれば、「機械翻訳が間違えやすい文章のパターン」と「正しい翻訳パターン」を得られる。同社はこれら
の新しいパターンを機械翻訳ソフトに実装することで、翻訳精度を改善しているのだ。
　機械翻訳の精度は「BLUEスコア」という尺度で評価する。2014年3月にUnbabelが翻訳サービスを開始した当初、
同社のソフトが英語をスペイン語へと翻訳する精度は、BLUEスコアで「35」だった。それが現在は「45」にまで伸びた。
　「機械翻訳が人間と同レベル、BLUEスコアで65～70に到達するのは、当面は不可能だ。しかし機械翻訳の
精度が上がることで、近い将来、機械翻訳を併用した場合の人間による翻訳スピードを、毎時4000単語にまで早め
られるだろう」。Pedro CEOはそう見通しを語っている。
http://itpro.nikkeibp.co.jp/atcl/column/15/061500148/122100040/?ST=bigdata&;P=2

**デフォルトの名無しさん** · 2016/01/03(日) 11:10:52.50

自然言語処理シリーズの対話システム
ぜんぜん理解できないんですけど
先に読んどいたほうがいい本とかあります？

**デフォルトの名無しさん** · 2016/01/07(木) 16:42:12.63

日本語認識するwatson作りたい
てっとり早く1ヶ月ぐらいで作れそうな方法教えて？

**デフォルトの名無しさん** · 2016/02/17(水) 13:53:23.35

http://www.kdnuggets.com/2013/10/free-book-theory-applications-for-advanced-text-mining.html

**デフォルトの名無しさん** · 2016/03/12(土) 06:26:09.19

質問。

? 大量のテキストから自動獲得する
ポイント：同じような意味の単語は同じような環境に現れる
朝見たらぽげらが真っ赤に熟していた。
おいしそうだったので、またぽげらを食べてしまった。
塩をちょっとかけたぽげらは激ウマだね。
https://www.nii.ac.jp/userdata/shimin/documents/H23/120118_7thlec.pdf

和田秀樹の黒塗り教科書、二冊用意して一冊を塗り潰す、
http://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q12115115392
難解な語句の意味を文脈から推測する問題
http://www.ravco.jp/cat/view.php?cat_id=6445
オントロジー強化型シソーラス
https://www.jstage.jst.go.jp/article/johokanri/58/5/58_361/_pdf

ＡＩが新聞や著書などの大量のテキストから自己学習するために、ランダムに単語一つを黒塗りにして、
そこに当てはまる単語を推論させることはできますか。文中には同じ単語が何度も現れるので、
ある単語をランダムに黒塗りにして、文中に何度も出ている単語のいずれかを当てはめて類推する。

**デフォルトの名無しさん** · 2016/03/13(日) 16:23:48.95

60±40%位の精度でできそう

**デフォルトの名無しさん** · 2016/05/01(日) 15:33:35.03

匿名通信（Tor、i2p等）ができるファイル共有ソフトBitComet（ビットコメット）みたいな、
BitTorrentがオープンソースで開発されています

言語は何でも大丈夫だそうなので、P2P書きたい！って人居ませんか？

Covenantの作者（Lyrise）がそういう人と話したいそうなので、よろしければツイートお願いします
https://twitter.com/Lyrise_al

ちなみにオイラはCovenantの完成が待ち遠しいプログラミングできないアスペルガーｗ

The Covenant Project
概要

Covenantは、純粋P2Pのファイル共有ソフトです

目的

インターネットにおける権力による抑圧を排除することが最終的な目標です。そのためにCovenantでは、中央に依存しない、高効率で検索能力の高いファイル共有の機能をユーザーに提供します

特徴

Covenant = Bittorrent + Abstract Network + DHT + (Search = WoT + PoW)

接続は抽象化されているので、I2P, Tor, TCP, Proxy, その他を利用可能です
DHTにはKademlia + コネクションプールを使用します
UPnPによってポートを解放することができますが、Port0でも利用可能です(接続数は少なくなります)
検索リクエスト、アップロード、ダウンロードなどのすべての通信はDHT的に分散され、特定のサーバーに依存しません
ｃ

**デフォルトの名無しさん** · 2016/08/20(土) 11:23:57.46

見返りとしての歴史認識
　強化されつつある露中のパートナーシップの枠内で、中国は、事実上、欧州における「結果の見直し」の阻止をめぐる
呼応的連帯と引き換えに、ロシアでお馴染みの解釈とは異なるアジアにおける戦争の中国流の解釈を受け入れるよう提案している。
　提案は、非対称のものである。西側の軍事的歴史的行動の領域において、中国の支持は、ロシアに多くのものを与えない。
この問題に関する中国の立場は、欧州にとってどうでもよいのだから。一方、アジアの「戦線」においては、歴史的なルーツ
をもつ紛争へロシアを引き入れることは、具体的困難を孕んでいる。というのも、ロシアは、今後、世界のその部分においてはるか
により活発に行動し、そこでさまざまなプレーヤーとの均衡のとれた関係を構築するつもりであるから。
http://jp.rbth.com/opinion/2015/09/02/394013

訳出がわかりにくい。

＞西側の軍事的歴史的行動の領域において、中国の支持は、ロシアに多くのものを与えない。

→欧米西側諸国の軍事行動とその歴史認識といった分野において、中国のロシア支持がロシアに及ぼす影響は少ない。

＞そこでさまざまなプレーヤーとの均衡のとれた関係を構築するつもりであるから

→そこ（歴史的ルーツをもつ紛争、例えば尖閣や竹島や靖国や慰安婦）で、（ロシアは）様々な関係国との偏りのない関係を構築するつもりであるから。

ロシア語のできる日本人・日本語のできるロシア人が少ないためだろうか。機械翻訳でもパラフレーズは困難というが、
日露双方でもっと大勢の訳出者が様々な方法で翻訳して、パラフレーズ辞典でも作れないだろうか。
日露翻訳を通じて、どんな訳出方法が考えられるか、なぜそういう訳出が適切なのかを徹底的に議論し、
その膨大な記録をサーバーに保管しておいて、後で人手と機械の両方でコーパスにしておきたい。
長文はなるべく句読点で句切って短い文章にすれば、機械翻訳も簡単になるだろう。
中間言語方式が廃れているというが、長文を短く区切って短文にするくらいの中間処理はしておきたいところ。
句読点で句切るのは簡単だが、句読点が無い場合でも自動で補うアルゴリズムも考えておきたい。

**デフォルトの名無しさん** · 2016/11/22(火) 11:46:30.39

国立情報学研究所(NII)、富士通研究所、サイバネットシステムの3者は11月14日、名古屋大学および東京大学と共同で、
NIIの人工知能(AI)プロジェクトである「ロボットは東大に入れるか」(東ロボ)において東大第2次学力試験に向けた論述式模試
とマークシート式の大学入試センター試験模試に挑戦し、論述式模試の数学(理系)で偏差値76.2、センター試験模試の
物理では偏差値59.0と、2015年度を大きく上回る成績を挙げたと発表した。
NII、富士通研究所、名古屋大学を中心に構成する「東ロボ」数学チームは、代々木ゼミナールの論述式模試である
「東大入試プレ」に挑戦した。
数学(理系)では、問題文を入力後、問題文の解釈から自動求解、解答の作成までをAIにより完全に自動で行ない
6問中4問を完答した結果、偏差値76.2(120点満点中80点)を獲得したという。2015年度は駿台予備学校の論述式模試を受験し、
数学(理系)は偏差値44.3(20点)だった。
http://news.mynavi.jp/news/2016/11/15/200/

東京医科歯科大 2010 年度 [数学] 　（２００９年までの問題分析）
合格可能な点数は、２００９年は６割、２００８年は７割、２００７年は６割、２００６年は６割、位でしょう。
毎年問題の傾向が変わるのは、出題者が毎年交代するせいであると思われます。２００７年はやや得点しやすい
ですが、大問２，３で小問の間の関係を読み取る読解力がないと、高得点には結びつきません。ただ東大や東工
大に似たような問題があるので、それらを充分演習・理解していれば、８割以上得点することも可能です。しか
し高校数学からやや離れたところで問題が作られていますので、たとえ問題が解けたとしても、問題の意味が理
解出来ないこともあるでしょう。（東大も同じ）
２００９年から?し気になった問題を見ていきましょう。
２００９年大問１は、平面･空間の格子点の問題ですが、よく出題される数列の和に還元する格子点の個数の問
題ではありません。初等整数論でミンコフスキーが創始した「格子の幾何学」と呼ばれる分野の雰囲気です。
この分野では次のミンコフスキーの定理が有名です。（高木貞治「初等整数論講義」より）
http://www.waseda-eg.com/wp-content/uploads/2010/04/igakubu-ikashika2010.pdf

＃入試数学というのは問題の意味を考えながら解くものではないらしいが・・・

**デフォルトの名無しさん** · 2016/11/22(火) 11:50:24.64

現実世界をすべてシミュレーションすることはできないが、入試で問われる数学や物理はやることが大体決まっており、
こういうものに対処するシミュレーションを作成することはさほど困難とは思えない。

(1) 正八面体のひとつの面を下にして水平な台の上に置く。この八面体を真上から見た図(平面図)を描け。
(2) 正八面体の互いに平行な2つの面をとり、それぞれの面の重心を，とする。，を通る直線を軸としてこの八面体を1回転させてできる立体の体積を求めよ。ただし、八面体は内部を含むものとし、各辺の長さは1とする。
http://www.riruraru.com/cfv21/math/tum08f3.htm

自然言語の正確な読解はまだ困難（統計的機械翻訳ではムリ）だけど、入試数学で正四面体やら正八面体やらの
「ある辺」「ある頂点」「ある面」（いずれも「対称」）を、「回転」させるとか「接地」
させるとか「光を当ててその影が」とか「ある方向から眺めると」とか、やることは大体決まっているはず。
「台の上に置く」＝「接地」と解釈できるようにする。

**デフォルトの名無しさん** · 2016/11/22(火) 16:16:28.76

>>396
> 「台の上に置く」＝「接地」と解釈できるようにする
そういうAd hocな知識はもちろん東ロボで使われていて、パレートの法則に従って、2～3割の作り込みで7～8割の問題は解けるんだけど、そのまま作り込みを増やしても効率は悪くなる一方だし意味があるとは思えない。というのが先日の報告会の話だったと思う。

**デフォルトの名無しさん** · 2016/11/22(火) 17:39:54.66

＞「台の上に置く」＝「接地」と解釈

それひとつだけなら当たり前に思えるけど
実際にはそういう類似表現は無数にあるから
いつまで経っても知識獲得が終わらない

**デフォルトの名無しさん** · 2016/11/23(水) 23:25:59.87

シンギュラリティが近づけば近づくほど、技術的失業で雇用が喪失される。
従来型のエリートは職を失うか年収の大幅減は避けられない。

医者も弁護士も例外ではない。

AIは画像診断の“第4の技術革新”
慈恵医大放射線医学講座の中田典生氏が語る
http://techon.nikkeibp.co.jp/atcl/feature/15/327442/092600087/?ST=health

画像認識分野では、2012年に開催された物体認識技術を競う国際コンテストでディープラーニングが驚異的な結果を出し、1位と2位を独占。
人工知能におけるブレークスルーとして注目を集めた。
ディープラーニングの登場により、人工知能の画像認識精度は急速に高まり、2015年には人間を超えたとされる。
控えめに言っても「人間と同程度になった」（中田氏）。

AI外科医ロボット、世界初の完全自動での患部縫合実験に成功
http://business.newsln.jp/news/201605052146350000.html

内科も外科もＡＩやロボットに代替されて、
遠くない未来に医者は機械の監視役や補助員になる。

**デフォルトの名無しさん** · 2016/11/23(水) 23:30:24.41

>>397
＞そのまま作り込みを増やしても効率は悪くなる一方だし意味があるとは思えない。

一般的な自然言語処理に関してはそうかもしれないけど、入試での数学物理はパターンが限られる。
だから今年の東ロボでは「作り込みを増やした」だけで、物理と数学は大きく伸びた。

**デフォルトの名無しさん** · 2016/11/23(水) 23:34:41.73

＞センター試験模試の物理では偏差値59.0と、2015年度を大きく上回る成績を挙げたと発表した。

＞数学(理系)では、問題文を入力後、問題文の解釈から自動求解、解答の作成までをAIにより完全に自動で行ない
＞6問中4問を完答した結果、偏差値76.2(120点満点中80点)を獲得したという。

国語や英語などの一般的な自然言語処理が問われる科目では、従来通りの「統計的機械翻訳」では限界。
けれども数学や物理においては、これまでの技術の延長でまだまだ伸びる可能性が考えられる。

自然言語処理スレッド その４

自然言語処理スレッド　その４