自然言語処理スレッド その4

■ このスレッドは過去ログ倉庫に格納されています
1デフォルトの名無しさん
垢版 |
2014/06/03(火) 05:40:00.54ID:yefNLumx
前前スレ 自然言語処理スレッド その2
http://mimizun.com/log/2ch/tech/1173105287/
前スレ 自然言語処理スレッド その3
http://mimizun.com/log/2ch/tech/1235129481/

このスレッドでは、日本語の構文解析、談話理解、情報検索、
文章生成などの技術に関する理論と(おもに)実装を扱います。
あくまでアプリケーションプログラミングの技術的な面に重点をおきたいので、
学術的な話はアリですが、いわゆる人工無能や哲学的AI話、
言語学の話題などは他のスレッドでお願いします。
2015/01/04(日) 08:53:09.06ID:Vh1lmQHV
このコピペの動機はなんなの?
守本人なの?
279デフォルトの名無しさん
垢版 |
2015/01/04(日) 19:32:49.96ID:UrD0d14K
コピペが無くても誰も書き込まないスレッドをコピペのせいにするなよ
2015/01/05(月) 07:11:49.24ID:755b/Otu
コピペが無くても誰も書き込まないスレッドをコピペのせいにして申し訳なく思います
2015/01/06(火) 21:01:58.55ID:rhCaR8KF
まるで何かの宣伝みたい。
282デフォルトの名無しさん
垢版 |
2015/02/12(木) 14:36:17.01ID:LHb2oe4V
RDFトリプルセットは「連想・推論」に利用できるので、人力でRDF辞典を作成しておきたい。
自然言語の多義性・曖昧性は、これである程度解消できるはず。

提案手法では,開世界仮説に基づき,RDF グラフからそれより高い表現力をもつ SROIQ概念の極小モデルを推論できる.
さらに,ある概念の極小モデルが一意に決まることを利用し,与えられたRDF グラフから記述できるすべての概念を生成
する停止性をもつアルゴリズムを提案した.
http://sigswo.org/papers/SIG-SWO-A1402/SIG-SWO-A1402-10.pdf

(x,y,z)=(主語,述語,目的語)で、出現頻度の多い順に並べる、あるいは少ない順に並べる。高頻度のトリプルがやたら多いということは、
逆に言えば他と似たり寄ったりでつまらないコンテンツである可能性が高い。出現頻度の少ない組み合わせは、オリジナル表現か
あるいはナンセンス文かのどちらか。例えば「女性は子供を産む機械」。こういうのは普通に「女性 子供」で検索しても出ない。

コーパス作成について一からやり直したほうがいいかどうかは、悩ましい問題なので一概にどうだということは言いにくいのですが、
アノテーション・コーパス作成自体が大きな研究テーマであり、ベストプラクティス的なものもなければ、少しだけ蓄積されている
ノウハウ的なものすらチームレベルでしか共有できていない(共有するのが難しい)、という状況です。また、やり直したらすぐコーパス
ができるかというと、質の高いコーパスを作るには時間が何年もかかるものなので(自分の携わった NAIST テキストコーパスは
5年以上かかっています)、すぐ利用可能にはならないでしょう。
http://d.hatena.ne.jp/mamoruk/20140822

今後,画像解析技術が進み,機械が複数の物体から構成されるオブジェクトを一つ一つの物体に分解できたとしても,機械にとって,
それが常識に基づいた構成であるか,常識から外れた構成であるかを区別することは困難であると推測される.
http://minamigaki.cs.inf.shizuoka.ac.jp/work/2014/SCIS2014fujita.pdf

『常識』なるものは、専ら人力で登録するしかない。コンピューターなんていくら高性能でもただの計算機に過ぎないのだから。
283デフォルトの名無しさん
垢版 |
2015/02/18(水) 13:15:42.49ID:dIyx5cm4
>>282
>機械にとって,それが常識に基づいた構成であるか,常識から外れた構成であるかを区別することは困難であると推測される.

自動作成が困難な「違和感CAPTCHA」は、試験問題作成委員と東ロボとイラスト作成支援ツールや
過去問改題支援ツールを併用し、人力と機械力のハイブリッドで効率的に作成する。イラスト理解は
コンピューターには困難だが人間には易しい。難しい東大の過去問も、懇切丁寧な誘導付きで易しい問題
に改題すればいい。センター数学は人間には易しいが東ロボには困難だ。またそれ専門のセキュリティ
企業を設立して、効率よく大量生産できるようにしたい。できれば一日あたり一万通りくらいは作りたい。
三回間違えたら30分間はアクセス禁止にするとか。そうすれば2chのアラシ投稿も激減するはずだ。
「ぐにゃぐにゃ文字CAPTCHA」にはもうウンザリ。
284デフォルトの名無しさん
垢版 |
2015/02/18(水) 15:59:15.93ID:dIyx5cm4
あと、2ちゃんねるでの板違いスレ立て乱立防止のために、「資格試験CAPTCHA」を導入するとか。
例えばプログラマー板なら、基本情報技術者試験の午前問題で、7割正解しないと投稿できないようにするとか。
285デフォルトの名無しさん
垢版 |
2015/02/21(土) 17:29:42.70ID:VfWo/10x
人間は完璧を求める。物体に穴が開いていると、物体の一部が欠けていると、そのギャップを埋めようとする。
次の画像を見ると、実際には存在しないものの、円と長方形に見えてくる。
閉合の法則が存在しない状態では、長さの異なる線にしか見えないが、閉合の法則により、線を組み合わせて、形として見る。
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/1/8/186ef42f.jpg
http://www.seojapan.com/blog/8-web-design-rules

82. 1. 記述範囲として20sの領域を選択 2. 領域を4 4(=16)ブロックに分割 3.
記述範囲をオリエンテーション方向に回転 方向の正規化 20s 20s 82
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/e/1/e1a13d79.jpg
http://www.slideshare.net/MPRG_Chubu_University/sift-32258833

 我々人間は、無意識のうちに膨大な量のコモンセンス知識を、日常生活の中で自然と会得し共有している。
人間に近い思考をする人工知能を実現するためには、コンピュータ上にコモンセンス知識の巨大なデータベース
を構築する必要がある。ビッグデータを扱う技術と組み合わせれば、人工知能の思考精度を向上させる土台となる。
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/2/9/2989d626.jpg
http://business.nikkeibp.co.jp/art…/bigdata/20140722/268973/
286デフォルトの名無しさん
垢版 |
2015/02/21(土) 21:50:03.02ID:RYr+Lvse
もうコピペすんのやめろ
2015/02/22(日) 12:00:11.88ID:ALoz31q1
全角カンマが論文で多く見られ、一般には余り用いられないことから
,(.|\n)+https?://
をNGにすると結構良いんじゃないだろうか。

あと驚いたのが
る。(.|\n)+https?://
が思ったより誤認識しないこと。これも論文に特徴的な、「である調」を意識したものだが、このスレで引っかかった中で少しでも意見が含まれると思われる投稿は9件に留まった。

リンク先との内容の重複を検出するのが一番なんだろうけどね。
2015/02/22(日) 12:27:03.95ID:z7hrtyyQ
研究者ワナビーのオッサンがコピペしてそうだよな
学歴は高くなさそうなオッサンが
2015/02/22(日) 13:05:32.71ID:I5/HIZJG
ふつうに入門書から読めば、学歴がどうあれそれなりに理解はできるだろうにねえ。

わけもわからずそれっぽいweb上の記事を漁って仮にそれを丸ごと暗記できたとしても
何の意味もないのに。
2015/02/26(木) 03:40:26.29ID:syX8dA4x
Wikipediaのdumpって
いつの日付のが良くベンチマークとして使われてるとかあるのですか?
むしろlatestを使うのが普通なんですか?
2015/02/26(木) 07:01:52.77ID:Msso4ZG7
なんのベンチマーク?
2015/02/26(木) 07:27:44.19ID:Xrj2IFMm
言葉を間違ってそう
293デフォルトの名無しさん
垢版 |
2015/02/28(土) 15:19:37.45ID:LSUjOX6L
学歴高いオッサンでポストがあっても話にならんクズは多いけどな
2015/03/01(日) 03:47:39.01ID:2eKDkVCS
あれっ?
CRFって最大エントロピー法の特殊な場合なんだっけ?
2015/03/01(日) 09:29:41.24ID:SMJwAP9t
似てはいる
2015/03/08(日) 00:31:15.52ID:mm6WxmZr
入力や解析の途中の状態をすべて保存しておけば、
入力・解析が途中で止まっても再開できるぞ。
俺スゲー
2015/03/25(水) 01:12:56.51ID:0RNXcvZ9
https://radimrehurek.com/gensim/wiki.html
に書いてある通りにwikipediaのデータを読み込ませているのだけど
セグメンテーションフォルトで落ちる

メモリー8GのマシンではWikipediaを全部読むのは無理ってことでしょうか?

このドキュメントにはwikipediaのダンプは8Gのファイルサイズって
書いてあるのだけど先月のダンプが12Gあるので
そこも疑ってるのだけど
298デフォルトの名無しさん
垢版 |
2015/03/28(土) 11:02:53.34ID:8HMktsnF
https://sites.google.com/site/projectnextnlp/ws2015

12:30-13:00 言い換え 「言い換え認識技術の評価に適した言い換えコーパスの構築指針」(論文,スライド)
藤田篤(NICT),柴田知秀(京大),松吉俊(山梨大),
渡邉陽太郎(NEC),梶原智之(長岡技科大)

13:00-13:30 「情報検索のエラー分析」(論文,スライド)
難波英嗣(広島市立大),酒井哲也(早稲田大)

13:30-14:00 「『ロボットは東大に入れるか』プロジェクト 代ゼミセンター模試タスクにおけるエラーの分析」
299デフォルトの名無しさん
垢版 |
2015/03/30(月) 20:19:29.89ID:kzWOqVdv
すみません、どなたかお力をお貸しください!
英語版Wikipediaのタグ除去済みの生データが欲しいのですが、
どうしても今日中に手に入れたく、、うちのコンピュータだと各種コンバータを借用しても間に合いません。
古めでも問題ないので、どこか公開されてたりしないでしょうか?
300デフォルトの名無しさん
垢版 |
2015/04/05(日) 02:41:47.47ID:KpTWWol8
Splitで分割して読み込み
301デフォルトの名無しさん
垢版 |
2015/04/05(日) 08:15:51.92ID:4nn8wKW5
タグ除去すらできないって(笑)
302デフォルトの名無しさん
垢版 |
2015/04/06(月) 11:50:16.79ID:q6HYn914
まぁ、地味にうちのi5マシンでも
英語版Wikipediaデータのコンバータ使ったら、5日かかったからな。
SQLのINSERT外して、タグ除去ってやり方なら一瞬だけど、
XMLに変換して、綺麗に構造的に展開していくタイプのツールだと、とんでもない時間かかる。
2015/04/06(月) 15:48:02.41ID:NDmCmS3H
なんでそれを早く用意しなかった
2015/04/20(月) 14:39:42.43ID:tFQeFLnS
Wikipedia のdumpをapache solrに入れて検索してるんだけど
遅すぎる
どうやったらgoogleの半分の速度でいいから高速検索できるんだ
2015/04/20(月) 15:47:41.04ID:kK5NTkAl
つelasticsearch
306デフォルトの名無しさん
垢版 |
2015/04/21(火) 07:29:39.62ID:QYKPjluf
東ロボが「図とグラフの把握」をクリアするころには、連想型アニメイラスト作成支援ツールが普及して、
漫画家はアシスタントを雇う必要が無くなっているに違いない。イラストの大半は既存のオブジェクト
の組み合わせで、それとこれとはどんな繋がりがあるのかが理解できればいい。
307デフォルトの名無しさん
垢版 |
2015/04/22(水) 10:52:46.25ID:ROZbcw1E
また東ロボの話か
308デフォルトの名無しさん
垢版 |
2015/04/27(月) 18:01:44.51ID:tY3Rtetf
質問「ロボットはジグソーパズルを解けるか」
309デフォルトの名無しさん
垢版 |
2015/05/07(木) 18:56:37.96ID:drp//ZQC
自然言語理解=単語と助詞の連想ゲーム。例えば「象はバナナを食べる」はOKだ が、
「バナナは象を食べる」は×。こ のように現実に有り得ない組合せ は、予め削除しておく。
嘉門達夫の 「あったら怖いセレナーデ」を、一 億通り作成しておきたい。
310デフォルトの名無しさん
垢版 |
2015/05/15(金) 16:53:00.42ID:9Z/KxJs4
日本語の語彙的換言知識の質的評価
https://dl.dropboxusercontent.com/u/2152477/arc/14/14NLC-kajiwara.pdf
日本語の語彙平易化システムの構築
https://dl.dropboxusercontent.com/u/2152477/arc/15/15IPSJ-kajiwara.pdf
高専関連報道記事を活用した活動情報の獲得と分析

https://dl.dropboxusercontent.com/u/2152477/arc/15/15NLP-konishi.pdf
高次脳機能障害スクリーニング検査支援ツールの開発

https://dl.dropboxusercontent.com/u/2152477/arc/15/15NLP-yamamoto.pdf
日本語の語彙平易化評価セットの構築

https://dl.dropboxusercontent.com/u/2152477/arc/15/15NLP-kajiwara.pdf
評判分析における品詞情報と意味類型情報の有効性比較

https://dl.dropboxusercontent.com/u/2152477/arc/15/15NLP-okada.pdf
311デフォルトの名無しさん
垢版 |
2015/06/11(木) 16:58:19.47ID:10eKY6On
ボトムアップな言い換え事例収集
ある範囲のテキストをとことん言い換える (内省)
 l 仮説: 100人集めればある程度の網羅性を担保できる
 l パイロット作業
n BCCWJから言い換え元の文をサンプル
n ひたすら言い換え →150事例/5時間(ペースはほぼ一定)
 l trivial なものも結構含む
 l minimal pair となる負例は別途要作成
l 宮尾さん「人間の限界はたかがしれている」
http://paraphrasing.org/~fujita/publications/fujita-NLP2015WS-slides.pdf
312デフォルトの名無しさん
垢版 |
2015/06/13(土) 10:59:18.21ID:oC83Eqv7
才能の無い人の思い付きほど邪魔なものはない
313デフォルトの名無しさん
垢版 |
2015/06/20(土) 06:18:33.41ID:hFZryW7a
2.1 述語項構造に基づく共起関係のモデル化
述語項構造は, 述語とその任意個の項の関係を記述するものである. 例えば,
HPSG に基づく構文解析器 Enju によると, 以下の文

An importer might be able to make payment in his own domestic currency.

に関して表 1 のような述語と項の関係が得られる.Enju における述語項構造では,
動詞だけでなく任意の単語が述語として扱われる. 表 1 では, 主語と目的語に対応する
名詞句を項とする他動詞 make に加え,動詞句の付加部を構成する前置詞 in も述語
として扱われている. これにより, 様々な種類の述語を介して句と句の関係が記述される.

http://www.logos.t.u-tokyo.ac.jp/~hassy/publications/nlp2015/paper.pdf
314デフォルトの名無しさん
垢版 |
2015/06/20(土) 07:25:49.31ID:hFZryW7a
3.1 よく知られている単語の抽出
スクリーニング検査の被験者は,一般的に高齢者が多く,「三単語復唱」で用いる単語には新造語や流行語
は適切ではない.これに対し,童話や童謡は,対象が幼児,児童である故に,そこに出現する単語の多くは,
あらゆる年代の人間に親しみ深く,非常に認知度が高い.そこで,本研究では童話や童謡歌詞を題材とし,
それらに出現頻度の高い名詞を抽出して,「三単語」の候補とすることにした.
本研究では,日本の童話 210 編,童謡 90 曲1をコーパスとして用い,そこから,出現頻度の高い名詞を自
動抽出した.抽出された名詞を日本語語彙大系2の一般名詞意味属性体系に準拠させて「食べ物」,「乗り物」,
「植物」,「動物」,「建築物」,「日用品」,「スポーツ」,「空想物」の 8 つのカテゴリに分類して格納する.
これら 8 つのカテゴリは,互いに意味属性体系上の包含関係が生じないように定めた.この作業の終了後,
「三単語」に適さないと思われる名詞を手動で削除し,さらに,各カテゴリに,適切と思われる名詞を適量ずつ追加した.
http://www.anlp.jp/proceedings/annual_meeting/2015/pdf_dir/B4-4.pdf
315デフォルトの名無しさん
垢版 |
2015/06/20(土) 08:37:02.94ID:hFZryW7a
言語処理部とシミュレータ部を組み合わせることで、「場合の数・確率」の文章題に自動で解答する
システムを開発中であるが、現状では正答率は低い。シミュレータ部では、多くの問題タイプに対応
できるようにして、より汎用的なプログラムにする必要がある。言語処理部では、問題文を変換する
パターンを増やしていき、変換可能率をあげるとともに、オブジェクトが玉でないものにも対応する必要がある。

数学確率文章題の自動解答システムの開発

http://www.anlp.jp/proceedings/annual_meeting/2015/pdf_dir/B2-3.pdf

これができるようになれば、東ロボは東大理3入ってるだろう。
2015/06/20(土) 12:11:28.08ID:hFZryW7a
文章中の数箇所をワイルドカードで置き換えることによって
表現されるいわゆる文章テンプレートは, 自然言語生成の分野
で使われ, また, ワイルドカードに入る語を見ることで関係抽
出にも使われる. 次々に新しいテンプレートを増やす必要があ
る場合, 人手でテンプレートを作る作業は高コストであり自動
的にテンプレートを抽出する必要がある.
http://www.anlp.jp/proceedings/annual_meeting/2015/pdf_dir/D1-2.pdf
2015/06/21(日) 00:51:58.71ID:hjBNKoPn
>>302
Apache solarより
Indriというデータベースの方が良いと聞いた
318デフォルトの名無しさん
垢版 |
2015/06/21(日) 00:53:04.18ID:hjBNKoPn
>>304
の間違い
319デフォルトの名無しさん
垢版 |
2015/06/22(月) 11:16:04.74ID:FGMmqqpL
本稿では,マンガ作品において重要な要素である登場人物の顔領域検出について,
学習サンプルの違いによる検出率の変化を検討する.マンガの登場人物の顔領域は
現実の顔画像と比較して,個々の特徴変化が大きい傾向にある.
そこで,顔検出器の学習に,特定の登場人物の顔画像のみを使用した場合と,
複数の登場人物の顔画像を使用した場合について,検出率の比較を行った.

http://www.ams.giti.waseda.ac.jp/pdf-files/2015IEICE_D_12_31_yanagisawa.pdf
320デフォルトの名無しさん
垢版 |
2015/06/22(月) 13:30:11.67ID:10N9eACE
東ロボは別のスレたてろ
321デフォルトの名無しさん
垢版 |
2015/06/22(月) 20:47:32.82ID:WAMJP5Js
全国大会とかゴミだから邪魔
322デフォルトの名無しさん
垢版 |
2015/06/23(火) 07:28:27.73ID:gLR1mXdw
4. アノテーション作業と問題点
「たら」「れば」「なら(ば)」の3つの条件表現アノテーション作業はガイドライン設計
者 2 名で行った。それぞれの表現について、多くの文章の中から該当の表現が出現
する部分を抜き出し、その用法がどのカテゴリに属するかを、テストをもとに判断した。
アノテーションの件数は「たら」「れば」「なら(ば)」それぞれ 200 件ずつ、計 600 件行った
アノテーションを行う中で、以下のような例に対するアノテーションが問題となった。
https://www.ninjal.ac.jp/event/specialists/project-meeting/files/JCLWorkshop_no7_papers/JCLWorkshop_No.7_10.pdf

 実験の結果から, 全体的に「対象」の役割をもつヲ格名詞句に焦点が置かれる傾向があるが,
段階的に「対象」から「到達点」あるいは「道具」へ焦点が移っているということがわかった. 焦点
が置かれるところが類似している動詞は, 意味内容も似通っていることが明らかになったといえる.
 日本語の使役空間移動動詞には, 「−が−に−を 動詞」の型と「−が−で−を 動詞」型があるが,
どちらの型もとれる動詞もある. その場合,対象がヲ格で示され, ニ格で到達点が示された動詞は,
そのニ格がヲ格となって中身よりも容器のほうに焦点が置かれ, ヲ格の対象物はデ格で表されることになる.
 これらの動詞について, 対象物・到達点・容器・道具を示すと考えられる名詞句のどこに焦点が置かれ,
それを話題として取り上げるか, その傾向を調べたのであるが, 全体的にはヲ格名詞句に焦点が置か
れる傾向があることが明らかになった.
http://www.jcss.gr.jp/themes/jcss2014/meetings/JCSS2014/proceedings/pdf/JCSS2014_P1-27.pdf

辞典類にあって、 「し」の用法としては、 〈並列〉と〈原因理由〉とは立項されるが、 〈果〉は立てられていない。
たしかに、、〈34)の例は〈果〉を示しているが注意しておくべきは「だから」の語が直前にあるように、
そうした接続語の支えが必要であるように思うが、このことは、 「し」が何を列挙するのかということを
考える上でも興味深いように思う。
http://www.lib.shimane-u.ac.jp/kiyo/a014/035/004.pdf
2015/06/23(火) 12:24:22.70ID:gLR1mXdw
従来の係り受けアノテーションは、専門家がそれぞれの文節に対して一つの係り先をタグ付けしている。
この手法だと、例 (2) のように、意味的にはどちらにもとれるような係り受けに対して、係り先をどちらか
に決める必要があり問題となる。
本タスクでは、クラウドソーシングによる係り受けのアノテーションを試行した。一つのタスクは、一つ
の文節の係り先を判定するタスクとした。ワーカーへのインストラクションを図 1 に示す。係り先の候補と
しては、KNP が出力する係り先候補とタグ付きコーパスの正解係り先とした。タグ付きコーパスとしては、
京都大学 Web 文書リードコーパス 2 を用いた。このコーパスは京大コーパスと同じ基準で係り受けがタグ
付けされている。
Yahoo!クラウドソーシング 3 を用いて、一つの文節の係り先につき 10 人のワーカーに判定を依頼した。

https://kaigi.org/jsai/webprogram/2015/pdf/2L3-4.pdf

項省略型は,動詞などの述語の項が省略されているケースで,いわゆるゼロ照応として知られている
問題である.ゼロ照応解析は述語項構造解析の範囲であるが,ゼロ照応解析には自動解析が困難な
例が多数存在しており,すべての問題を対象に自動解析を試みた場合に解析精度が極端に低くなる
ことが報告されている [飯田 12].特に,今回は省略された項が述語と異なる文に出現する文間ゼロ照応
の問題となっているが,文間ゼロ照応の自動解析は文内ゼロ照応と比較して精度が極端に低く
(例えば [今村 15])依然大きな課題である.
https://kaigi.org/jsai/webprogram/2015/pdf/2L3-4.pdf
2015/06/24(水) 10:18:27.20ID:fsHZ6HK+
Apache solarはsenを組み込めるけど
他でmecab組み込めたりするのあるのかな
325デフォルトの名無しさん
垢版 |
2015/06/24(水) 22:50:57.26ID:RNNpRBpA
mosesのmlでまたバカが騒ぎ出した
326デフォルトの名無しさん
垢版 |
2015/06/25(木) 13:26:33.36ID:DHp0BB+5
アノテーションは、人手でやるしかない。コンピュータはただの計算機で自然言語はただの文字列にすぎず、
人間が教えていかないとどうにもならない。

自分は NAIST 松本研にいたからこそこういうタグ付けの方法論を教わったが、自然言語処理の研究室でも
ほとんどの研究室ではこういうノウハウがなく、卒論や修論で闇雲にタグ付けして再利用できないデータが
再生産されているのではないか、と懸念する(先輩から引き継いだ、というか教員から渡されたデータを使っ
て実験したりしても、元々のデータがあやしいのでちゃんとした研究にならない、みたいな)。
コロナ社の言語処理シリーズでもアノテーションの方法論について誰か書いてくれるといいのに、と編集の方
にときどきお話ししているのだが、想定読者が少なすぎるのか(確かにマニアックなテーマで、ほとんどの人
はデータを作る側ではなく使う側)、引き受け手がいないのか、まだ動きが見えないようである。
http://d.hatena.ne.jp/mamoruk/20150529/p1

2 つ目は,4.4.2 項で述べたエラー要因に対する対策を実現することである.対応策の
中には,否定表現や時制表現の処理など,比較的容易に実現できるものもあるが,特にエ
ラーの要因の中で大きな割合を占める人物抽出やパターンに関する問題の解決策は時間
をかけて深く探求する必要がある.M人手 においては完全に人手でパターンの構築を行っ
ているため,パターンが少ないことが大きな問題である.そのため,人物間の関係を表す
典型的な言い回しを数多く発見する手法を検討する必要がある.
https://dspace.jaist.ac.jp/dspace/bitstream/10119/12702/5/paper.pdf

もっと沢山の、人手によるアノテーションコーパスが必要。
2015/06/30(火) 09:53:09.21ID:HPXFOTKK
JavaだとMavenにmecabあるので自動でインストールできるけど
Cabochaがないみたい

みんな手動でインストールしてるの?
2015/06/30(火) 12:11:15.70ID:3qn7PSIa
はい
2015/06/30(火) 21:26:32.37ID:TRsjzCuz
かぼちゃインストールめんどくさいよねえ
330デフォルトの名無しさん
垢版 |
2015/07/01(水) 07:24:28.67ID:jIHWDdJH
KNPのほうがめんどくさくね?
331デフォルトの名無しさん
垢版 |
2015/07/01(水) 21:28:38.00ID:V1VHs37R
野良レポジトリでcabochaらしきものあったけど
2015/07/03(金) 12:58:38.55ID:xhUgkep8
mavenに

mecab
kuromoji
go

形態素解析ばかり3つもあるのか
どれが一番いいんだろ

cabochaも誰かつくればいいのに
2015/07/04(土) 23:32:46.44ID:RxNq2g3r
mecabがダントツでデファクト
2015/07/08(水) 01:38:18.18ID:QVdVWp6D
http://www.lemurproject.org/indri/
IndriにMeCab組み込んで日本語検索してる研究らしき発表はあるのに
公式のホームページにMeCabの組み込み方が書いてない

ワイルドカード検索できるっぽいからSolrより良い感じなんだけど
日本語検索の方法がわからない
335デフォルトの名無しさん
垢版 |
2015/07/08(水) 06:14:03.89ID:iCYqIP+y
solrもワイルドカードできるだろ
2015/07/08(水) 11:39:07.72ID:65nXd/Mo
以前に使った時はSolrのワイルドカード検索はかなり機能が限定的だった
*が一ヶ所しか使えなくて複数がダメだった
337デフォルトの名無しさん
垢版 |
2015/07/11(土) 07:30:19.31ID:C8cgx19B
じゃあindriでやれば?
2015/07/18(土) 17:06:52.27ID:IQ+2wK5V
機能表現解析の結果を表 1,2 に示す.これらの結果より,CRF を用いることでベースラインよりも
高い性能での機能表現解析が可能であることが分かった.CRFの結果から,範囲同定は比較的高
い性能で行えるが,曖昧性解消は難しいことが分かった.
https://www.ipsj.or.jp/award/9faeag0000004ej9-att/5Q-02.pdf

本稿では,数学入試問題自動解法の概要を示した後,その技術課題について述べる。
http://img.jp.fujitsu.com/downloads/jp/jmag/vol66-4/paper03.pdf
2015/08/07(金) 16:15:26.34ID:UBcknauV
Mecabで分かち書きしたのを結合して元の文章にもどす
逆変換の様なものってないのでしょうか

やりたいのは名刺部分だけ言い換えをした文を作りたいのです
340デフォルトの名無しさん
垢版 |
2015/08/07(金) 22:10:35.42ID:bzlwzbgh
名刺部分か。。。
難しいかもね
2015/08/07(金) 22:49:42.50ID:eSh4n7lV
プログラムは全く書けないの?ものすごく単純な事だと思うんだけど
ただスパムっぽいので協力したくない
342デフォルトの名無しさん
垢版 |
2015/08/07(金) 23:06:48.26ID:wRRiJPql
Mecabはそもそも単語の位置を返すので、結合も糞もないと思いますが。
2015/08/07(金) 23:30:11.31ID:eSh4n7lV
多分wakatiオプションで半角スペース区切りされてるのをくっつけたいんだと思う
2015/08/07(金) 23:32:33.40ID:kPH4MtZ6
>>339
すごく高度な質問なので皆んな戸惑ってるよ。
事例を載せてくれた方が分かりやすい。入力した原文、MeCabの出力、期待する結果。
345デフォルトの名無しさん
垢版 |
2015/08/08(土) 03:26:46.26ID:U78hTTuj
MecabはC++で書かれているので、C++から使うのが一番楽です。
ラティスを好きなようにいじれば好きなように加工できます。
2015/08/08(土) 09:42:57.56ID:0g109lmq
質問を見る限りC++を使えるとは思えないのでPythonRubyあたりが無難だと思う
347デフォルトの名無しさん
垢版 |
2015/08/08(土) 13:51:08.73ID:H7ZgeVqn
イイエ、C++が一番簡単です。
2015/08/08(土) 15:52:12.50ID:0g109lmq
彼がコンパイルの概念を理解できるとは思えないので
2015/08/08(土) 16:45:27.74ID:UXYE7e/V
C++は言語自体が扱いずらいだろ
350デフォルトの名無しさん
垢版 |
2015/08/08(土) 16:51:37.06ID:H7ZgeVqn
使ってみた中ではJavascriptが一番難しかった。
ハゲそうになる。
2015/08/08(土) 16:53:39.89ID:UXYE7e/V
>>347
>>350
どう考えてもC++よりJavaScriptのほうがやさしい
352デフォルトの名無しさん
垢版 |
2015/08/08(土) 17:03:17.95ID:H7ZgeVqn
イヤイヤ、Javascriptはかなり難しいよ。

C++は基本的に型がハッキリしてるから、コンパイラが誤りをみつけてくれるけど、
Javascriptは実行しないとわからない。
テストを書いても簡単にすり抜けるし、毛が抜ける。
2015/08/08(土) 17:30:12.22ID:UXYE7e/V
JavaScriptよりC++がかんたんに思えるとしたら
それはおそらくC++をCに近い状態で書いている
354デフォルトの名無しさん
垢版 |
2015/08/08(土) 17:37:01.00ID:H7ZgeVqn
>>353
Cもかなり難しいよ。

C++が一番簡単だよ。
C++11以降はほとんど何の文句もない。
やりたいことがすぐできるようになってる。

元の話題に出てくる、MecabをもしもJavascriptで書くとかなったら
腹痛と吐き気に悩まされると思う。
誰でも。
2015/08/08(土) 17:56:22.37ID:mAU+OpWx
君がJavaScriptの書き方知らないだけでしょ
2015/08/08(土) 18:24:19.95ID:UXYE7e/V
>>354
>Cもかなり難しい
C ⊂ C++ だからCのほうがやさしい

>C++が一番簡単
おそらくC++とJSの学習量が違ってる
同じ学習量だったらJSのほうがやさしい
357デフォルトの名無しさん
垢版 |
2015/08/08(土) 18:32:46.48ID:H7ZgeVqn
>>356
イヤイヤ、C++が一番簡単。

Cなんてオーバーロードすらできないし。
2015/08/08(土) 18:49:06.65ID:mAU+OpWx
テスト書いててすり抜けの意味がわからない
jsの仕様わかってないだけやん
2015/08/08(土) 18:58:24.44ID:QwAfSdLt
>>356
一票!
360デフォルトの名無しさん
垢版 |
2015/08/08(土) 19:06:53.94ID:H7ZgeVqn
Javascriptは難しいよ。
テンプレートすらないし。
2015/08/09(日) 08:06:39.17ID:Qi9vnN0I
頭がC++で凝り固まってるんだろ
多言語使えない可哀想なやつになっちゃったね
2015/08/09(日) 14:40:14.70ID:aboGxbYP
動的型言語のjavascriptに対して、templateも無いから難しいって言ってる時点で、jsに対する知見がないわけで、、、
知見のない人が優劣判断なんて出来るはずもないと思うの、、、
363デフォルトの名無しさん
垢版 |
2015/08/09(日) 18:55:33.51ID:XcPHqnDO
速度重視と言いながらmltonを使わずにc言語使っちゃう人が多すぎる
どこが速度重視なんだ
364デフォルトの名無しさん
垢版 |
2015/08/09(日) 20:52:48.18ID:Icb40LOY
JavaScript書き方が多彩すぎてつらい
365デフォルトの名無しさん
垢版 |
2015/08/09(日) 20:54:49.89ID:Icb40LOY
JavaScript書き方が多彩すぎてつらい
2015/08/09(日) 21:27:14.38ID:aboGxbYP
大事なこと?
2015/08/09(日) 22:32:14.42ID:pJNpRnPb
本当にJavascriptで自然言語処理してるのか?
2015/08/15(土) 01:46:01.15ID:90IR3onH
動的型付けが簡単だと言ってる奴は書捨てしか書いたことないか脳内型推論が得意な天才
2015/08/21(金) 09:53:06.85ID:gbC4ODJM
田宮栄一かよ
2015/08/23(日) 18:26:25.13ID:PCzDkU9i
分布表現の正確な定義は?
371デフォルトの名無しさん
垢版 |
2015/08/31(月) 18:43:52.25ID:8EAWBV0c
25000×25000=626000000通りの「共起関係」、及び29種類の「属性」を、人力で分析してアノテーションコーパスを作成すべき!

(3) 学習語彙:小学生用の国語辞典に登録されている語彙約 25000 語。語彙数は,『新教育基本語彙』[3]などを根拠とする。
小学生の理解語彙の上限を示すとされる。
http://www.nise.go.jp/kenshuka/josa/kankobutsu/pub_f/f-141/f-141_2.pdf

本研究では,意味の似ている語をまとめると共起ベクトルの距離は近くなるという仮定を前提に,単語間の共起頻度を用い
るのではなく,単語に付随する意味属性を利用する.単語の意味属性には,単語を意味によって分類整理したシソーラスであ
る分類語彙表を利用し分類語に適用する.
http://db-event.jpn.org/deim2015/paper/335.pdf

意味役割の種類
現段階での意味役割の種類を記述する.大きく 4 つの類にわけて,中分類で 29 種類を定義した.
さらにこれらに対して属性タイプが付与される形である.まず 29 種類を以下に示す.
構文類 ? 連語,外の関係,補語相当
対象類 ? 経験者,被使役者,対象,基準, 相互, 起点,着点,起点・着点,通過点,経路,方向
動作主類 ? 使役,原因,動作主,使役者,手段
条件周辺類 ? 限界,領域,場所,時間,条件,様態,程度,目的,順接,逆接
http://www.ninjal.ac.jp/event/specialists/project-meeting/files/JCLWorkshop_no6_papers/JCLWorkshop_No6_06.pdf
372デフォルトの名無しさん
垢版 |
2015/09/02(水) 08:44:33.62ID:gyrealzj
ここって低レベルな話でもいい?

全文検索したくてSuffix Arrayを作ってみたんだけど
調べるとTrieというデータ構造もあるじゃない?

Trieで文字単位の全文検索の準備をする場合は
Trie構築時に文字列の開始位置を1文字ずつずらして切り出した文字列を入力すればいいの?
373デフォルトの名無しさん
垢版 |
2015/09/08(火) 17:07:13.89ID:kn1dOvzd
新井 今の人工知能にとって一番難しいのは深い言語処理。例えば、人間が何かを命令してロボットがそれを
理解して何かをする場合、命令パターンが決まっていれば簡単です。ですが災害救助現場などで、人間が何か
の指示をして、ロボットが画像認識による状況理解と合わせて問題解決する場合は難しい。そして、
もっとも必要なのは深い言語処理です。
 数学や物理の問題に見られる非常に限られたフレームという縛りがある設定であっても、現段階の自然言語
処理では極めて困難です。でもそこが一番伸びしろが大きいことも事実です。
https://cakes.mu/posts/10730
374デフォルトの名無しさん
垢版 |
2015/09/12(土) 09:59:59.57ID:SNkY48rJ
>>371
>25000×25000=626000000通りの「共起関係」

有り得る共起関係、有り得ない共起関係。

例えば「自動車に乗る」は○だが、「雲に乗る」は×。
375デフォルトの名無しさん
垢版 |
2015/10/01(木) 15:50:28.34ID:wVM5vSk2
職業PGだけど専門が違います。
趣味で自然言語処理やりたいですがいいですか?
376デフォルトの名無しさん
垢版 |
2015/10/01(木) 15:55:49.74ID:ioIU6evz
 これを見てわかることは、Googleの翻訳は、図20でもとても理解し難いところがあったように性能はそこそこですが、
Yahooの翻訳は、人間が機械と同じ条件で行った翻訳にかなり近いレベルまで達しています。よって、
点数をみた限りでは、翻訳システムによっては、文脈まで考えなければこれ以上の上達は難しいことがわかります。
人間でも、文脈を考えるかどうかで10ポイント以上の差がついているので、機械翻訳がこれ以上人間並みに近づくためには、
文章の前後の繋がりを考えるという、計算機にとっては殊の外大きな技術的チャレンジが必要なことが、
このデータを基にわかったという実験結果です。
http://www.scat.or.jp/scatline/scatline98/pdf/scat98_seminar_01.pdf
377デフォルトの名無しさん
垢版 |
2015/10/02(金) 06:13:00.34ID:dkvJ4zDP
単語の使われ方の類似度をベクトルで表現したいんですが、どんな方法がいいでしょうか?
他の単語との距離空間をつくるのがいいと思ってるんですが
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況