前前スレ 自然言語処理スレッド その2
http://mimizun.com/log/2ch/tech/1173105287/
前スレ 自然言語処理スレッド その3
http://mimizun.com/log/2ch/tech/1235129481/
このスレッドでは、日本語の構文解析、談話理解、情報検索、
文章生成などの技術に関する理論と(おもに)実装を扱います。
あくまでアプリケーションプログラミングの技術的な面に重点をおきたいので、
学術的な話はアリですが、いわゆる人工無能や哲学的AI話、
言語学の話題などは他のスレッドでお願いします。
探検
自然言語処理スレッド その4
■ このスレッドは過去ログ倉庫に格納されています
1デフォルトの名無しさん
2014/06/03(火) 05:40:00.54ID:yefNLumx199デフォルトの名無しさん
2014/11/18(火) 14:10:53.64ID:7YVftxrd 人工無脳学会はないの?
200sage
2014/11/18(火) 20:56:42.46ID:jieDrr0b >>198
本当だよね。このスレは本来需要が高いはずなんだけど、スパム投稿で荒らされてる気がする。
本当だよね。このスレは本来需要が高いはずなんだけど、スパム投稿で荒らされてる気がする。
201デフォルトの名無しさん
2014/11/18(火) 21:19:15.86ID:f2DqKBZs 自然言語処理の需要ってあんの?
202デフォルトの名無しさん
2014/11/18(火) 21:44:26.22ID:EImKA09P >>200
削除願い出したら?
削除願い出したら?
203sage
2014/11/19(水) 01:09:50.33ID:hLraT9DN 削除して再出発しても、自分の意見のない荒らし君が来るとまた同じだからなぁ。
204デフォルトの名無しさん
2014/11/19(水) 05:37:54.13ID:SWof/ihh じゃあ聞くけど東大ロボットて問題どう読み込んでるの
世界史なんか図をを認識する必要があるのに
まさか手作業で、コンピュータに理解できるように
入力してるじゃあないだろうなw
世界史なんか図をを認識する必要があるのに
まさか手作業で、コンピュータに理解できるように
入力してるじゃあないだろうなw
205デフォルトの名無しさん
2014/11/19(水) 06:50:11.76ID:CbmB6PIS 長文禁止とかいうルール無いからなぁ…荒らしとは判断し辛い。
長文投げる人がコテつけてくれたらいいんじゃないかな?読みたい人は読めて長文嫌いな人は黙ってNGできるように。
長文投げる人がコテつけてくれたらいいんじゃないかな?読みたい人は読めて長文嫌いな人は黙ってNGできるように。
206デフォルトの名無しさん
2014/11/20(木) 08:59:42.01ID:AVgM9bDZ でも画像処理スレが他にあるのにここで変な話されてもね
207デフォルトの名無しさん
2014/11/21(金) 19:28:46.00ID:u/qmfXxQ >>206
画像が東ロボの本質というわけではないよね。
画像が東ロボの本質というわけではないよね。
209デフォルトの名無しさん
2014/11/21(金) 22:00:40.78ID:o0Qb8YAB210デフォルトの名無しさん
2014/11/21(金) 22:33:18.98ID:u7zfQT1D211デフォルトの名無しさん
2014/11/22(土) 01:13:12.25ID:AHB+ph+z212デフォルトの名無しさん
2014/11/22(土) 01:16:42.03ID:g4vKpQIM 何言ってんだ?
213デフォルトの名無しさん
2014/11/22(土) 14:09:13.78ID:6/H2UDnl エラー分析まとめ
<誤り 200事例 分析結果>
@正解を支持する推論事例が得られていても誤った
? 従来の知識表現で?適切でない推論事例が適用されてしまうのではないか?
→ 大部分を占めている.@事象間関係知識?文脈化
A正解を支持する推論事例が得られなかった
? 2億もの推論事例をもってしても得られない → 類似した事例が在るが適用できない
? より大規模にすれ?解決する問題なのか? → そういった問題?少ない
http://www.cl.ecei.tohoku.ac.jp/~jun-s/publications/nlp2014_slides.pdf
<誤り 200事例 分析結果>
@正解を支持する推論事例が得られていても誤った
? 従来の知識表現で?適切でない推論事例が適用されてしまうのではないか?
→ 大部分を占めている.@事象間関係知識?文脈化
A正解を支持する推論事例が得られなかった
? 2億もの推論事例をもってしても得られない → 類似した事例が在るが適用できない
? より大規模にすれ?解決する問題なのか? → そういった問題?少ない
http://www.cl.ecei.tohoku.ac.jp/~jun-s/publications/nlp2014_slides.pdf
214デフォルトの名無しさん
2014/11/22(土) 16:10:30.29ID:6qlI/h48 人口知能
詐欺集団の合言葉
役人の受けがいい、人口知能関連で科研費が出やすい
何時までも詐欺行為がとまらない
詐欺集団の合言葉
役人の受けがいい、人口知能関連で科研費が出やすい
何時までも詐欺行為がとまらない
215デフォルトの名無しさん
2014/11/22(土) 19:26:32.72ID:ueFBqDyb 「人口知能」じゃ予算は出ないと思うけど
216デフォルトの名無しさん
2014/11/22(土) 22:49:14.76ID:o5aDMJLX いかにも僻み根性だけで生きている無能らしい誤字だな
217デフォルトの名無しさん
2014/11/23(日) 02:01:52.03ID:PwhPUgLb218デフォルトの名無しさん
2014/11/23(日) 02:42:03.48ID:PwhPUgLb 新井紀子氏「これは面白い結果。"含意関係認識は人間には易しく機械には難しい"と我々人工
知能/自然言語処理の学者は考えているが、本当にすべての人間は含意関係認識を行えるのだろうか」
知能/自然言語処理の学者は考えているが、本当にすべての人間は含意関係認識を行えるのだろうか」
219デフォルトの名無しさん
2014/11/23(日) 03:50:57.22ID:EIkF2ojA 情報工学の連中はなぜ自分らのやってることをサイエンスだと思ってるんだ?
220デフォルトの名無しさん
2014/11/23(日) 03:57:22.23ID:K4bM7kRY 確かにどっちかというと数学に近い
221デフォルトの名無しさん
2014/11/23(日) 04:24:52.15ID:EIkF2ojA 数学ならサイエンスだろ
アホか
アホか
222デフォルトの名無しさん
2014/11/23(日) 10:31:00.56ID:K4bM7kRY もうしわけないが数学はサイエンス=自然科学ではないね
223デフォルトの名無しさん
2014/11/23(日) 10:43:58.95ID:heOpQ8vp お前の中ではな。
224デフォルトの名無しさん
2014/11/23(日) 10:52:01.52ID:U8weQpWK 工学はエンジニアリングだしな。
こういったごく基本的な語の解釈すら怪しい奴が何を批判しようとしても自爆するのは当然w
こういったごく基本的な語の解釈すら怪しい奴が何を批判しようとしても自爆するのは当然w
226デフォルトの名無しさん
2014/11/23(日) 15:07:14.96ID:z0t1kbZ2 数学が自然科学じゃなきゃ何に分類されるって言うんだそもそもスレチだが
227デフォルトの名無しさん
2014/11/23(日) 15:13:23.98ID:K4bM7kRY228デフォルトの名無しさん
2014/11/23(日) 18:57:03.46ID:PERA2nvu 51. 意味素性 つづき ?出来事および動作、作用の領域:PRC ?ACT(動作、行為) ?EVE(イベント、出来事)
?APO(予定に従った行動: ex 銀行が9時から始まる) ?RES(結果 ex 災害) ?PRO(結果、制作物 ex パンを焼く)
?PHE(自然現象の結果できるもの ex 氷が張る) ?NAT(自然物、現象 ex 台風、太陽) ?PLA(植物) ?GAS(気体 ex 霧、息)
?ELM(五感では捉えられない性質 ex たんぱく質、神 経) ?POT(身体部位 potency ex 足、肩、肺、胃腸)
52. 意味素性 つづき ?抽象性の領域:ABS ?Price(収入、価格) ?Measure(身長、体重) ?Information(情報、身長、小説、音楽、批評、住所)
?Quantity(重量、面積) ?Social bonds(格差、関係) ?Grade(身分、評価、規模) ?Form (評価される属性 ex 味、形)
?Attribute(程度で計るもの ex 非常識、進歩、塩) ?Reciprocity(相性) ?Personality(意地、性格) ?Mind (勘、神経)
?Manner(能力、性向など ex 料理、詰め、発表、運転、色 使い、人使い)
53. 意味素性 つづき ?抽象性の領域:ABS ?Method(方法、やり方) ?Objective-value(値 ex 赤、四角) ?Sensational-value(甘い、辛い)
?Evaluation(評価 ex 台所が苦しい、財政、舌) ?Currency(価格 ex 100ドル、1000円) ?Duration(期間 ex 3年) ?Distance (距離 ex 3km)
?Item(数を表す、ex 3人、1個) ?Ratio(割合, ex 30%) ?Quantity(量 ex 30kg) ?State(状態 ex安定、幸福、不幸、静か、可能、頑固)
54. 意味素性 つづき ?抽象性の領域:ABS ?Role(役職名) ?Relational-term(親族、交友関係) ?Direction(東西南北左右上下前後)
?Phase(時間的、位置的順序) ?Reference-point(基準点からの相対 ex 逆、以上) ?Norm(規則、法則、法律、公式)
?Subfield(学問、芸術、スポーツなどの分野) ?Inclination(心理的傾向 ex 興味、馴染み) ?Appearance(外見 ex印象、態度、形跡)
?Unit(単位) ?Time-point(時点) ?Time(出来事の順序関係、抽象的時間 ex 将来)
http://www.slideshare.net/hirsoshnakagawa3/grammar-39910952
?APO(予定に従った行動: ex 銀行が9時から始まる) ?RES(結果 ex 災害) ?PRO(結果、制作物 ex パンを焼く)
?PHE(自然現象の結果できるもの ex 氷が張る) ?NAT(自然物、現象 ex 台風、太陽) ?PLA(植物) ?GAS(気体 ex 霧、息)
?ELM(五感では捉えられない性質 ex たんぱく質、神 経) ?POT(身体部位 potency ex 足、肩、肺、胃腸)
52. 意味素性 つづき ?抽象性の領域:ABS ?Price(収入、価格) ?Measure(身長、体重) ?Information(情報、身長、小説、音楽、批評、住所)
?Quantity(重量、面積) ?Social bonds(格差、関係) ?Grade(身分、評価、規模) ?Form (評価される属性 ex 味、形)
?Attribute(程度で計るもの ex 非常識、進歩、塩) ?Reciprocity(相性) ?Personality(意地、性格) ?Mind (勘、神経)
?Manner(能力、性向など ex 料理、詰め、発表、運転、色 使い、人使い)
53. 意味素性 つづき ?抽象性の領域:ABS ?Method(方法、やり方) ?Objective-value(値 ex 赤、四角) ?Sensational-value(甘い、辛い)
?Evaluation(評価 ex 台所が苦しい、財政、舌) ?Currency(価格 ex 100ドル、1000円) ?Duration(期間 ex 3年) ?Distance (距離 ex 3km)
?Item(数を表す、ex 3人、1個) ?Ratio(割合, ex 30%) ?Quantity(量 ex 30kg) ?State(状態 ex安定、幸福、不幸、静か、可能、頑固)
54. 意味素性 つづき ?抽象性の領域:ABS ?Role(役職名) ?Relational-term(親族、交友関係) ?Direction(東西南北左右上下前後)
?Phase(時間的、位置的順序) ?Reference-point(基準点からの相対 ex 逆、以上) ?Norm(規則、法則、法律、公式)
?Subfield(学問、芸術、スポーツなどの分野) ?Inclination(心理的傾向 ex 興味、馴染み) ?Appearance(外見 ex印象、態度、形跡)
?Unit(単位) ?Time-point(時点) ?Time(出来事の順序関係、抽象的時間 ex 将来)
http://www.slideshare.net/hirsoshnakagawa3/grammar-39910952
229デフォルトの名無しさん
2014/11/23(日) 18:57:20.44ID:yTKWpXRp 役に立てばどっちでもいいよ
230デフォルトの名無しさん
2014/11/23(日) 19:14:32.75ID:uAltGaNh 整数は神が作ったから整数論は自然科学
それ以外は人間がつくったkら形式科学
それ以外は人間がつくったkら形式科学
231デフォルトの名無しさん
2014/11/23(日) 19:22:23.28ID:PERA2nvu グーグルが開発を進めている、写真を「自動的に説明する」技術
http://wired.jp/2014/11/20/google-image-recognition/
自然言語処理に新風を巻き起こしたWord2Vecとは何か
http://business.nikkeibp.co.jp/article/bigdata/20141110/273649/
述語項構造を意識した名詞の意味構造アノテーションのための名詞意味構造の検討
http://www.ninjal.ac.jp/event/specialists/project-meeting/files/JCLWorkshop_no6_papers/JCLWorkshop_No6_06.pdf
意味役割の種類
現段階での意味役割の種類を記述する.大きく 4 つの類にわけて,中分類で 29 種類を定義した.
さらにこれらに対して属性タイプが付与される形である.まず 29 種類を以下に示す.
構文類 ? 連語,外の関係,補語相当
対象類 ? 経験者,被使役者,対象,基準, 相互, 起点,着点,起点・着点,通過点,経路,方向
動作主類 ? 使役,原因,動作主,使役者,手段
条件周辺類 ? 限界,領域,場所,時間,条件,様態,程度,目的,順接,逆接
http://wired.jp/2014/11/20/google-image-recognition/
自然言語処理に新風を巻き起こしたWord2Vecとは何か
http://business.nikkeibp.co.jp/article/bigdata/20141110/273649/
述語項構造を意識した名詞の意味構造アノテーションのための名詞意味構造の検討
http://www.ninjal.ac.jp/event/specialists/project-meeting/files/JCLWorkshop_no6_papers/JCLWorkshop_No6_06.pdf
意味役割の種類
現段階での意味役割の種類を記述する.大きく 4 つの類にわけて,中分類で 29 種類を定義した.
さらにこれらに対して属性タイプが付与される形である.まず 29 種類を以下に示す.
構文類 ? 連語,外の関係,補語相当
対象類 ? 経験者,被使役者,対象,基準, 相互, 起点,着点,起点・着点,通過点,経路,方向
動作主類 ? 使役,原因,動作主,使役者,手段
条件周辺類 ? 限界,領域,場所,時間,条件,様態,程度,目的,順接,逆接
232デフォルトの名無しさん
2014/11/23(日) 19:26:53.14ID:PmCQRqdR233デフォルトの名無しさん
2014/11/23(日) 19:34:46.40ID:U8weQpWK 2ちゃんねらーなんか動員したら、ゴミの山が出来上がるだけ。
徴兵とか徴農とかがたいしてうまくいくシステムじゃないのと同じ。
徴兵とか徴農とかがたいしてうまくいくシステムじゃないのと同じ。
234デフォルトの名無しさん
2014/11/23(日) 21:41:51.89ID:PmCQRqdR でも、アノテーションコーパスは、人手でやるしかないんでしょ。
235デフォルトの名無しさん
2014/11/24(月) 03:15:43.74ID:wqHflsYn 無意味なコピペするやつやめてくんない?
236デフォルトの名無しさん
2014/11/24(月) 11:35:30.53ID:rXGvP499 >>228とかホント迷惑だよね。お前の意見はないの?という。
237デフォルトの名無しさん
2014/11/24(月) 23:07:25.90ID:PS8Utgm4238デフォルトの名無しさん
2014/11/25(火) 09:26:09.87ID:aL15dD2y 数学では,ある問題を解くために,その問題を別の問題に翻訳して,もとの問題ではなく
て翻訳された問題の方を解く,という方法がとられることがよくあります.A という問
題を解くために,B という問題が解ければ,その解から A の解も得られることが判って
いるような問題 B をうまく設定して,A を解くかわりに B を解くのです.このような
問題 B を見つけることを,「問題 A を問題 B に帰着させる」と表現します.B は以下の
例でのように単に A の言い替えにすぎない場合もありますが,面白いことには,B は A
よりむしろ難しい問題になっていることも多いのです.これは,問題がやさしいか難しい
かは必ずしも問題が解きやすいかどうかということと一致しない,ということでしょう.
多くの場合,解きたい本来の問題 A を帰着させる先の問題 B は A よりずっと抽象的
な問題になっています.これは,前の節でも述べた,抽象的な設定の方が数学的には扱い
やすい,という現象の現われと言えるでしょう.
もとの問題 A が一般的な(必ずしも数学で扱えそうには見えないような)問題で,そ
れを数学的な問題 B に帰着させているときには,A の数学化(mathem atization)が B で
ある,というような言い方をすることもあります.
一般的な問題を数学的な問題に帰着させる,つまりこの一般的な問題の数学化を行う
例として「ケーニヒスベルクの橋の問題」という名前で知られている問題について考察し
てみることにしましょう.
http://kurt.scitec.kobe-u.ac.jp/~fuchino/chubu/method-math-WS06.pdf
て翻訳された問題の方を解く,という方法がとられることがよくあります.A という問
題を解くために,B という問題が解ければ,その解から A の解も得られることが判って
いるような問題 B をうまく設定して,A を解くかわりに B を解くのです.このような
問題 B を見つけることを,「問題 A を問題 B に帰着させる」と表現します.B は以下の
例でのように単に A の言い替えにすぎない場合もありますが,面白いことには,B は A
よりむしろ難しい問題になっていることも多いのです.これは,問題がやさしいか難しい
かは必ずしも問題が解きやすいかどうかということと一致しない,ということでしょう.
多くの場合,解きたい本来の問題 A を帰着させる先の問題 B は A よりずっと抽象的
な問題になっています.これは,前の節でも述べた,抽象的な設定の方が数学的には扱い
やすい,という現象の現われと言えるでしょう.
もとの問題 A が一般的な(必ずしも数学で扱えそうには見えないような)問題で,そ
れを数学的な問題 B に帰着させているときには,A の数学化(mathem atization)が B で
ある,というような言い方をすることもあります.
一般的な問題を数学的な問題に帰着させる,つまりこの一般的な問題の数学化を行う
例として「ケーニヒスベルクの橋の問題」という名前で知られている問題について考察し
てみることにしましょう.
http://kurt.scitec.kobe-u.ac.jp/~fuchino/chubu/method-math-WS06.pdf
239デフォルトの名無しさん
2014/11/25(火) 12:38:38.21ID:7PX75+Zb 無意味なコピペ迷惑だからやめてくんない?
240デフォルトの名無しさん
2014/11/25(火) 12:48:45.94ID:jd8KQlKm 反応する馬鹿も消えろよww
241デフォルトの名無しさん
2014/11/25(火) 12:50:18.42ID:7PX75+Zb 叩かないと消えないでしょ
242デフォルトの名無しさん
2014/11/25(火) 13:21:08.54ID:jd8KQlKm tech:プログラム技術[重要削除]
http://qb5.2ch.net/test/read.cgi/saku2ch/1273146924/
http://qb5.2ch.net/test/read.cgi/saku2ch/1273146924/
243デフォルトの名無しさん
2014/11/25(火) 14:01:43.88ID:aL15dD2y コーパス開発はオープンにした方がよい、という提言で、全てのやり取りを公開しましょう、
という話なのだが、オープンソースソフトウェア開発のようにソースコードから開発のやり取り
まで全てをオープンにできる場合もあるが、コーパス作成は元のテキストを書いた人がいるわけで、
全てをオープンにできないという性格がどうしてもつきまとう。もちろん再利用可能なテキスト
にアノテーションをすればいいし、テキストを作るところからオープンにもできるわけだが、
それで見えなくなってしまう言語現象も少なくないと思われるし(実際講演の中でも「少数の
事例をどうするか」という問題提起があった)、個人的にはセミクローズド(特定のグループ内で共有)
程度が現実的なところではないかと思う。
それより大事だと思われるのは、そういったコーパス開発に参加する、あるいは門前の小僧状態で聞
くだけでも人が育つことであって、結局ここがボトルネックになり、特定の研究室の出身者しかノウハウがない、
という状況になっているのだと思う。特に個人的にポイントだと思っているのは、先日も書いたような新人
に対して優しいコミュニティになっているかどうかで、自然言語処理自体はかなり新人が入りやすい
コミュニティだと思うのだが、ことコーパスや辞書のようなリソース作成系はかなりハードルが高いと感じる。
コーパス分析やそれを用いた自動解析に関しても、簡単にできるところはすでにやり尽くされていて、
残っているのは難しいところばかりで、簡単なところから練習してウォーミングアップし、
助走期間を設けて本丸に突撃する、というようになっていないのである。もちろん最先端を走る研究者
たちで議論するのはもっとも難しい事例でよいし、むしろそうでないと意味がないのだが、簡単な事例
から始める(あるいは既存のものの分析からではなく、新しいタグ付与にメンターつきで最初から関わる)、
というトレーニングもあってよいと思う。
http://d.hatena.ne.jp/mamoruk/20140902/p1
という話なのだが、オープンソースソフトウェア開発のようにソースコードから開発のやり取り
まで全てをオープンにできる場合もあるが、コーパス作成は元のテキストを書いた人がいるわけで、
全てをオープンにできないという性格がどうしてもつきまとう。もちろん再利用可能なテキスト
にアノテーションをすればいいし、テキストを作るところからオープンにもできるわけだが、
それで見えなくなってしまう言語現象も少なくないと思われるし(実際講演の中でも「少数の
事例をどうするか」という問題提起があった)、個人的にはセミクローズド(特定のグループ内で共有)
程度が現実的なところではないかと思う。
それより大事だと思われるのは、そういったコーパス開発に参加する、あるいは門前の小僧状態で聞
くだけでも人が育つことであって、結局ここがボトルネックになり、特定の研究室の出身者しかノウハウがない、
という状況になっているのだと思う。特に個人的にポイントだと思っているのは、先日も書いたような新人
に対して優しいコミュニティになっているかどうかで、自然言語処理自体はかなり新人が入りやすい
コミュニティだと思うのだが、ことコーパスや辞書のようなリソース作成系はかなりハードルが高いと感じる。
コーパス分析やそれを用いた自動解析に関しても、簡単にできるところはすでにやり尽くされていて、
残っているのは難しいところばかりで、簡単なところから練習してウォーミングアップし、
助走期間を設けて本丸に突撃する、というようになっていないのである。もちろん最先端を走る研究者
たちで議論するのはもっとも難しい事例でよいし、むしろそうでないと意味がないのだが、簡単な事例
から始める(あるいは既存のものの分析からではなく、新しいタグ付与にメンターつきで最初から関わる)、
というトレーニングもあってよいと思う。
http://d.hatena.ne.jp/mamoruk/20140902/p1
244デフォルトの名無しさん
2014/11/25(火) 14:04:53.12ID:jd8KQlKm コピペうぜぇ。
誰か削除願い出せや。
誰か削除願い出せや。
245デフォルトの名無しさん
2014/11/25(火) 14:29:27.54ID:aL15dD2y コーパス作成について一からやり直したほうがいいかどうかは、悩ましい問題なので一概にどうだ
ということは言いにくいのですが、アノテーション・コーパス作成自体が大きな研究テーマであり、
ベストプラクティス的なものもなければ、少しだけ蓄積されているノウハウ的なものすらチーム
レベルでしか共有できていない(共有するのが難しい)、という状況です。また、やり直したら
すぐコーパスができるかというと、質の高いコーパスを作るには時間が何年もかかるものなので
(自分の携わった NAIST テキストコーパスは5年以上かかっています)、すぐ利用可能にはならないでしょう。
http://d.hatena.ne.jp/mamoruk/20140902/p1
ということは言いにくいのですが、アノテーション・コーパス作成自体が大きな研究テーマであり、
ベストプラクティス的なものもなければ、少しだけ蓄積されているノウハウ的なものすらチーム
レベルでしか共有できていない(共有するのが難しい)、という状況です。また、やり直したら
すぐコーパスができるかというと、質の高いコーパスを作るには時間が何年もかかるものなので
(自分の携わった NAIST テキストコーパスは5年以上かかっています)、すぐ利用可能にはならないでしょう。
http://d.hatena.ne.jp/mamoruk/20140902/p1
246デフォルトの名無しさん
2014/11/26(水) 10:03:34.88ID:NpjnEUfO 国や自治体は、地球儀で表現できる。物体・流体とその運動は、シミュレーターで表現できる。
人物とその行動はオブジェクトで表現できる。けれども「民主主義」とかの抽象概念は表現できず、
せいぜい共起関係を調べるのみ。例えば朝鮮民主主義人民共和国だって「民主主義」ということで、
北朝鮮=民主主義国家なんて理屈も成り立つ。しかしこれは一般的なイメージとはかけ離れている。
従って抽象概念を一般的なイメージに帰着させるためには、いくつかの具体物を結びつけるしかない。
「世間」とは何か
http://www.pat.hi-ho.ne.jp/nobu-nisi/kokugo/seken.htm
「世間」とは・・・近所のおばさん、警察、新聞、学校、勤め先の会社、知り合い・・・・
人物とその行動はオブジェクトで表現できる。けれども「民主主義」とかの抽象概念は表現できず、
せいぜい共起関係を調べるのみ。例えば朝鮮民主主義人民共和国だって「民主主義」ということで、
北朝鮮=民主主義国家なんて理屈も成り立つ。しかしこれは一般的なイメージとはかけ離れている。
従って抽象概念を一般的なイメージに帰着させるためには、いくつかの具体物を結びつけるしかない。
「世間」とは何か
http://www.pat.hi-ho.ne.jp/nobu-nisi/kokugo/seken.htm
「世間」とは・・・近所のおばさん、警察、新聞、学校、勤め先の会社、知り合い・・・・
247デフォルトの名無しさん
2014/11/27(木) 17:46:09.92ID:+o9Dshrb 英語の論文読むのが苦痛でたまらない
はやく翻訳装置つくってくれ
はやく翻訳装置つくってくれ
248デフォルトの名無しさん
2014/11/28(金) 17:31:36.07ID:7V+kfZOs 対話の学習ってどうやるの?
249デフォルトの名無しさん
2014/11/28(金) 21:08:06.67ID:utFPiG0+ 第二に,3 次元オブジェクトの中には複数の物体から構成されるオブジェクトがある(たとえば,図 6 は「花」と「鉢」
から成る一つのオブジェクトである).今後,画像解析技術が進み,機械が複数の物体から構成されるオブジェクト
を一つ一つの物体に分解できたとしても,機械にとって,それが常識に基づいた構成であるか,常識から外れた
構成であるかを区別することは困難であると推測される.
http://minamigaki.cs.inf.shizuoka.ac.jp/work/2014/SCIS2014fujita.pdf
から成る一つのオブジェクトである).今後,画像解析技術が進み,機械が複数の物体から構成されるオブジェクト
を一つ一つの物体に分解できたとしても,機械にとって,それが常識に基づいた構成であるか,常識から外れた
構成であるかを区別することは困難であると推測される.
http://minamigaki.cs.inf.shizuoka.ac.jp/work/2014/SCIS2014fujita.pdf
250デフォルトの名無しさん
2014/12/01(月) 17:26:06.50ID:7r1s3h7c 目障りなコピペ野郎が
251デフォルトの名無しさん
2014/12/02(火) 19:50:43.04ID:OPiibqqe 東ロボくん センター模試2014
英語………95
国語………69
世界史B… 52
日本史B… 44
数学TA… 40
数学UB… 55
物理………31
7科目合計…386/900
漢文は全問ノーマーク
世界史Bは2問ノーマーク
日本史Bは4問ノーマーク
数学じゃないんだから
分からない問題はランダムにマークしろよ…
英語………95
国語………69
世界史B… 52
日本史B… 44
数学TA… 40
数学UB… 55
物理………31
7科目合計…386/900
漢文は全問ノーマーク
世界史Bは2問ノーマーク
日本史Bは4問ノーマーク
数学じゃないんだから
分からない問題はランダムにマークしろよ…
252デフォルトの名無しさん
2014/12/02(火) 19:51:56.20ID:OPiibqqe 漢文・世界史B・日本史B
ノーマークの問題をすべてランダムにマークしてたら
49.6%の確率で14点以上アップ
つまり49.6%の確率で7科目合計が400点に届いたことになる
ノーマークの問題をすべてランダムにマークしてたら
49.6%の確率で14点以上アップ
つまり49.6%の確率で7科目合計が400点に届いたことになる
253デフォルトの名無しさん
2014/12/02(火) 19:53:47.76ID:OPiibqqe 東ロボくん 英語 センター模試2014
発音・アクセント問題…パーフェクト(配点14)
未知語-語意推測問題…パーフェクト(配点8)
グラフ・図表問題…得点率75%(配点20)
語句整序完成問題…得点率67%(配点12)
意見要旨把握問題…得点率67%(配点18)
文法・語法・語彙問題…得点率60%(配点20)
会話文完成問題…得点率33%(配点12)
文脈に合わない文-指摘問題…得点率33%(配点15)
実用文書読解問題…得点率33%(配点15)
読解問題(論説文)…得点率33%(配点36)
読解問題(情報理解)…全滅(配点30)
発音・アクセント問題…パーフェクト(配点14)
未知語-語意推測問題…パーフェクト(配点8)
グラフ・図表問題…得点率75%(配点20)
語句整序完成問題…得点率67%(配点12)
意見要旨把握問題…得点率67%(配点18)
文法・語法・語彙問題…得点率60%(配点20)
会話文完成問題…得点率33%(配点12)
文脈に合わない文-指摘問題…得点率33%(配点15)
実用文書読解問題…得点率33%(配点15)
読解問題(論説文)…得点率33%(配点36)
読解問題(情報理解)…全滅(配点30)
254デフォルトの名無しさん
2014/12/02(火) 19:54:56.87ID:OPiibqqe 東ロボくん 国語(現代文) センター模試2014
漢字…パーフェクト(配点10)
語句の意味…得点率67%(配点9)
評論読解…得点率50%(配点40)
小説読解…得点率32%(配点41)
漢字…パーフェクト(配点10)
語句の意味…得点率67%(配点9)
評論読解…得点率50%(配点40)
小説読解…得点率32%(配点41)
255デフォルトの名無しさん
2014/12/02(火) 19:55:07.53ID:iCHrVmBA 東ロボくんの話しないでくれない?
256デフォルトの名無しさん
2014/12/02(火) 21:51:00.22ID:E8W1d5Nr >>255
お前実は、自分で長文コピペ貼っておいて、自作自演してる張本人だろ?
お前実は、自分で長文コピペ貼っておいて、自作自演してる張本人だろ?
257デフォルトの名無しさん
2014/12/03(水) 20:07:38.80ID:+0WWtRs0 >>253
未知語の推測問題、推測するまでもなく意味を知ってたんじゃないのこれ
未知語の推測問題、推測するまでもなく意味を知ってたんじゃないのこれ
258デフォルトの名無しさん
2014/12/03(水) 21:02:56.05ID:14+GtqTY 文章が入力されたら、隠れマルコフモデルがたくさん存在する集合に射影するようなことできないかなぁ
259デフォルトの名無しさん
2014/12/03(水) 22:32:37.61ID:H1Y0sahg NAISTの自動音声翻訳
2013年、初級通訳者レベルに到達
ドコモが機械翻訳の会社「みらい翻訳」を設立
機械翻訳の精度は現在TOEIC 600点レベル
2016年までにTOEIC 700点レベル、2019年までにTOEIC 800点レベルを目指す
TOEIC 600点レベルなら、センター英語はもっと点とれるんじゃないの?
東ロボ英語チームはみらい翻訳と組めばいいかもね
2013年、初級通訳者レベルに到達
ドコモが機械翻訳の会社「みらい翻訳」を設立
機械翻訳の精度は現在TOEIC 600点レベル
2016年までにTOEIC 700点レベル、2019年までにTOEIC 800点レベルを目指す
TOEIC 600点レベルなら、センター英語はもっと点とれるんじゃないの?
東ロボ英語チームはみらい翻訳と組めばいいかもね
260デフォルトの名無しさん
2014/12/04(木) 11:13:59.73ID:h+gvphcs word2vecはギリギリまで次元を減らして意味ありげな指標を作っただけという可能性
261デフォルトの名無しさん
2014/12/04(木) 16:22:22.74ID:NIw8k+Ja 翻訳はしょせん入出力が一対一レベルじゃろ 文脈をどこまで見てるかもあやしい
262デフォルトの名無しさん
2014/12/04(木) 18:17:46.95ID:5hTqY9uU 東ロボくん 東大模試2014
理系数学…36/120(偏差値55.7)
文系数学…32/80(偏差値54.1)
理系数学…36/120(偏差値55.7)
文系数学…32/80(偏差値54.1)
263デフォルトの名無しさん
2014/12/04(木) 18:19:56.45ID:5hTqY9uU 「理論上は」東ロボくんがほぼ全ての入試問題(数学)を解ける「目処」が立ったらしいが
まだ課題があるみたい
http://blog.livedoor.jp/dg_law/archives/52234923.html
まだ課題があるみたい
http://blog.livedoor.jp/dg_law/archives/52234923.html
264デフォルトの名無しさん
2014/12/04(木) 21:03:38.82ID:MwWrePzc 東ロボくん専用スレ立ててこのスレでは禁止していいかな?
265デフォルトの名無しさん
2014/12/04(木) 21:26:07.87ID:otxDKoZc そうね。
本人がロボットみたいだしw
本人がロボットみたいだしw
266デフォルトの名無しさん
2014/12/04(木) 21:50:05.85ID:+VhC1jdJ >>264
削除願い出したら?
削除願い出したら?
267片山博文MZ次期CEO ◆T6xkBnTXz7B0
2014/12/07(日) 12:57:22.31ID:O40P0GQH268デフォルトの名無しさん
2014/12/09(火) 07:42:52.02ID:NLTvYswf 公務員試験だけの先生が東ロボの話をコピペしているの?
269デフォルトの名無しさん
2014/12/15(月) 06:54:15.73ID:NngIclHu 東ロボにRubyは使えないのか?
力学シミュレーションと可視化
これまでRubyで軽くシミュレーションを書くのはかなり困難なことでした。
微分方程式はRuby-GSLで解けますがインストールは非常に煩雑でした。
可視化に関しては決定的な方法がなかったように思います。 (私がよく知らないだけかもしれませんが…)
今ではFortranをラップしたODE gem (gem install odeだけでインストール可能)で常微分方程式
を解くことができます。 また、IRubyに新しく加わったCustomWidgetを使うことで、Rubyとネイティブ
拡張の出した結果をリアルタイムにブラウザ上に表示できます。この場合JavaScriptの有名なdom操作ライブラリ、
jQueryやd3.jsを使って可視化部分を簡単に書くことができます。
http://domitry.hatenablog.jp/entry/science_with_ruby
力学シミュレーションと可視化
これまでRubyで軽くシミュレーションを書くのはかなり困難なことでした。
微分方程式はRuby-GSLで解けますがインストールは非常に煩雑でした。
可視化に関しては決定的な方法がなかったように思います。 (私がよく知らないだけかもしれませんが…)
今ではFortranをラップしたODE gem (gem install odeだけでインストール可能)で常微分方程式
を解くことができます。 また、IRubyに新しく加わったCustomWidgetを使うことで、Rubyとネイティブ
拡張の出した結果をリアルタイムにブラウザ上に表示できます。この場合JavaScriptの有名なdom操作ライブラリ、
jQueryやd3.jsを使って可視化部分を簡単に書くことができます。
http://domitry.hatenablog.jp/entry/science_with_ruby
270デフォルトの名無しさん
2014/12/16(火) 14:52:53.84ID:hxvZqs1F271デフォルトの名無しさん
2014/12/17(水) 13:49:18.49ID:+8T0slzN >>245
>自分の携わった NAIST テキストコーパスは5年以上かかっています
それでもアノテーションコーパスの充実は、今後ますます必要になってくると思う。
□現象?多様性?カバーできているのか?
SNS文書,論文など別?種類?文書へアノテーションが必要
□学習アルゴリズム・解析アルゴリズム・特徴抽出?さらなる改善
現象?多様性を捉えるには? 今まで?延長線上でうまくいくか? 問題?観点を効果的に捉えるには?
□情報共有
アノテーション時?経験則,問題?評価指標
□ジレンマ
学術的に?問題を安定させなけれ?共有が難しい /
今後想定される応用に向けて問題?改編が必要
□アノテーションしたデータだけ対象にしていていいのか?
アノテーション学 vs ポスト経験主義
述語項構造と照応関係?アノテーション:
NAISTテキストコーパス構築?経験から
飯田龍(NICT), 小町守(首都大),井之上直也(デンソー・東北大),
乾健太郎(東北大), 松本裕治(NAIST)
http://www.anlp.jp/anniversary/20th_sympo/slide_iida.pdf
>自分の携わった NAIST テキストコーパスは5年以上かかっています
それでもアノテーションコーパスの充実は、今後ますます必要になってくると思う。
□現象?多様性?カバーできているのか?
SNS文書,論文など別?種類?文書へアノテーションが必要
□学習アルゴリズム・解析アルゴリズム・特徴抽出?さらなる改善
現象?多様性を捉えるには? 今まで?延長線上でうまくいくか? 問題?観点を効果的に捉えるには?
□情報共有
アノテーション時?経験則,問題?評価指標
□ジレンマ
学術的に?問題を安定させなけれ?共有が難しい /
今後想定される応用に向けて問題?改編が必要
□アノテーションしたデータだけ対象にしていていいのか?
アノテーション学 vs ポスト経験主義
述語項構造と照応関係?アノテーション:
NAISTテキストコーパス構築?経験から
飯田龍(NICT), 小町守(首都大),井之上直也(デンソー・東北大),
乾健太郎(東北大), 松本裕治(NAIST)
http://www.anlp.jp/anniversary/20th_sympo/slide_iida.pdf
272デフォルトの名無しさん
2014/12/18(木) 17:37:40.91ID:h7yCp+rM 長文を箇条書きにするというのは恐らく文書要約の範疇で、盛んに研究されているところだと思いますが、
重要文抽出以外はまだ実用的には難しいでしょう(文抽出以上のことをしようとすると、意味を理解しないといけなくなる)。
最近はニュースの配信アプリケーション・サービスが盛んに開発されていて、ざっくりまとめたりする機能がありますが、
自然言語処理の最先端の技術が使われているというよりは、かなりルールを書いたり、人手を入れたりしている、と聞いたことがあります。
http://d.hatena.ne.jp/mamoruk/20140902
コーパスのアノテーションは、ものによりますが人海戦術でなんとかなるものではなく、人を増やしても質が確保できない
(むしろ悪化する)ため、少数の人数で長期間作成する、というのが典型的な方法です。最近はクラウドソーシングによって、
多数の人間にアノテーションをさせる、という試みがなされていますが、自然言語処理は画像認識ほどには一般的ではありません。
見てすぐ分かる、というタスクならいいのですが、少し考えないといけないようなタスクが多いからでしょう。
画像認識については、リンク先を拝見しましたが、これは画像認識だけの問題ではなく、かなり難しい類の問題であると思います。
何が「余計」かというのを分かるためには、答えを推測できないと分からないように思いますし、いまの東ロボプロジェクトの数学
を公理系(数式)に落とし込んで推論(というか証明で)解くアプローチでは、このような問題は苦しいのではないでしょうか(
予測して探索するようなアプローチをする必要があり、どちらかというと証明系というよりはゲームAIの推論のような感じ?
要は大規模なデータからのパターンマッチにする、というパラダイムにする、とうことです)。これを幾何の問題のまま解こうと
するのは数学の解答エンジンを一から作り直すことに相当すると思われますし、このプロジェクトのフォーカスからは離れそうです。
http://d.hatena.ne.jp/mamoruk/20140822
重要文抽出以外はまだ実用的には難しいでしょう(文抽出以上のことをしようとすると、意味を理解しないといけなくなる)。
最近はニュースの配信アプリケーション・サービスが盛んに開発されていて、ざっくりまとめたりする機能がありますが、
自然言語処理の最先端の技術が使われているというよりは、かなりルールを書いたり、人手を入れたりしている、と聞いたことがあります。
http://d.hatena.ne.jp/mamoruk/20140902
コーパスのアノテーションは、ものによりますが人海戦術でなんとかなるものではなく、人を増やしても質が確保できない
(むしろ悪化する)ため、少数の人数で長期間作成する、というのが典型的な方法です。最近はクラウドソーシングによって、
多数の人間にアノテーションをさせる、という試みがなされていますが、自然言語処理は画像認識ほどには一般的ではありません。
見てすぐ分かる、というタスクならいいのですが、少し考えないといけないようなタスクが多いからでしょう。
画像認識については、リンク先を拝見しましたが、これは画像認識だけの問題ではなく、かなり難しい類の問題であると思います。
何が「余計」かというのを分かるためには、答えを推測できないと分からないように思いますし、いまの東ロボプロジェクトの数学
を公理系(数式)に落とし込んで推論(というか証明で)解くアプローチでは、このような問題は苦しいのではないでしょうか(
予測して探索するようなアプローチをする必要があり、どちらかというと証明系というよりはゲームAIの推論のような感じ?
要は大規模なデータからのパターンマッチにする、というパラダイムにする、とうことです)。これを幾何の問題のまま解こうと
するのは数学の解答エンジンを一から作り直すことに相当すると思われますし、このプロジェクトのフォーカスからは離れそうです。
http://d.hatena.ne.jp/mamoruk/20140822
273デフォルトの名無しさん
2014/12/19(金) 11:41:50.67ID:Rp55Z5Hh 無意味な長文コピペやめろ
274デフォルトの名無しさん
2014/12/22(月) 13:05:29.12ID:mCwiHCRV コピペするなよ!
絶対にコピペするなよ!
絶対にコピペするなよ!
275デフォルトの名無しさん
2015/01/01(木) 13:33:29.53ID:BsJlAb0F 自然言語処理のエラー分析は、これまた困難らしい。
Project Next NLP という、いろいろなタスクでエラー分析をする日本の自然言語処理コミュニティの一大実験プロジェクト
があるのだが、予想通り大変そうである(自分は今年度子育ての負荷が高いことが分かっていたので、結局メインでは
参加していない)。こういう機会が必要なことは恐らくこの業界のほとんどの人が賛同すると思うのだが、実際にエラーを
分析しようとすると、アノテーションの経験がありかつ言語学にも詳しい人がプロジェクト内に複数人いないと、
そもそもエラー分析自体がまともに回らないと思うし、もしそういう人たちが中核にいたとしても、議論が白熱して
毎回侃侃諤諤の議論になることうけあいなのである。
http://d.hatena.ne.jp/mamoruk/20141112/p1
Project Next NLP という、いろいろなタスクでエラー分析をする日本の自然言語処理コミュニティの一大実験プロジェクト
があるのだが、予想通り大変そうである(自分は今年度子育ての負荷が高いことが分かっていたので、結局メインでは
参加していない)。こういう機会が必要なことは恐らくこの業界のほとんどの人が賛同すると思うのだが、実際にエラーを
分析しようとすると、アノテーションの経験がありかつ言語学にも詳しい人がプロジェクト内に複数人いないと、
そもそもエラー分析自体がまともに回らないと思うし、もしそういう人たちが中核にいたとしても、議論が白熱して
毎回侃侃諤諤の議論になることうけあいなのである。
http://d.hatena.ne.jp/mamoruk/20141112/p1
276デフォルトの名無しさん
2015/01/01(木) 13:39:38.39ID:BsJlAb0F アノテーションに関しては、自然言語処理におけるアノテーションに特化したような和書はありませんね。需要はあると思うので、
出版社の方が見えたとき、そのような本を企画されては、と提案したことはあります。ただし、体系化することが難しいので、
書くには骨が折れると思います。ほとんどの場合、仕様を解説されても意味が分からないので、読む人が言語現象自身に詳しく
(つまり言語学の知識があり)、かつ自然言語処理にも明るい(つまりプログラムを書いて機械学習を行う処理がイメージできる)
必要がありますので、入門書とはならないでしょうし、個人的にも入門書ではなく専門書としてちゃんと書いたほうがいいと思っています。
http://d.hatena.ne.jp/mamoruk/20140902
出版社の方が見えたとき、そのような本を企画されては、と提案したことはあります。ただし、体系化することが難しいので、
書くには骨が折れると思います。ほとんどの場合、仕様を解説されても意味が分からないので、読む人が言語現象自身に詳しく
(つまり言語学の知識があり)、かつ自然言語処理にも明るい(つまりプログラムを書いて機械学習を行う処理がイメージできる)
必要がありますので、入門書とはならないでしょうし、個人的にも入門書ではなく専門書としてちゃんと書いたほうがいいと思っています。
http://d.hatena.ne.jp/mamoruk/20140902
277デフォルトの名無しさん
2015/01/01(木) 17:51:57.22ID:LvmvuVw0 RDF等に関しては自然言語処理よりはウェブマイニング(広義の人工知能研究)で盛んに
研究されていますが、ほとんどの研究は英語が対象で、日本語でちゃんとしたリソースは
作られていないというのが現状だと思います。だからどう(日本語でも作るべき)だとい
うわけではないですが、少なくとも東ロボのプロジェクト期間内にどうこうできるという話ではないでしょう。
個人的には、ここは確かに研究の余地があるところだと思っているのですが、英語で書かれた
リソースと比べると日本語で書かれたリソースが少ない(かつ分野が偏っている)という問題と、
日本語が英語と比べると処理しにくいという問題のため、英語のように精度の高いリソースを
作るのはそんなに簡単ではないと思っています。(たとえば、英語だと2つの名詞句の間の文字列
を取ってくれば、だいたい述語が取れるので、構文解析によらない頑健な処理ができますが、
日本語では述語は文の末尾に出現するので、係り受け解析をしないと述語が分からず、なかなか頑健にはできなさそう)
http://d.hatena.ne.jp/mamoruk/20140902
研究されていますが、ほとんどの研究は英語が対象で、日本語でちゃんとしたリソースは
作られていないというのが現状だと思います。だからどう(日本語でも作るべき)だとい
うわけではないですが、少なくとも東ロボのプロジェクト期間内にどうこうできるという話ではないでしょう。
個人的には、ここは確かに研究の余地があるところだと思っているのですが、英語で書かれた
リソースと比べると日本語で書かれたリソースが少ない(かつ分野が偏っている)という問題と、
日本語が英語と比べると処理しにくいという問題のため、英語のように精度の高いリソースを
作るのはそんなに簡単ではないと思っています。(たとえば、英語だと2つの名詞句の間の文字列
を取ってくれば、だいたい述語が取れるので、構文解析によらない頑健な処理ができますが、
日本語では述語は文の末尾に出現するので、係り受け解析をしないと述語が分からず、なかなか頑健にはできなさそう)
http://d.hatena.ne.jp/mamoruk/20140902
278デフォルトの名無しさん
2015/01/04(日) 08:53:09.06ID:Vh1lmQHV このコピペの動機はなんなの?
守本人なの?
守本人なの?
279デフォルトの名無しさん
2015/01/04(日) 19:32:49.96ID:UrD0d14K コピペが無くても誰も書き込まないスレッドをコピペのせいにするなよ
280デフォルトの名無しさん
2015/01/05(月) 07:11:49.24ID:755b/Otu コピペが無くても誰も書き込まないスレッドをコピペのせいにして申し訳なく思います
281デフォルトの名無しさん
2015/01/06(火) 21:01:58.55ID:rhCaR8KF まるで何かの宣伝みたい。
282デフォルトの名無しさん
2015/02/12(木) 14:36:17.01ID:LHb2oe4V RDFトリプルセットは「連想・推論」に利用できるので、人力でRDF辞典を作成しておきたい。
自然言語の多義性・曖昧性は、これである程度解消できるはず。
提案手法では,開世界仮説に基づき,RDF グラフからそれより高い表現力をもつ SROIQ概念の極小モデルを推論できる.
さらに,ある概念の極小モデルが一意に決まることを利用し,与えられたRDF グラフから記述できるすべての概念を生成
する停止性をもつアルゴリズムを提案した.
http://sigswo.org/papers/SIG-SWO-A1402/SIG-SWO-A1402-10.pdf
(x,y,z)=(主語,述語,目的語)で、出現頻度の多い順に並べる、あるいは少ない順に並べる。高頻度のトリプルがやたら多いということは、
逆に言えば他と似たり寄ったりでつまらないコンテンツである可能性が高い。出現頻度の少ない組み合わせは、オリジナル表現か
あるいはナンセンス文かのどちらか。例えば「女性は子供を産む機械」。こういうのは普通に「女性 子供」で検索しても出ない。
コーパス作成について一からやり直したほうがいいかどうかは、悩ましい問題なので一概にどうだということは言いにくいのですが、
アノテーション・コーパス作成自体が大きな研究テーマであり、ベストプラクティス的なものもなければ、少しだけ蓄積されている
ノウハウ的なものすらチームレベルでしか共有できていない(共有するのが難しい)、という状況です。また、やり直したらすぐコーパス
ができるかというと、質の高いコーパスを作るには時間が何年もかかるものなので(自分の携わった NAIST テキストコーパスは
5年以上かかっています)、すぐ利用可能にはならないでしょう。
http://d.hatena.ne.jp/mamoruk/20140822
今後,画像解析技術が進み,機械が複数の物体から構成されるオブジェクトを一つ一つの物体に分解できたとしても,機械にとって,
それが常識に基づいた構成であるか,常識から外れた構成であるかを区別することは困難であると推測される.
http://minamigaki.cs.inf.shizuoka.ac.jp/work/2014/SCIS2014fujita.pdf
『常識』なるものは、専ら人力で登録するしかない。コンピューターなんていくら高性能でもただの計算機に過ぎないのだから。
自然言語の多義性・曖昧性は、これである程度解消できるはず。
提案手法では,開世界仮説に基づき,RDF グラフからそれより高い表現力をもつ SROIQ概念の極小モデルを推論できる.
さらに,ある概念の極小モデルが一意に決まることを利用し,与えられたRDF グラフから記述できるすべての概念を生成
する停止性をもつアルゴリズムを提案した.
http://sigswo.org/papers/SIG-SWO-A1402/SIG-SWO-A1402-10.pdf
(x,y,z)=(主語,述語,目的語)で、出現頻度の多い順に並べる、あるいは少ない順に並べる。高頻度のトリプルがやたら多いということは、
逆に言えば他と似たり寄ったりでつまらないコンテンツである可能性が高い。出現頻度の少ない組み合わせは、オリジナル表現か
あるいはナンセンス文かのどちらか。例えば「女性は子供を産む機械」。こういうのは普通に「女性 子供」で検索しても出ない。
コーパス作成について一からやり直したほうがいいかどうかは、悩ましい問題なので一概にどうだということは言いにくいのですが、
アノテーション・コーパス作成自体が大きな研究テーマであり、ベストプラクティス的なものもなければ、少しだけ蓄積されている
ノウハウ的なものすらチームレベルでしか共有できていない(共有するのが難しい)、という状況です。また、やり直したらすぐコーパス
ができるかというと、質の高いコーパスを作るには時間が何年もかかるものなので(自分の携わった NAIST テキストコーパスは
5年以上かかっています)、すぐ利用可能にはならないでしょう。
http://d.hatena.ne.jp/mamoruk/20140822
今後,画像解析技術が進み,機械が複数の物体から構成されるオブジェクトを一つ一つの物体に分解できたとしても,機械にとって,
それが常識に基づいた構成であるか,常識から外れた構成であるかを区別することは困難であると推測される.
http://minamigaki.cs.inf.shizuoka.ac.jp/work/2014/SCIS2014fujita.pdf
『常識』なるものは、専ら人力で登録するしかない。コンピューターなんていくら高性能でもただの計算機に過ぎないのだから。
283デフォルトの名無しさん
2015/02/18(水) 13:15:42.49ID:dIyx5cm4 >>282
>機械にとって,それが常識に基づいた構成であるか,常識から外れた構成であるかを区別することは困難であると推測される.
自動作成が困難な「違和感CAPTCHA」は、試験問題作成委員と東ロボとイラスト作成支援ツールや
過去問改題支援ツールを併用し、人力と機械力のハイブリッドで効率的に作成する。イラスト理解は
コンピューターには困難だが人間には易しい。難しい東大の過去問も、懇切丁寧な誘導付きで易しい問題
に改題すればいい。センター数学は人間には易しいが東ロボには困難だ。またそれ専門のセキュリティ
企業を設立して、効率よく大量生産できるようにしたい。できれば一日あたり一万通りくらいは作りたい。
三回間違えたら30分間はアクセス禁止にするとか。そうすれば2chのアラシ投稿も激減するはずだ。
「ぐにゃぐにゃ文字CAPTCHA」にはもうウンザリ。
>機械にとって,それが常識に基づいた構成であるか,常識から外れた構成であるかを区別することは困難であると推測される.
自動作成が困難な「違和感CAPTCHA」は、試験問題作成委員と東ロボとイラスト作成支援ツールや
過去問改題支援ツールを併用し、人力と機械力のハイブリッドで効率的に作成する。イラスト理解は
コンピューターには困難だが人間には易しい。難しい東大の過去問も、懇切丁寧な誘導付きで易しい問題
に改題すればいい。センター数学は人間には易しいが東ロボには困難だ。またそれ専門のセキュリティ
企業を設立して、効率よく大量生産できるようにしたい。できれば一日あたり一万通りくらいは作りたい。
三回間違えたら30分間はアクセス禁止にするとか。そうすれば2chのアラシ投稿も激減するはずだ。
「ぐにゃぐにゃ文字CAPTCHA」にはもうウンザリ。
284デフォルトの名無しさん
2015/02/18(水) 15:59:15.93ID:dIyx5cm4 あと、2ちゃんねるでの板違いスレ立て乱立防止のために、「資格試験CAPTCHA」を導入するとか。
例えばプログラマー板なら、基本情報技術者試験の午前問題で、7割正解しないと投稿できないようにするとか。
例えばプログラマー板なら、基本情報技術者試験の午前問題で、7割正解しないと投稿できないようにするとか。
285デフォルトの名無しさん
2015/02/21(土) 17:29:42.70ID:VfWo/10x 人間は完璧を求める。物体に穴が開いていると、物体の一部が欠けていると、そのギャップを埋めようとする。
次の画像を見ると、実際には存在しないものの、円と長方形に見えてくる。
閉合の法則が存在しない状態では、長さの異なる線にしか見えないが、閉合の法則により、線を組み合わせて、形として見る。
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/1/8/186ef42f.jpg
http://www.seojapan.com/blog/8-web-design-rules
82. 1. 記述範囲として20sの領域を選択 2. 領域を4 4(=16)ブロックに分割 3.
記述範囲をオリエンテーション方向に回転 方向の正規化 20s 20s 82
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/e/1/e1a13d79.jpg
http://www.slideshare.net/MPRG_Chubu_University/sift-32258833
我々人間は、無意識のうちに膨大な量のコモンセンス知識を、日常生活の中で自然と会得し共有している。
人間に近い思考をする人工知能を実現するためには、コンピュータ上にコモンセンス知識の巨大なデータベース
を構築する必要がある。ビッグデータを扱う技術と組み合わせれば、人工知能の思考精度を向上させる土台となる。
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/2/9/2989d626.jpg
http://business.nikkeibp.co.jp/art…/bigdata/20140722/268973/
次の画像を見ると、実際には存在しないものの、円と長方形に見えてくる。
閉合の法則が存在しない状態では、長さの異なる線にしか見えないが、閉合の法則により、線を組み合わせて、形として見る。
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/1/8/186ef42f.jpg
http://www.seojapan.com/blog/8-web-design-rules
82. 1. 記述範囲として20sの領域を選択 2. 領域を4 4(=16)ブロックに分割 3.
記述範囲をオリエンテーション方向に回転 方向の正規化 20s 20s 82
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/e/1/e1a13d79.jpg
http://www.slideshare.net/MPRG_Chubu_University/sift-32258833
我々人間は、無意識のうちに膨大な量のコモンセンス知識を、日常生活の中で自然と会得し共有している。
人間に近い思考をする人工知能を実現するためには、コンピュータ上にコモンセンス知識の巨大なデータベース
を構築する必要がある。ビッグデータを扱う技術と組み合わせれば、人工知能の思考精度を向上させる土台となる。
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/2/9/2989d626.jpg
http://business.nikkeibp.co.jp/art…/bigdata/20140722/268973/
286デフォルトの名無しさん
2015/02/21(土) 21:50:03.02ID:RYr+Lvse もうコピペすんのやめろ
287デフォルトの名無しさん
2015/02/22(日) 12:00:11.88ID:ALoz31q1 全角カンマが論文で多く見られ、一般には余り用いられないことから
,(.|\n)+https?://
をNGにすると結構良いんじゃないだろうか。
あと驚いたのが
る。(.|\n)+https?://
が思ったより誤認識しないこと。これも論文に特徴的な、「である調」を意識したものだが、このスレで引っかかった中で少しでも意見が含まれると思われる投稿は9件に留まった。
リンク先との内容の重複を検出するのが一番なんだろうけどね。
,(.|\n)+https?://
をNGにすると結構良いんじゃないだろうか。
あと驚いたのが
る。(.|\n)+https?://
が思ったより誤認識しないこと。これも論文に特徴的な、「である調」を意識したものだが、このスレで引っかかった中で少しでも意見が含まれると思われる投稿は9件に留まった。
リンク先との内容の重複を検出するのが一番なんだろうけどね。
288デフォルトの名無しさん
2015/02/22(日) 12:27:03.95ID:z7hrtyyQ 研究者ワナビーのオッサンがコピペしてそうだよな
学歴は高くなさそうなオッサンが
学歴は高くなさそうなオッサンが
289デフォルトの名無しさん
2015/02/22(日) 13:05:32.71ID:I5/HIZJG ふつうに入門書から読めば、学歴がどうあれそれなりに理解はできるだろうにねえ。
わけもわからずそれっぽいweb上の記事を漁って仮にそれを丸ごと暗記できたとしても
何の意味もないのに。
わけもわからずそれっぽいweb上の記事を漁って仮にそれを丸ごと暗記できたとしても
何の意味もないのに。
290デフォルトの名無しさん
2015/02/26(木) 03:40:26.29ID:syX8dA4x Wikipediaのdumpって
いつの日付のが良くベンチマークとして使われてるとかあるのですか?
むしろlatestを使うのが普通なんですか?
いつの日付のが良くベンチマークとして使われてるとかあるのですか?
むしろlatestを使うのが普通なんですか?
291デフォルトの名無しさん
2015/02/26(木) 07:01:52.77ID:Msso4ZG7 なんのベンチマーク?
292デフォルトの名無しさん
2015/02/26(木) 07:27:44.19ID:Xrj2IFMm 言葉を間違ってそう
293デフォルトの名無しさん
2015/02/28(土) 15:19:37.45ID:LSUjOX6L 学歴高いオッサンでポストがあっても話にならんクズは多いけどな
294デフォルトの名無しさん
2015/03/01(日) 03:47:39.01ID:2eKDkVCS あれっ?
CRFって最大エントロピー法の特殊な場合なんだっけ?
CRFって最大エントロピー法の特殊な場合なんだっけ?
295デフォルトの名無しさん
2015/03/01(日) 09:29:41.24ID:SMJwAP9t 似てはいる
296片山博文MZ ◆T6xkBnTXz7B0
2015/03/08(日) 00:31:15.52ID:mm6WxmZr 入力や解析の途中の状態をすべて保存しておけば、
入力・解析が途中で止まっても再開できるぞ。
俺スゲー
入力・解析が途中で止まっても再開できるぞ。
俺スゲー
297デフォルトの名無しさん
2015/03/25(水) 01:12:56.51ID:0RNXcvZ9 https://radimrehurek.com/gensim/wiki.html
に書いてある通りにwikipediaのデータを読み込ませているのだけど
セグメンテーションフォルトで落ちる
メモリー8GのマシンではWikipediaを全部読むのは無理ってことでしょうか?
このドキュメントにはwikipediaのダンプは8Gのファイルサイズって
書いてあるのだけど先月のダンプが12Gあるので
そこも疑ってるのだけど
に書いてある通りにwikipediaのデータを読み込ませているのだけど
セグメンテーションフォルトで落ちる
メモリー8GのマシンではWikipediaを全部読むのは無理ってことでしょうか?
このドキュメントにはwikipediaのダンプは8Gのファイルサイズって
書いてあるのだけど先月のダンプが12Gあるので
そこも疑ってるのだけど
298デフォルトの名無しさん
2015/03/28(土) 11:02:53.34ID:8HMktsnF https://sites.google.com/site/projectnextnlp/ws2015
12:30-13:00 言い換え 「言い換え認識技術の評価に適した言い換えコーパスの構築指針」(論文,スライド)
藤田篤(NICT),柴田知秀(京大),松吉俊(山梨大),
渡邉陽太郎(NEC),梶原智之(長岡技科大)
13:00-13:30 「情報検索のエラー分析」(論文,スライド)
難波英嗣(広島市立大),酒井哲也(早稲田大)
13:30-14:00 「『ロボットは東大に入れるか』プロジェクト 代ゼミセンター模試タスクにおけるエラーの分析」
12:30-13:00 言い換え 「言い換え認識技術の評価に適した言い換えコーパスの構築指針」(論文,スライド)
藤田篤(NICT),柴田知秀(京大),松吉俊(山梨大),
渡邉陽太郎(NEC),梶原智之(長岡技科大)
13:00-13:30 「情報検索のエラー分析」(論文,スライド)
難波英嗣(広島市立大),酒井哲也(早稲田大)
13:30-14:00 「『ロボットは東大に入れるか』プロジェクト 代ゼミセンター模試タスクにおけるエラーの分析」
■ このスレッドは過去ログ倉庫に格納されています
