X



自然言語処理スレッド その4
レス数が1000を超えています。これ以上書き込みはできません。
0001デフォルトの名無しさん垢版2014/06/03(火) 05:40:00.54ID:yefNLumx
前前スレ 自然言語処理スレッド その2
http://mimizun.com/log/2ch/tech/1173105287/
前スレ 自然言語処理スレッド その3
http://mimizun.com/log/2ch/tech/1235129481/

このスレッドでは、日本語の構文解析、談話理解、情報検索、
文章生成などの技術に関する理論と(おもに)実装を扱います。
あくまでアプリケーションプログラミングの技術的な面に重点をおきたいので、
学術的な話はアリですが、いわゆる人工無能や哲学的AI話、
言語学の話題などは他のスレッドでお願いします。
0003片山博文MZ悪魔崇拝 ◆T6xkBnTXz7B0 垢版2014/06/06(金) 16:12:41.21ID:dyn5MnFB
人工言語の構文解析ではたいていの場合、文法は固定されてるよね。
動的に解析する文法を変えたいときは、実行時にパーサジェネレータや
コンパイラを使わないといけないのか?
0004デフォルトの名無しさん垢版2014/06/09(月) 11:47:07.19ID:PtiKDSQ8
研究職でもなければどうせ使い道ないのに
どいつもこいつもword2vec試しやがる
唯一金になりそうなのはparagraph vectorぐらいだな
0005デフォルトの名無しさん垢版2014/06/09(月) 15:08:04.19ID:HHhmYyTe
ユージーン君はどんな技術つかってるの?
0006デフォルトの名無しさん垢版2014/06/09(月) 15:33:05.97ID:PtiKDSQ8
仕事で使ってるのはbag-of-wordsかn-gramだよ
word2vec試しただけの糞記事書いてるカスは消えろ
0007デフォルトの名無しさん垢版2014/06/09(月) 17:49:36.60ID:HHhmYyTe
人工知能の13歳の少年、チューリングテストに“合格”

英レディング大学は6月8日(現地時間)、アラン・チューリング博士没後60周年に当たる7日に同校が
英王立学会で開催した「Turing Test 2014」において、チューリングテストの初の合格者が出たと発表した。

合格したのはウクライナ在住の13歳の少年、ユージーン・グーツマンくんという設定のプログラム。
ユージーンくんは2001年にロシア人のウラジミール・ヴェセロフ氏(米国在住)、ウクライナ人の
ユージーン・デムチェンコ氏(ロシア在住)らが構築した。これまでも多数のチューリングテストイベントに
参加して改良を重ねられてきた。

チューリングテストは、「コンピュータの父」と呼ばれる20世紀の英数学者、アラン・チューリング博士が提案した、
人工知能を知的と呼べるかどうかを判断するためのテスト。人間が人工知能と対話して、
相手が人工知能か人間か判断できなければ、その人工知能は思考しているといえるというもの。
チューリング博士は、5分間のテストで人間の審判の30%をだませれば、人工知能は思考しているといえるとした
(Wikipediaより)。

今回のテストで、審査員の33%(審査員の人数は不明)がユージーンくんを人間だと判断した。

http://image.itmedia.co.jp/news/articles/1406/09/yu_turing.jpg
http://www.itmedia.co.jp/news/articles/1406/09/news049.html
0008デフォルトの名無しさん垢版2014/06/13(金) 22:56:37.05ID:qhg9plHy
馬鹿
0009デフォルトの名無しさん垢版2014/06/14(土) 00:57:41.13ID:O/sWuNjK
お前がなw
0010デフォルトの名無しさん垢版2014/06/14(土) 09:49:46.90ID:C3RmOQgD
1. 言語の背景にある知識は書ききれないぐらい深い
つまりなにか抽象化した意味を記号化した瞬間に背景の実世界から離れてしまい,
人間がするような言語理解は記号化では不可能なように見受けられる.
2. 名詞や動詞の意味は組み合わせで理解されている
いわゆる「名詞の構造」や「動詞の構造」と独立して綺麗に書けない.
3. 自然言語処理システムは分野・タスク依存の情報が必要
クイズを解くならクイズの知識が必要.言語学だけの中立的知識だけではシステムはできない.
4. 汎用的な言語理解システムは難しいように見える
上記 3. と同様で分野依存の知識をいれて初めて使えるようになるので汎用は難しい.
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/E6-2.pdf

代数学や幾何学などは、最も抽象的な集合のもとに理論を積み上げ、さらに、集合の元同士
の関係が複雑になることから、記述する手段として、文字や記号が頻繁に用いられる。もちろ
んその内容は抽象的であり、意味を理解するには、何かしらの具体例に置き換える必要がある。
ところがこのように抽象化が進んだ内容を、具体的にイメージし、その意味を理解することが
できない、あるいは、そもそも記号で書かれている一語一語の意味がまず読み取れない学生が
非常に多く、このことが大学の数学をわからなくする一つの重大な要因となっているのである。

http://satsuki.ex.osaka-kyoiku.ac.jp/~j129307/miyazaki2.pdf

Project Euler に公開されている問題は数百問であり, 以上によって得られる関数と仕様書の対も
同程度の量にしかならない. このため, 解いた問題に対してその問題の解法に含まれる部分問題を考え,
部分問題を解くコードも同様に作成するように指示した. 例えば「1000 未満の自然数で,
3 の倍数となるものの和を求める」という問題があった場合, 「1000 未満の自然数の集合を求める」
「ある自然数 x が3 の倍数であるかどうか調べる」「与えられた自然数の集合x に含まれる要素の総和を求める」
などが部分問題として考えられる.
http://www.phontron.com/paper/oda14nl05.pdf
0011デフォルトの名無しさん垢版2014/06/14(土) 10:04:31.11ID:C3RmOQgD
人物の行動を簡単なパラメータで表現する場合,頭部の位置・姿勢に着目することは,
人物の位置や注視先を推定することを考慮すれば合理的といえる.本研究では,予め人物
頭部のサンプル画像を用意しておくことで,モデルベースの位置・姿勢推定を行い,ほぼ
実用的な精度で人物の移動経路を追跡することが可能であることを示した.
そして,その移動軌跡において一定の傾向を維持する区間に分割し,それぞれの区間
ごとに人物の姿勢や周辺の物体との相対的な位置関係などの意味素性を数値的に評価し,
合成することで,自然言語の事象概念との対応付けを行うという基本的な考え方を提案した.
これは従来のテンプレートによる自然言語生成と比較して,より拡張性の高い柔軟な手法であるといえる.
http://www.las.osakafu-u.ac.jp/~ark/publication/kojima-thesis.pdf

これまでの考察で明らかとなった「認める」の別義は、以下の通りである。
・別義1:<ある範囲に注意を払うことにより><対象を><捉え>
<(あらかじめ持っている)対象に関する知識と同定する>
・別義2:<外部の状況(他者の意見・指摘なども含む)を><妥当なものとして><受け入れる>
・別義3:<他者の能力や(能力の反映である)作品を><価値のあるものとして><受け入れる>
・別義4:<他者の未実現の行為を><妥当なものとして><受け入れる>
http://www.lang.nagoya-u.ac.jp/nichigen/issue/pdf/5/5-09.pdf

例えば、「引っ越す」という動詞の語彙概念構造は、次のように規定される。
「X が Y に引っ越す」→ <X オブジェクトが自分の住所アトリビュートの値を Y に変更する>
上記の規定により、「X が引っ越す」という場合、「X オブジェクトは可変の住所アトリビュートを持
たねばならない」ことが導かれる。これにより、組織も可変の住所アトリビュートを有するので、
組織も引っ越し可能であることが導かれる。これは、従来の意味論における意味役割の概念よりも
精密に述語(動詞等)と項(名詞等)の間の意味関係を規定できることを示している。
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/B1-1.pdf
0012デフォルトの名無しさん垢版2014/06/14(土) 12:47:56.94ID:2GCCkitO
サンプルコードあくしろよ
0013片山博文MZ悪魔崇拝 ◆T6xkBnTXz7B0 垢版2014/06/14(土) 13:18:14.77ID:TMbzloys
「ひらがな電卓」Windows用フリーソフト。

ひらがなで無量大数までの四則演算、分数計算、小数計算、ルート、
三角関数、余り、パーセント計算ができます!!!
http://katahiromz.web.fc2.com/calc-h/
0014デフォルトの名無しさん垢版2014/06/14(土) 14:59:25.78ID:C3RmOQgD
例えば、こんな問題はいかがでしょうか。
ちなみにこれは昨日、ラジオで聞いた問題です。
「300円もって買い物に行きました。そして、100円のお菓子と
40円のお菓子と60円のお菓子を買いました。
おつりはいくらでしょう?」
という問題です。

これを聞いて100円と答える時、その思考は以下のようなものではないでしょうか。
300ー(100+40+60)=100

間違っていませんね。
買ったお菓子の合計は200円なので、300?200は100としているわけです。

これを、図を使って場面をイメージしてみるのです。

このようにお金が図として描ければ見えてきませんか。

そうなんです。
これはいわゆるクイズなので、実は・・・「おつりなし」が答えなんです。
300円持っていって、200円のお菓子を買ったところで、
200円を出すわけですから、おつりはありませんよね。

ずるい!という声が聞こえそうですが、
でも、これを「いや、おつりはないでしょ!?」と答えられるかどうかって
文章問題がイメージできているかという大切なところであると思うのです。
問題文を与えられて、見た数字だけで演算決定をしてしまうから間違えるのです。

http://mhidetoshi.exblog.jp/22011978
0015デフォルトの名無しさん垢版2014/06/14(土) 15:34:15.93ID:h7hlzhCn
レジに一回だけ通したとは書いていないので、60円のお菓子の時に40円、
40円のお菓子の時に60円、都合100円のおつりを受け取ると言う解釈もあり得るね。

普通、子供にお使いに行かせるなら余裕を持ってお金を預けて
戻ってきたときに残額をおつりとして受け取る。なので、おつりが100円と言う答えもあり得る。
0016デフォルトの名無しさん垢版2014/06/14(土) 16:09:45.04ID:C3RmOQgD
割り算というのは、実生活では特殊な演算だと思う。

今年入学した402人の小学1年生を10組に分けるとどうなるか。

402人を、できるかぎり等しい人数になるよう分けるなら、40人の組が8組、41人の組が2組。
(402÷10=40余り2、40人ずつ分けた後で、残りの2人を分ける)

でも他の場合を考えると(例えば「少なくとも十人以上」とか)、数え上げは難しいものとなろう。
0017デフォルトの名無しさん垢版2014/06/14(土) 16:20:00.41ID:C3RmOQgD
>>15
>レジに一回だけ通したとは書いていないので、60円のお菓子の時に40円、
>40円のお菓子の時に60円、都合100円のおつりを受け取ると言う解釈もあり得るね。

それでも、(10円玉が30個で合計)300円もって買い物に行きました、だとおつりは0になる。
それから政府が新たに「300円玉」を発行したともなれば、話は別となろう。
0020デフォルトの名無しさん垢版2014/06/15(日) 18:21:24.22ID:r1yj7QX5
http://www.phontron.com/paper/oda14nl05.pdf

x1がx2で割り切れなくなるまでx1をx2で割り→x1がx2で割り切れなくなるまで(繰り返して)x1をx2で割り

(繰り返して)があれば、容易に「while文」に翻訳できる。

文脈から自動的に省略語を補って、翻訳しやすい形に自動変形するアルゴリズムも必要。
0021デフォルトの名無しさん垢版2014/06/16(月) 10:59:25.96ID:4kD5cm9H
せいぜい機械的にできる処理って形態素解析くらいまでだろうな。形態素解析ならスパース表現でできそうだ。
めくらでも会話できるけど、音以外の五感がないわけではないし
0022デフォルトの名無しさん垢版2014/06/16(月) 11:07:05.33ID:4kD5cm9H
形態素解析ができてから、回りの状況と自然言語の関係を照らしあわせて単語ごとに構文を学習する。
回りの状況はテキストだけじゃ表現が難しい
0023デフォルトの名無しさん垢版2014/06/16(月) 11:56:09.75ID:xNeMvzgG
割り算・分数は、「平均」または「単位あたり」と理解されるべき概念と思う。「平均点」は数の総和を人数で割って得られた数。
「速度」は物体や波が単位時間あたりに動いた距離。
0024デフォルトの名無しさん垢版2014/06/16(月) 11:57:19.39ID:xNeMvzgG
900 :デフォルトの名無しさん:2009/02/20(金) 20:46:21.00
「類似文検索システム」としては、名詞+助詞「の」+名詞+、のように文構造のパターンを網羅しておき、
目新しい文章が出た時に文構造パターン認知できるようにしておくとか。
例えば「身長の高い男が私の横を通り過ぎた」「髪の長い女が彼の手を握った」はいずれも、
名詞+助詞「の」+形容詞+名詞+助詞「が」+名詞+助詞「の」+名詞+助詞「を」+動詞。
0025デフォルトの名無しさん垢版2014/06/16(月) 13:00:19.74ID:xNeMvzgG
(1) ◆新銀行4,1 の中身
(e4,2:ガ)13 (e4,3:ガ)14 十七日に大蔵省の銀行免許を取得、14 (e4,4:ガ)15 二月上旬までに 増資して15 (e4,5:
ガ)16 資本金を 四百億円とし、16 三月二十日をめどに、開業する。13
この点を考慮するために,参照表現の出現位置を人手で修正し,その結果に対して人手で参照表現を選択する.
ただし,任意の表現を許してしまうと問題が発散するため,今回の評価では「参照表現を省略する」「参照表現を主題化し
て明示的に記述する(つまり,助詞 “は” もしくは “には”をともなって表現する)」「主題化せずに明示的に記述する
(つまり,助詞 “が/を/に” をともなって表現する)」の 3 種類から選択してもらい,人手生成の傾向を分析する.

http://www.cl.cs.titech.ac.jp/~ryu-i/papers/NL206-15.pdf

(58) a. 学生が3人この鍵でドアを開けた
b. ?? 学生がこの鍵で3人ドアを開けた
(58a-b) は、遊離数量詞が、隣接する名詞句を修飾することを示す。12
(58b) では、「3人」と
「学生」が隣接していないため、意図された修飾関係が成立しない。この観察をふまえて、
Miyagawa (1989) は、(59) の文法性が非対格仮説の証拠となることを指摘する。
(59) ドアがこの鍵で3つ開いた
非対格仮説によれば、(59) の「開く」が非対格動詞であることから、「ドア」は、(60) に示
すように、目的語の位置で主題の役割を得た後に、主語の位置に移動する。

http://www.ic.nanzan-u.ac.jp/LINGUISTICS/staff/saito_mamoru/pdf/saito.2013.pdf

日本語の省略がわかる本 誰が?誰に?何を?
成山 重子 著 / 明治書院(810.7ナ)
日本語の特徴である省略を文化と文法から捉えた本。語らいの制約から省略
の順序の制約まで体系的に解説。文法が苦手な人や中級者以下の学習者のため
に「省略のインスタント文法」も収録。
https://www.ishikari-lib-unet.ocn.ne.jp/html/%E3%81%82%E3%81%8B%E3%81%9F%E3%81%BE72.pdf
0026デフォルトの名無しさん垢版2014/06/17(火) 11:34:59.62ID:sceXYbna
(5)「意味されるもの」と「意味するもの」を分離することにより、この二つのそれぞれに適した表
現形式を独自に発展させることができる。「意味されるもの」の表現方法は、談話分析や語用論の研究成
果を取り入れることによってさらに発展させることが可能である。また、「意味するもの」の表現形式としては、
制限自然言語と RDF/OWL 以外にも様々なものを使用することができ、「意味されるもの」の内容に応じて最も
適した表現形式を選択することができる。様々な形式の情報を一体的に扱うシステムの開発も可能であろう。
http://sigswo.org/papers/SIG-SWO-A1303/SIG-SWO-A1303-04.pdf

h4i 前文脈の事態が後文脈の事態の前提となる : 「〜れば」のような条件節は前文脈の事態が後文脈の事態が成
立するための前提条件となる.この際,パタン中の名詞句が「こと」のような明確な事態を導入する表現の場合
であっても,「可能性」などの前文脈の事態にモダリティの情報を付与する表現であっても,同様に前提となる関
係を表すことになる.例えば,例 (9) では,「これ(=途上国向けの環境分野の援助)を引き上げる」ことが「事
態が改善する」ことの必要条件となっている.
(9) これを向こう5年間、30%台後半、5000億円程度に 引き上げることをすれば、事態は大きく 改善される。


http://www.cl.cs.titech.ac.jp/~ryu-i/papers/nlp2014_ryu-i_discrel.pdf

実際のところ"this"や"is"だけでもその意味は多数あり、文章が長くなるほど意味の組み合わせは多くなり、
「組み合わせの爆発」という現象が起きコンピュータは止まってしまう。さらに、40 代のドリフ世代にとって
"This is a pen."はまた別の意味がある。
http://ed-www.ed.okayama-u.ac.jp/~shinri/terasawa/files%5Cthinking_new_theory_of_thinkingV5.pdf
0027デフォルトの名無しさん垢版2014/06/19(木) 03:03:30.38ID:xTtna/5L
「まわるまわるよ、時代は回る」
「 地球は回る、君を乗せて 」

上の二つの「回る」は、同じ意味ですか?
0028デフォルトの名無しさん垢版2014/06/19(木) 07:49:02.24ID:66eAVPNK
>>27
>まわるまわるよ、時代は回る

「明治時代は栄光だったが、昭和時代は暗黒だった」(司馬遼太郎)というふうに、時代は回るという意味。

>地球は回る、君を乗せて

「地軸」を中心にして回転している、という意味。
0029デフォルトの名無しさん垢版2014/06/19(木) 11:47:01.23ID:7DkBqMX+
>>28
>地球は回る

太陽の回りを公転して回っている、というのも有りだろ?
0030デフォルトの名無しさん垢版2014/06/20(金) 05:49:29.43ID:408WaNYH
4.1.1 第 1 問
後半の問いに対して,点 P 自体を (x, y) として解くことはできなかったため,
点 P の像を (x, y) として命題を記述した.変数の導入方法には,試行錯誤が必要である.
4.1.2 第 2 問
知識 (e) を受験数学で学ぶことはないと思われるが,MaxValue[] や MinValue[] を利用するためには,
このような,プログラムではなく数式で表現するための知識が有用であろう.
知識 (f) を用いずに,面積を三角関数で記述したままでは,MaxValue[] や MinValue[] で最大値や最小値を
求めることはできなかった.三角関数を含む式に関する問題では,このような変数変換が有力なテクニックである.
 難問として有名な本問だが,数式処理システムを利用すれば,比較的簡単に解ける.しかしその解法は,
文献 [小島 89]などに掲載されているような,人間が手で解く方法とは大きく異なっている.
4.1.3 第 3 問
a についての 3 次方程式になることがわかって初めて知識(b) が利用できる.このように,具体的な方針を事前に決める
のが難しい場合がある.本手法における第 3 問の結論は図 1(a) だが,模範解答は図1(b) のように,曲線の式や交点の座標,
曲線自体や点自体を含むかどうかも描いたものになる.
4.1.4 第 4 問
Mathematica では,馬 i=1 x i−1 のような簡単な計算が,特殊な仮定(この場合は x ̸= 1)の下に行われる危険があること
を知っておかなければならない.Reduce[] の引数の {a, s, b} を {a, b, s} にすると解けない.変数の順番が大切である.
4.1.5 第 5 問
接平面を (x − 1) + ay + b(z − 1) = 0 の形で記述すると,計算時間は 68 秒から 3300 秒に,利用記憶容量は 21 MB から
230 MB に増加する.このように,得られる結果は同等でも,変数の導入方法によって計算時間は大きく異なる場合がある.
4.1.6 第 6 問
問題をそのまま定式化しても,現実的な時間では解けない.(a),(b) のような知識によって,計算量を減らす必要がある.
体積 f を,t の関数と u と v の関数に分けずに,MaxValue[]で最大値を求めることはできなかった.f を 2 つの部分に分
けられることは,解いている途中で初めてわかることである.
https://kaigi.org/jsai/webprogram/2014/pdf/768.pdf
0031デフォルトの名無しさん垢版2014/06/20(金) 16:45:06.34ID:Egd9IXkN
7.3 数学モデルは現実世界と論理世界を結ぶ架け橋の一つ
 私は企業に勤務していた頃、いろいろな分野のプラントの制御システムの開発や動特性シミュレーション
に従事してきましたが、そこで数学モデルの有効性を痛感しました。
 それは、いったん数学モデルが作成できれば世界がまったく変わってしまうことです。現実世界では、
対象の挙動は構成、材料、形状や動作環境などいろいろな条件に左右され、それを大きく変えることは
物理的に難しいことが多く、我々の思考もそれに縛られることが多いのも事実です。
 数学モデルが生成できれば、論理世界に入ることができ、そこでは禁止されているのは論理的な矛盾だけです。
数学理論はもちろん、関連した数値解析、コンピュータ・グラフィックや種々の計画法が応用できます。
それにより、現実世界にとどまっている限り得られない新しいアイデアが出てくる可能性があります。
数学モデルは現実世界と論理世界を結ぶ架け橋となります。これを一般化すると、「モデルは現実世界
と仮想世界を結ぶ架け橋」と言えるかもしれません。
 ただ、論理世界で得られた結果を現実世界で実現するためには、それが現実世界で有効かまた実現可能
なものなのかを調べる必要があります。しかし、それは論理世界の中では不可能です。現実世界に戻すためには、
別の方法が必要です。それがシミュレーションです。数学モデルとシミュレーションにより、実践と理論の結合が図れるのです。
http://www.wind.sannet.ne.jp/masa-t/semioeng/modeling/modelasim/mas07/mas07.html
0032デフォルトの名無しさん垢版2014/06/23(月) 11:54:56.02ID:wCGes4Or
(1) John,fired Dave,because he had too many absesces.(he=dave)
(1) John,fired Dave,because he had too many employees.(he=dave)
これら 2 文は,同一の文構造であり,違いは absences か,
employees のみである.he には John も Dave も入りうるため,
統語的な特徴および意味的な特徴は役に立たない.
ここで重要な手がかりとなるのは,「fire する側は従業員を抱える立場」
「欠勤が多い人は fired される」といった,事象間の関係知識である.
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/A5-2.pdf
0033デフォルトの名無しさん垢版2014/06/23(月) 17:07:41.81ID:Z0nKY4vk
完全に形態素解析したいんだけどできない。
小野 名詞,固有名詞,人名,姓,*,*,小野,オノ,オノ
妹 名詞,一般,*,*,*,*,妹,イモウト,イモート
子 名詞,接尾,助数詞,*,*,*,子,シ,シ
は 助詞,係助詞,*,*,*,*,は,ハ,ワ
遣 動詞,自立,*,*,五段・ラ行,体言接続特殊2,遣る,ヤ,ヤ
隋 名詞,一般,*,*,*,*,隋,ズイ,ズイ
使 名詞,接尾,一般,*,*,*,使,シ,シ
です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
EOS
になる。mecabで辞書パラメータ最小値にしたんだけど。
どうすればいいのだろうか
0035デフォルトの名無しさん垢版2014/06/24(火) 00:30:04.82ID:13L7pvDP
できない
0036デフォルトの名無しさん垢版2014/06/24(火) 00:45:44.58ID:13L7pvDP
どうしても辞書登録が認識してくれない。徳川家康はできれば徳川+家康でなく徳川家康と認識
してほしいのだが確実にできる手だてはないのだろうか?
0038デフォルトの名無しさん垢版2014/06/24(火) 01:36:52.54ID:13L7pvDP
mecabでどうするのかを知りたい。
0039デフォルトの名無しさん垢版2014/06/24(火) 08:21:43.05ID:+csYm/QE
mecabが優秀じゃなくて、助詞をもつなどの日本語文法が機械的な解析に向いていただけだ。
0040デフォルトの名無しさん垢版2014/06/24(火) 11:28:06.49ID:AfD6RzLL
向いてない向いてない。
わかち書きのような特殊な書き方をしてない限り、単語の区切りが不明瞭とか。
0041デフォルトの名無しさん垢版2014/06/24(火) 17:41:46.27ID:FbF3Qsch
逐一辞書登録するのは限界があるよね。
Google検索やWikipediaのデータを引っ張ってきて用語を補整するなんてことも必要になりそう。
0043デフォルトの名無しさん垢版2014/06/25(水) 01:28:47.07ID:A+D1SfZu
>>Google検索やWikipediaのデータを引っ張ってきて用語を補整するなんてことも必要になりそう。
それができない。WikiPediaをDLしてアンカー抜き出して用語集作っても
コストの値を調節しないと正しくできない.
mecabは速いだけか?
0044デフォルトの名無しさん垢版2014/06/25(水) 01:32:05.16ID:A+D1SfZu
Jumanかkyteaがいいのか?
mecabは微妙に形態素がへん。Webの記事ならとても99%も正解があるとは思えない
新聞記事でもあやしい
0046デフォルトの名無しさん垢版2014/06/26(木) 09:41:16.59ID:S6b66RTi
述部の言語構造分析をもとに,「辞書定義文」,「用語属性」,「分布類似度」,「機能表現」という複数の言語知識を用い,
それらを素性とした識別学習で同義判定を行う.
https://www.jstage.jst.go.jp/article/jnlp/20/4/20_539/_pdf

 つまり、「台所」という表現が料理という場面=料理フレームを喚起するトリガーとして働き、その
ようなフレームのなかで、料理人や調理作業、調理道具、さらに料理にかかる費用等、料理に関わる
多様な要素が指示されるわけである。国広は、このような言語現象を多面的多義と呼び、その他にも
「学校」「病院」「銀行」といった概念が、建物や組織、そこで営まれる活動等、多様な現象の集合とし
て分析されると指摘している。
http://opac.lib.yamanashi.ac.jp/metadb/up/honkan/13_302-320.pdf

(1)同義語:同じ意味を持つ単語であり、テキスト中での置き換えが可能である単語のペア。「コンピュータ」と「電子計算機」など。
(2)上位/下位語:一方が他方の上位概念であるような単語ペア。「コンピュータ」と「サーバ」など。
(3)部分/全体語:一方が他方の一部であるような単語ペア。「帽子」と「つば」など。
(4)対義語:対となる概念を示す単語ペア。「男」と「女」など。
(5)兄弟語:同義ではないが、共通の上位概念を持つ単語ペア。「ルータ」と「サーバ」など。
(6)関連語:類似しておらず、階層的でもないが、概念的に連想される単語ペア。「細胞」と「細胞学」など。
http://www.google.com/patents/WO2014033799A1?cl=ja

例(2)の動詞「教える」は、以下のような意味を持っていることから、動詞自体が方向性を持っていることが伺える。
・行動や身を処し方などについて注意を与えて導く。いましめる。さとす。
・知っている事や自分の気持、要求などを他の人に告げ知らせる。
・知識、技芸などを身につけるようにさせる。教授する。
・おだてたりして、悪い事をするようにしむける。

http://www.ninjal.ac.jp/event/specialists/project-meeting/files/JCLWorkshop_no5_papers/JCLWorkshop_No5_04.pdf
0047デフォルトの名無しさん垢版2014/06/27(金) 04:03:33.62ID:MjVrnFmf
新聞とかのデータからから「名詞+助詞+動詞」の組み合わせをひろってきたいんだけど、構文解析する必要ありますか?場違いだったらすみません
0048デフォルトの名無しさん垢版2014/06/28(土) 06:42:58.08ID:gMf17FhW
◎2chスレッド勢いランキングサイトリスト◎

★+ニュース板
・ 2NN (推奨サイト)
・ 2chTimes
★+ニュース板新着
・ 2NN新着
・ Headline BBY
・ unker Headline
★+ニュース板その他
・ Desktop2ch
・ 記者別一覧
★全板
・ 全板縦断勢いランキング (推奨サイト)
・ スレッドランキング総合ランキング
・ ログ速
★全板実況込み
・ 2勢 (推奨サイト)
・ READ2CH
・ i-ikioi

※ 要タイトル検索
※ 2chブラウザ併用推奨
0049デフォルトの名無しさん垢版2014/06/28(土) 13:20:04.17ID:pYYcNfOX
例えば、「空港へのアクセスを調べる」という入力文に対して、「アクセス」を換言したい場合、
「空港への◯◯」という前文脈と「◯◯を調べる」という後文脈に分けてコーパスを探索し、
◯◯に該当する名詞のうち共通する名詞を抽出する。図 1 の例では、前文脈と後文脈で共通して
用いられる「乗り換え」「料金」「行き方」の 3 単語が抽出される。
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/D5-1.pdf

意味空間は1次元ではなく多次元である. どの属性に注目して(観点で)分類するかによって、いろいろな分類の仕方が考えられる.
身近な例で「料理」について考えてみる.古今東西の料理の種類は相当な数になり、分類の仕方も人によって異なる.
ここで調理法、材料、地域の3 つの観点で分類するとつぎのようになる.
調理法の観点で分類すると 生もの、煮物、焼き物
材料の観点で分類すると  魚料理、肉料理、野菜料理
地域の観点で分類すると  和食、中華、洋食
例えば「刺し身」は、料理を3つの観点によって分類した結果、連想された用語「魚料理」「生もの」「和食」の狭義語である.
逆に「刺し身」の広義語が「生もの」「魚料理」「和食」の3つあることになる.その結果、網構造になる。これを図にすると、図1のようになる.
http://www.asahi-net.or.jp/~wd2y-kkb/t.pdf
0050デフォルトの名無しさん垢版2014/06/28(土) 13:47:07.22ID:mTJgjjdL
>>47
構文解析は必要ないが形態素解析はいる
0054デフォルトの名無しさん垢版2014/06/29(日) 19:17:16.27ID:8NVTS3/J
図やイラストの理解
センター試験の英語の問題では、図やイラストが多用されます。人間であればだれでも理解できるような簡単な図ですが、
これを理解することはコンピュータにとっては至難の業です。画像認識の研究はさかんに行われていますが、ほとんどの
研究は写真を対象としており、図やイラストを理解する研究はほとんど行われていません。これは、デフォルメされたイメージ
を理解するためにはさまざまな常識が必要であり、今のところ有効なアプローチが全く見当たらないためと考えられます。
人間にとっては図やイラストの理解は試験問題を解く上で重要なポイントではないですが、人間にとって当たり前すぎるからこそ、
逆にコンピュータにとっては非常に難しいと言えます。
http://21robot.org/research_activities/english/

 物理シミュレータを使うことの将来性について、横野氏は、「例えば、テーブルの上を転がるものを見たとき、
人はとっさに手を出してテーブルから落ちないようにします。ところが、今のロボットは、転がっているものを認識できても、
物理の法則に従ってそれがテーブルから落ちることまでは予測できません。人工頭脳が進展すれば、実世界の状況を理解し、
物理法則に従って変化する事象を物理シミュレーションによってモデル化し、将来を予測することもできるでしょう」と語る。
http://21robot.org/%E3%83%9B%E3%83%BC%E3%83%A0/introduce/NII-Special-2/
0055デフォルトの名無しさん垢版2014/06/30(月) 11:11:53.76ID:yTE03nVF
一次視覚野はほぼ解明されてる
写真とイラストはもう区別しない
0057デフォルトの名無しさん垢版2014/06/30(月) 13:42:52.23ID:tZCwK3PP
>>55
>一次視覚野はほぼ解明されてる
>写真とイラストはもう区別しない

 おそらく最初とは異なる判断になったのではないでしょうか。このように、私たちは経験やこれまでの条件づけによって、
無意識のうちに「決めつけ」を行いがちです。この絵のように、わずか数秒見ただけでも大きな結論の違いを生むことが
あるわけですから、これまで長い人生の中で培ってきた「決めつけ」は、あなたのさまざまな判断に大きな影響を及ぼします。
そして、誤った先入観や印象による決めつけは非常に危険なものといわざるを得ません。

この絵、何に見えますか?――あなたの“思い込み”をテストする
http://bizmakoto.jp/bizid/articles/0905/29/news009.html
0058デフォルトの名無しさん垢版2014/06/30(月) 16:33:45.79ID:yTE03nVF
>>57
それは二次視覚野以上の話だ
0059デフォルトの名無しさん垢版2014/06/30(月) 17:46:07.82ID:ULkK/oEi
>>57
鼠に見えたりオッサンに見えたり・・・人間がイラストを解読するメカニズムはよくわからない。
0060デフォルトの名無しさん垢版2014/06/30(月) 18:56:54.14ID:OP+eMRFG
3つは違う絵だから、ネズミに見えるのもおっさんに見えるのも
その中間に見えるのも意図通りとしか感じない
0061デフォルトの名無しさん垢版2014/06/30(月) 20:02:41.31ID:bnSHXbvL
今一番画像処理で進んでるのはコンボリューションニューラルネット
畳み込みをしてて、二次視覚野に近いとは言われてる
0064デフォルトの名無しさん垢版2014/06/30(月) 21:03:06.40ID:9KK/EJtO
技術は、大量のテキストにタグを付けてコーパス化したりとか、そういう方向に応用されてる
だろうと思うけど。
0066デフォルトの名無しさん垢版2014/06/30(月) 21:14:43.35ID:CGk8SAom
いいアイデアを思い付いた!!

ワトソンをWebに公開し、何回か質問できる権利を販売すればIBMがぼろ儲けできるぞい!
0067デフォルトの名無しさん垢版2014/06/30(月) 21:46:33.42ID:avOqRzMr
>>62
とりあえずは医療診断に使おうとしている。
画像診断や画像認識、音声認識技術と組み合わせれば、診断分野に人間が
出る幕はなくなるんじゃないか
0071デフォルトの名無しさん垢版2014/07/01(火) 17:42:24.79ID:MLoIfLOU
自動改題システムがあったらこうやる。本問は、正三角形ではなく直角二等辺三角形だったら、また放物線ではなく楕円だったら、
問題とその解法はどう変わるか。あるいは設定が変え方によっては、高校数学では解答できなくなるのか。 

> 東大理系数学2004年第1問
0072デフォルトの名無しさん垢版2014/07/01(火) 17:48:46.07ID:MLoIfLOU
>>24
長文を短文の箇条書きに書き換えるアルゴリズム、短文の箇条書きを長文にまとめるアルゴリズムを考えてみる。
やり方は人海戦術で多くの長文を、短文の箇条書きに書き換え、意味内容について詳細にタグ付けして、インプットする。
類似の文章に遭遇したら、選択検出できるようにする。
0074デフォルトの名無しさん垢版2014/07/05(土) 11:17:57.64ID:EeQIx6Tc
 SWでは図12のような手の形,動き,顔・頭,身体の部分などを表す図像的な記号を二次元的に配置して,
人間にとって分かりやすく手話を記述する.図13にSWによる日本手話の記述例を示す.これらの記号の集合
はISWA(International Sign Writing Alphabet)と呼ばれており,ISWA2008には639種類の基本記号が含まれる.
向きの違いなどを考慮するとその数は約35,000種類に上る.
https://www.jstage.jst.go.jp/article/essfr/4/4/4_4_282/_pdf

本研究の最終的な目標は, CL を組み込んだ手形変化と, CL を用いた図像的な手の動きが組み合わさった
手話表現 CL 述語 (CL 構文, Classi?er Predicate)[3]の生成を機械翻訳上で行うことにある.
CL 述語は, 現実世界での場所・形状・動き (動きの軌跡) 等が手話表現空間上でもリンクするように CL 手形
を用いて表現するもので, 手話の意思伝達において非常に重要な役割を担っている.
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/P7-12.pdf
0075デフォルトの名無しさん垢版2014/07/05(土) 15:51:46.96ID:PDgdEPrp
word2vecとdeep learningって別に関係無いよね?
word2vecの前身にrecurrent neural networkが使われてたってだけで
現在のword2vecの実装はロジスティック回帰ベースのものになってるし
0076デフォルトの名無しさん垢版2014/07/05(土) 21:00:44.58ID:yP4JAf0g
(5-4) この野菜は害虫に強い.(植物の野菜)
(5-4) 太郎は野菜をたくさん食べる.(食物の野菜)
http://tdl.libra.titech.ac.jp/hkshi/xc/contents/pdf/116061503/6

赤い三角,青い丸などの図形を見せられ,それについての質問「何色ですか」
「何という形ですか」に対して「赤」や「丸」などと試行錯誤的に答え,
その答えに対する評価を利用して正しく答えられるように学習するシステムを構築する.
https://kaigi.org/jsai/webprogram/2014/pdf/474.pdf

手順(6)では,既存オントロジーに対し,概念追加処理を行う.既存オントロジーにおいて,
対象領域の中でも最上位に位置すると考えられる概念をルート概念として設定する.
Protégé を使用して既存オントロジーの可視化を行った例を図 5 に示す.図 5の可視化範囲においては,
紫の楕円で囲んである概念をルート概念としている.なぜならこれらの概念が理科に関連する
概念の最上位概念として適当であると推測できるからである.このようにして手動で設定した
ルート概念は“時”,“動物”,“事象”,“位置”,“三日月形のもの”,“別のもの”,
“生物”,“動物”,“植物”,“生物”,“自然現象によって出来るもの”,“具体的あるいは
抽象的存在物”,“抽象物”の計 13 概念である.
http://sigswo.org/papers/SIG-SWO-A1303/SIG-SWO-A1303-05.pdf
0077デフォルトの名無しさん垢版2014/07/06(日) 13:17:55.07ID:UIel1dtG
□(日常的)状況理解と(代数スキーマ)問題構造理解
• 支援が必要なのは問題モデル表現,日常的な状況はよく知っている
• 状況に基づく理解には問題文からの暗黙的な特徴抽出が必要
- 最初に「形式主義」が役に立つ理由 [Nathan 1988]
• 相互に支援「状況が問題モデルの意味付けに」「問題スキーマが状況モデル作成に」
「予測2」
与えられたカバーストーリにおけるキャラクタ・イベント・関係を量的な解法に必要な形式的な記号と
表現の知識と関係づけることにより数学的にストーリ状況を解釈するよう励まされた生徒は,
文章題の解を導き出せる方程式の生成において,ストーリのフレーズと方程式のマッピングを行う
直接的な変換に基づくアプローチを使う対照者より有意になるであろう.
「予測3」
与えられたカバーストーリにおけるキャラクタ・イベント・関係の知識に形式的な記号と表現を関係づけ
ることにより代数式を状況的に解釈するよう励まされた生徒は,代数式の状況的な記述の生成において,
ストーリのフレーズと方程式のマッピングを行う直接的な変換に基づくアプローチを使う対照者より有意になるであろう.
「予測4」
状況的に推論を行う問題解決者は,フレーズ志向の対照者より,カバーストーリを伴うかもしれない状況的
な方程式の組の適切さ,あるいは不適切さを認識する能力をつけるだろ
http://miwalab.cog.human.nagoya-u.ac.jp/database/resume/2003-02-04.pdf
0078デフォルトの名無しさん垢版2014/07/06(日) 15:17:27.05ID:Tf6s8TDO
句構造とそれに対応付けられた述語項構造情報を持つ,統語情報と意味情報を統合した日本語ツリーバンク
について述べた.構築した 20,000 文を既存の構文解析器に適用することにより,文節係り受け解析と同程度
の解析精度を持ちつつ,詳細な統語情報を出力できることを確かめた.
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/B5-3.pdf

UML では,オブジェクトを状態機械と考え,その振舞いを状態遷移図で表す.記法としては,基本的に Harelの
Statechart を採用している.たとえば,図 5 は Fowler の本 [2] からとった.図の「動作中」と名前を付けているの
が親状態 (superstate) である.その中に 3 つの子状態があるが,それを隠して 1 つの状態と見なしたものが「動作中」である.
http://tamai-lab.ws.hosei.ac.jp/pub/ss01paper.pdf

つまり、図的メディアは表現している情報の内容概略をまず直観的に把握することができ、その点において文書メディア
と大きく異なる。例えば、多くの図形要素がある方向に整列していれば、順序もしくは流れの意味が瞬時に感じられるが、
同じ意味を表現した文書は通読しなければわからない(図 2.1)。
http://www.image.esys.tsukuba.ac.jp/~murayama/work/ms_thesis.pdf
0079デフォルトの名無しさん垢版2014/07/07(月) 12:36:07.24ID:bhOiadyO
2.2 語彙・構文的言い換え
語彙・構文的言い換えに限っても,純粋に統語論で扱えそうな言い換えか
ら語の詳細な意味に立ち入る必要のある言い換えまで多岐にわたる。こうし
た言い換えは,実現に必要な知識の種類の観点から便宜的に次の4種類に分けられる。
統語的言い換え 個別の語の意味に立ち入らなくても統語論の記述レベルで概ね説明できる言い換え
(3) 最初に合格したのは高橋さんだ ⇔ 高橋さんが最初に合格した
語彙的言い換え 語の同義性だけで概ね説明できる,統語操作を伴わない局所的言い換え
(4) 一層の苦境に陥る恐れがある ⇔ 一層の窮地に陥る可能性がある
語彙構成的言い換え 語の統語的特性と意味的特性に基づいて構成的に説明できると考えられる規則性の高い言い換え
(5) 2 位が先頭との距離を縮めた ⇔ 2位と先頭の距離が縮まった
推論的言い換え 内包的意味が近似的に等価な言い換えのうち,上のどの種類にも当てはまらないもの
(6) 財政再建が急務の課題だ ⇔緊急に財政再建する必要がある
http://paraphrasing.org/~fujita/publications/coauthor/inui-LF-2.pdf
0080デフォルトの名無しさん垢版2014/07/09(水) 09:13:08.64ID:W1L77FJX
イヌ語、イルカ語、サル語を解析するアルゴリズムありますか?
0082デフォルトの名無しさん垢版2014/07/09(水) 20:08:34.07ID:s3czgtxE
たとえばどのようにしたら?
0083デフォルトの名無しさん垢版2014/07/10(木) 11:50:45.70ID:b8e/9c1m
10^5単語
10^3個の単語からなる文章

(10^5)^(10^3)の組み合わせ(テンソル)

全ての組み合わせを予め計算するのは不可能だ
構文が似ている単語は同じ構文を持つと仮定し、確率的に構文解析すればいいのか?
0084デフォルトの名無しさん垢版2014/07/10(木) 14:23:18.66ID:aR1UjDzC
>>83
>10^5単語

固有名詞(住所・氏名など)を一般化し、さらに頻出単語のみに絞る。
0085デフォルトの名無しさん垢版2014/07/10(木) 14:39:03.10ID:b8e/9c1m
>>84
オートマトンでやるからテンソル演算にはならないが、それにしても桁違いだから絞ってどうなる量じゃない。
未知の単語が来た時対応できないし、自分で入力されたことのない文章を構文的に正しいものを推定して組み立てないといけない。
0086片山博文MZ悪魔崇拝 ◆T6xkBnTXz7B0 垢版2014/07/18(金) 14:38:59.47ID:XMEHR0Aa
自然言語相手にすべてのケースのテストデータを作成しようとしたら、800MB超えてしまった。。。
愚かだな。
0090デフォルトの名無しさん垢版2014/07/23(水) 06:05:31.34ID:cG8Of2p8
日本語のmecab cabochaと同じことを英語でする場合には
どのソフトを使えばいいのでしょうか?
0091デフォルトの名無しさん垢版2014/07/26(土) 22:52:13.10ID:vhGqByQW
Stanford CoreNLPでぐぐってみ
0095片山博文MZ次期CEO ◆T6xkBnTXz7B0 垢版2014/07/30(水) 01:03:45.57ID:yEskz56N
違う違う。そんな文字コードが固定された融通の利かないありきたりの形態素解析ツールの
1ユーザーにとどまるのはイヤだ。もっとオープンでダイナミックに組織化されるシステムでなきゃ。
えっ、大規模機械学習や統計学を否定するの? ひょっとして馬鹿?
0096デフォルトの名無しさん垢版2014/07/30(水) 01:06:51.20ID:yEskz56N
あげ
0097デフォルトの名無しさん垢版2014/07/30(水) 14:46:58.32ID:nHLRqrzx
moses-supportやparser-supportでアホな質問ばかりする中国人やアラビア人にも真摯に対応する姿に感心する
0099デフォルトの名無しさん垢版2014/08/06(水) 18:09:18.10ID:acb72KUN
ところでだ。「チンボがシコシコする」という日本語表現は、文法的に正しいのか?

チンボ「を」シコシコするのではなくて、チンボ「が」シコシコする。この場合、「チンボ」は主語となる。

オブジェクト指向で言う「集約」は2種類あって、全体(俺)と部分(チンボ)が繋がっている場合と、
全体(俺)と部分(チンボ)が別々になっている場合とが考えられる。けれども「チンボ」はそれ自体
が独立した生き物であり、所有者の意思とは無関係に、勃起して「シコシコする」。
例えば寝てる時にエロい夢みて朝起きてみたらチンコが勃起して射精してたとか。

違うか?

「頭がズキズキする」は良いが、「チンボがシコシコする」はダメな理由を、50字以内で述べろ!>>98
0100デフォルトの名無しさん垢版2014/08/29(金) 20:13:29.62ID:pIYD+XWo
1. 辞書の違いによる形態素単位の分割
2. 機能語,複合語などによる文節分割
3. 鍵括弧内の読点による文の分割
4. 鍵括弧による文節分割
5. 機能文節などの特殊な文節による分割
6. 係り先の文節を複数持つか

http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/P3-15.pdf

(1)二格深層格の出現比率はコーパスによって有意な差がある.特に「場所」,「複合辞」,「目的」
における差が顕著である.
(2)定性的に分類された深層格を定量的に見ると頻度において差が顕著であった.特に「対象」(間
接目的語)の頻度が高い.一方,「場所」や「時間」の頻度は全体の割合から見るとさほど高くない.
(3)二格と共起する名詞と動詞と深層格との関係について主成分分析を行った結果,「結果」「複合
辞」「その他」>「副詞」「目的」>「時間」「場所」の順に他の深層格との隔たりが確認された.これに対して,
「対象」「役割」「動作主」「頻度」は共起語においては特性が薄いため,深層格推定にも困難が予想される.
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/P5-3.pdf

今後は、平成 28 年度末を目標として、日本語の書き言葉の文 4 万文に統辞・意味解析情報をタグ付けし
た欅ツリーバンクを完成させる予定である。また、これとは別に、対話データのタグ付けも計画している。
開発したツリーバンクのうち公開可能なものは全て以下のサイトで配布する予定である。

http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/P8-8.pdf
0101デフォルトの名無しさん垢版2014/08/29(金) 21:20:47.93ID:zSOx7Ia5
構文解析って文法的に正しいかどうかしか判断できないんじゃないの?
0102デフォルトの名無しさん垢版2014/08/29(金) 23:25:55.15ID:bwbSKW1s
>>101
>構文解析って文法的に正しいかどうかしか判断できないんじゃないの?

なら、「チンボがシコシコする」という日本語表現は、文法的に正しいのか?
0103デフォルトの名無しさん垢版2014/08/30(土) 02:26:42.95ID:BAPN2lOA
単語と動詞という分類で言えば正しいが、単語としては確率低い組み合わせだろうなぁ
0104デフォルトの名無しさん垢版2014/08/30(土) 09:34:03.26ID:014RRRVX
指示表現と文体―「この」のジャンル別コーパス分析を中心に
https://www1.doshisha.ac.jp/~cjtl210/data1/22_ryuuhyoo.pdf
日本語機能表現の自動検 出と統計的係り受け解析への応用
https://www.jstage.jst.go.jp/article/jnlp1994/14/5/14_5_167/_pdf
文脈の多様性に基づく名詞換言の提案
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/D5-1.pdf
構文構造の処理技術 - 芝浦工業大学
http://www.sic.shibaura-it.ac.jp/~sugimoto/nlps/nlps14-3.pdf
文体から見た『今昔物語集』の語彙 ―『日本語歴史コーパス 平安時代編』と比較して
http://www.ninjal.ac.jp/event/specialists/project-meeting/files/JCLWorkshop_no4_papers/JCLWorkshop_No4_15.pdf
NTCIR MedNLP: 本邦初の医療分野の言語処理コンテスト
http://mednlp.jp/PAPER/2013-jcmi-ntcir.pdf
単語間結合度に基づく複単語表現のアライメントの改善
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/A2-4.pdf
NTCIR MedNLP-2: 医療分野の言語処理
http://must.c.u-tokyo.ac.jp/sigam/sigam05/sigam0512.pdf
述語と項の位置関係ごとの候補比較による日本語述語項構造解析
http://hayashibe.jp/publications/JNLP2014.pdf
「述語構造の意味範疇の普遍性と多様性―理論的および応用的な成果―」
http://www.ninjal.ac.jp/event/specialists/project-meeting/m-2013/20140202-ninjal2014/pdf/008.pdf
検索・分析のための手順文章からの意味構造抽出
http://db-event.jpn.org/deim2014/final/proceedings/C3-2.pdf
コーパスに基づく日本語の文法形式の使用傾向の記述 ―「大きい・な」「小さい・な」の使い分けについて―
http://ir.nul.nagoya-u.ac.jp/jspui/bitstream/2237/19119/1/1306.pdf
大域的な統語情報を用いた単語アラインメントの改善
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/A3-2.pdf
対訳抽出におけるハブの影響
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/B2-2.pdf
0105デフォルトの名無しさん垢版2014/08/30(土) 09:35:42.15ID:014RRRVX
述部意味関係コーパスの構築
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/C4-4.pdf
日本語文章に対する述語項構造アノテーション仕様の考察
https://www.jstage.jst.go.jp/article/jnlp/21/2/21_333/_pdf
機械学習を用いたニ格深層格の自動付与の検討
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/D6-2.pdf
統辞・意味情報を付加した日本語コーパスの構築欅ツリーバンク プロトタイプ について
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/P8-8.pdf
記号化による数学文の理解—線形代数における数学文を中心として—
http://www.seto.nanzan-u.ac.jp/msie/gr-thesis/2013/10se201.pdf
文の意味構成に伴う高次元空間の最適化と単語表現学習
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/D6-3.pdf
用語の属性を考慮した上位,下位概念辞書の構築
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/B6-1.pdf
学校数学における確率を捉える枠組みの一提案
―数学的モデルとしての確率という視点から―
http://www.juen.ac.jp/math/miyakawa/article/2013-ronhatu-ikarashi.pdf
『現代日本語書き言葉均衡コーパス』形態論情報アノテーション支援システムの設計・実装・運用
https://www.jstage.jst.go.jp/article/jnlp/21/2/21_301/_pdf
統語情報と意味情報を統合した日本語句構造ツリーバンクの構築
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/B5-3.pdf
統計的日本語述語項構造解析のための素性設計再考
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/D1-5.pdf
教師あり機械学習による助詞「も」の分析
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/P8-11.pdf
単語出現頻度を考慮した事後確率制約による単語アライメント
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/A3-4.pdf
日本語カルテをアノテートする
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/P5-2.pdf
比喩表現コーパスの構築と問題点-言語学の立場から-
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/P3-2.pdf
0106デフォルトの名無しさん垢版2014/09/08(月) 02:15:18.02ID:P298uFJ/
東大のプロジェクトどうなったのw
もう挫折ですか
0107デフォルトの名無しさん垢版2014/09/08(月) 09:27:57.13ID:m/nJA+ci
>>101
機械的な構文解析のこと?
正しいかどうかじゃなくて、正しいと仮定して解釈することじゃないのかな
意味ある形で分かれてるかどうかは、人が解釈するしかないような気がするけど。
0109デフォルトの名無しさん垢版2014/09/08(月) 21:00:23.20ID:wT2B4Cec
>>107
いや、コンパイラの構文解析って正しいか間違ってるかしか出力しないじゃん
0111デフォルトの名無しさん垢版2014/09/09(火) 08:12:04.96ID:FnHbwOUK
「問題文を読んで題意が理解できない」ってのは、去年の東ロボと共通する点に思える。

教えているうちに気づいたことがあります。それは、数学の問題文を読んでその題意が理解できない子どもが目立って増えた、
ということです。「問題文を読んで題意が理解できない」といっても、いろいろなタイプがあります。
1.?語彙力が不足していて文節と文節のつながりがわからない。
2.?数学特有の言葉、つまり記号や用語の定義が理解できていない。
3.?文章と文章のつながりがわからず、条件がつかめない(演繹的な推論による文法の知識がない)。
4.?文章が長くなると全体像がつかめなくなり、題意の目標が捉えられない(論理的な読解力の不足)。

『読解力を強くする算数練習帳』著:佐藤恒雄
「数学とは、何のために勉強するんだ」と悩んでいる人へ
http://gendai.ismedia.jp/articles/-/37357
0112デフォルトの名無しさん垢版2014/09/11(木) 17:25:16.70ID:sSttSQlP
自然言語は社会性を表現できないとダメだろう

オートマトンの集団がいて
それぞれが他のオートマトンと自然言語でのみ通信できる
任意のオートマトンは、自分以外のオートマトンの社会的な状態を知っているか推測できる
0115片山博文MZ次期CEO ◆T6xkBnTXz7B0 垢版2014/10/11(土) 00:07:21.76ID:bs/sFubV
学習ありの字句解析の上に動的パーサーを乗せれば最強
0116デフォルトの名無しさん垢版2014/10/13(月) 21:41:40.39ID:8+60HAaA
機械は人間と同じように現実世界を認識したり、また人間と同じように来るべき状況を推論することはできない。
けれども人力で「擬似状況シミュレータ」と「注釈付きコーパス」を充実させれば、試験問題の回答率は向上する。
例えば「マクドナルドのハンバーガーを買う」というフレーム問題は、試験の範囲内ということで人力インプット。
マクドナルドは企業・店屋で、ハンバーガーは商品・食べ物、そして「買う」については、所持金と支払い金額
とお釣りはいくらかという、試験の範囲内だけで連想する。数学や物理に関してはパターンがある程度決まっており、
入試の範囲内にのみ対応させればいい。但し言語解釈が正しくできないと、同じ問題は解けても類似の問題は解けない。
朝三暮四になっていないか、一つの問題を様々な角度から理解させたり、表現や設定を変えて類題を作ってみる。

>もし台車を動かしても,天井は落ちてこない.
>もし台車を動かしても,部屋の壁の色はかわらない.
>もし台車を動かしても,部屋の電気は消えない.
>もし台車を動かしても,壁に穴があいたりしない.

考えられる全ての可能性を、人力でインプットする。例えば台車を動かしたときに停電が起これば、部屋の電気は消える。
0117デフォルトの名無しさん垢版2014/10/15(水) 07:18:38.39ID:beWphTMz
問題に出てきたものだけ考えればいいんじゃないの?
台車が斜面を動く問題で衛星の軌道や壁の色なんてのは考えなくて良い。その上で天井や床は動かないとか、台車が斜面にめり込むことはないとかだけを考えればフレーム問題は抑えられる。
0119デフォルトの名無しさん垢版2014/10/15(水) 15:22:08.72ID:beWphTMz
10個も同時に物体が出てこないんだし全ての組み合わせを考えても10!で3628800、十分に時間内に解答可能。
0121デフォルトの名無しさん垢版2014/10/17(金) 16:43:02.23ID:724m77ZA
@noricoco さんの最後のお話はいわゆる東ロボ、東大入試を突破する人工知能プロジェクトについての記念講演だったのだが、
中身は数学基礎論をいかに実世界に接地するのか、という極めて意欲的・現実的なお話であった。論理だけでは解けない問題
を経験的に解く。しかも、それは単なるパターンマッチではなく、コンピュータ将棋の初期の開発で評価関数をヒューリスティック
に設計していたように、入試問題に合わせて作り込む、というものである。かといって80年代に逆戻りする、というわけではなく、
「この問題は数学的にどのクラスの問題(たとえば集合論)なのか」「高校数学の範囲内で解を求めようとすると、どうなるか」
といったようなことを記述するのである。
自分も学部生時代は数学基礎論をかじったことがあり、それこそが哲学ではなく言語学、そして自然言語処理へと専門を変えて
いく理由となったのだが、このようなプログラムがその当時あって、自分が参画できるのであれば、哲学の立場のまま哲学を現実
世界に基礎付ける、という方向に挑戦していたかもしれない。東ロボプロジェクト全体に関しては、あまり重要な問題を解いている
わけではないと半ば距離を置いて見ていたが、少なくとも数学に関しては、とても野心的な試みであり、数学の問題が解けるよう
になるだけでも、このプロジェクトは人類にとって大いに意味のある試みなのではなかろうか。
http://d.hatena.ne.jp/mamoruk/20141004/p1
0122デフォルトの名無しさん垢版2014/10/17(金) 21:14:01.02ID:UIYNCvLu
すっかり聞かなくなったけどとうロボどうなったの
0123デフォルトの名無しさん垢版2014/10/17(金) 23:45:31.75ID:mnwHFJbg
664 :デフォルトの名無しさん:2009/02/20(金) 20:42:25.00
大辞林
日本語「国語+百科」大辞典の最高峰、「スーパー大辞林3.0」のoneswing仕様版。
「現代語義優先方式」にもとづく解説で知りたいことがすぐ分かる。  
実際に使われている意味を懇切丁寧に解説し揺れ動く日本語の現在を映し出す
25万2千語を収録。本製品では、百科的要素として動植物のカラー写真約1,000点
様々なモノクロ線画約2,000点および鳥虫の鳴き声の音声約270点を収録。
日本語のアクセントが表示されているほか、注意が必要な約1,000語には音声を付与しており耳で確認することが可能。
さらに、近代の作品から採録した豊富な用例ほか同音語や類義語の使い分け誤用などの解説も充実。
http://jp.fujitsu.com/group/personal/services/jisho/kaiset95.html

>25万2千語を収録

ではその25万2千語全ての単語について、百万冊の書籍をスパコン「京」で形態素解析し、
さらにコンピュータの「誤読」と「理解不能表現」を分析抽出し、これらを「人力で修正」し、
「属性フレーム」と「意味ネットワーク」と「RDFトリプル」を作成というわけにはいきませんか。
コンピュータには何が理解できて何が理解できないのかも、ここではっきりさせられませんか。

 そして次に、ワトソンの「誤答」はワトソンが自然言語を理解していないことを示している。アメリカの都市名を
問う質問に対して、カナダの都市名を答えたというのだ。そのときには失笑が起こったという。これは知識の誤り
ではない。問題文の文意自体を理解していないから起こることだ。開発途中では、ファーストレディーの名を問
われているのに大統領の名を答えるといった間違いも起こしているらしい。
http://d.hatena.ne.jp/r-hiragi/20130218/1361158109

あるいは現在の技術では、未だにコンピュータの「誤読」と「理解不能表現」が多すぎて無理なのですか。
けれどもそれなら2チャンネラー百万人を動員して、人力でオントロジー作成という手もあると思われますが。
0124デフォルトの名無しさん垢版2014/10/17(金) 23:51:06.28ID:Lz6GLdVj
>2チャンネラー百万人を動員して、人力でオントロジー作成

一般にコーパスアノテーションは複数の作業者により実施され,異論があるにせよ
アノテーションの一貫性がほぼ唯一の定量的な評価方針となる。このため,
基準の修正はアノテーション従事者全てで共有する必要がある。作業者の多くは
人文系の日雇いもしくは時間単価で働くパート労働者であり,基準の見直しの
たびに動機づけを含めた組織運営が必要になる.
https://www.jstage.jst.go.jp/article/jnlp/21/2/21_95/_pdf
0125デフォルトの名無しさん垢版2014/10/23(木) 13:59:17.26ID:H9x7O/fU
PAS-NNLM のモデルとしての表現力 SVO に関しては, 本実験では PAS-NNLM の学習後のモデルを用
いた ‘PAS-NNLM comp’ により, ‘PAS-NNLM add’よりも高い相関係数 (0.42) を得た. これは Tsubaki
ら [10] の C-NLM による結果 (0.38) を上回るものである. この C-NLM は, 動詞と目的語のペアのみに着目
して NNLM を学習するモデルである. しかし, 同じくTsubaki ら [10] の CoC-NLM による相関係数 (0.47)
には及ばなかった. CoC-NLM の優れている点は, 一種の語義曖昧性解消の手法を, 動詞-目的語の組み合わせ
の意味構成に取り入れたことである. また, Kartsaklisと Sadrzadeh [7] も, 単語からの意味構成の前に語義
曖昧性の解消を行うことの重要性を示している. 本研究の PAS-NNLM では, 品詞の情報は用いているものの,
その他の明示的な語義曖昧性の解消を行っていない. より文脈に依存した語義曖昧性解消の手法を取り
入れることにより, さらなる性能向上が考えられる.
http://www.logos.t.u-tokyo.ac.jp/~hassy/publications/nlp2014/paper.pdf

言語学における語彙意味論の立場からすれば,その名詞の意味構造に記載すべき内容は語を成立させる最低限の要素に
限るというのが基本的な立場であろう.これは本研究の枠組みでいうならば情報抽出システムをソフトウェアと捉えた場合,
システム辞書が持つ基本オブジェクトデータと捉えることが出来る.つまり,評判やその診療所 (インスタンス) に関する人
からみた認識などは,既存のオブジェクトデータに対して動的に加えられた属性項目と考えられる.人の言語表現はまさに発
話者の認識において,抽象的に聞き手と共有するオブジェクトに対して個別の情報を加えることで新たな情報を提供している
と捉えるならば,こうした名詞意味構造の属性の拡張は取り込むべき機能であり,ソフトウェアにおけるオブジェクト指向の
枠組み?6で情報抽出システムを構成していく必要がある.
https://kaigi.org/jsai/webprogram/2014/pdf/679.pdf
0127デフォルトの名無しさん垢版2014/10/29(水) 15:23:53.31ID:WOXCtObY
翻訳って不可逆変換された後のデータから、別の不可逆変換された後のデータにいきなり変換しようとしてるから困難なんだよね。
いわばjpgからjpg2000にraw画像に戻さずに変換しようとしてる
0129片山博文MZ次期CEO ◆T6xkBnTXz7B0 垢版2014/10/29(水) 19:15:45.42ID:N8JvcROE
読み・書き・聞き取りの最強の日本語コーパス「三位一体」
プロジェクトを開始しました。
ご期待下さい。
0131デフォルトの名無しさん垢版2014/10/30(木) 00:55:36.93ID:iSxCzdRK
1pixごとの完全に元のデータ

自然言語の場合で言うなら、必ずしも言語である必要もないと思う
0132デフォルトの名無しさん垢版2014/10/30(木) 01:56:04.20ID:jdjv0M6/
鏡に映るものを計る、それがMZの目標である。
0133 【東電 74.8 %】 垢版2014/10/30(木) 12:36:21.88ID:VubmAqci
>>125
また、そんなことばっか言うて!キミはいい加減にしたまえ。ボクはキミをあまり知らない。もう面倒くさいったらありゃしゃんせ


神戸市の東、芦屋西宮の知的障害者施設で未成年利用者に性的な行為をして淫行条例で逮捕された三田谷学園元職員の堂垣直人(西宮市老松町)は、結局どういう罪になったの?
被害者家族のケアを芦屋市役所と兵庫県警はちゃんとやったのか?
差別や虐待は環境を選べない子供には関係ない。

http://www.youtube.com/watch?v=JxMzW3ZlV4g&;sns=em


執行猶予終了までまだあるよ。
0134デフォルトの名無しさん垢版2014/10/31(金) 16:05:31.03ID:0ns/rhdq
【科学】人工知能「東ロボくん」、センター模試英語で平均点超え 全体成績は私大8割と国公立4校でA判定 21年度までの東大合格目標??2ch.net
http://daily.2ch.net/test/read.cgi/newsplus/1414724624/
0136デフォルトの名無しさん垢版2014/11/03(月) 08:11:18.01ID:tokfpTJi
代ゼミ物理問題のイラスト。

http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/a/8/a8fbf865.jpg
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/3/b/3b63acc4.jpg
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/3/b/3b65850a.jpg
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/2/8/28b52d74.jpg

@やAは無理でも、Cの図なら「四角い箱」「四角い物体」くらいの大雑把な認識をする。
それは「弁当箱」かもそれないし、「本」かもしれないし、「小包」かもしれない。
次にBの図ろ考えると、点線が途中までになっていて、「何かが入っている箱」と考えられる。
文章では、「板」と「水」を入れて「板は沈める」ということになっている。
けれども「板」といってもそれは物理的に何の役割を果たすのかも考えなければならない。
0137デフォルトの名無しさん垢版2014/11/03(月) 08:35:06.90ID:gGej6kOp
(1)今年は3パーセント物価が上昇し、来年は5パーセント物価が上昇するという。平均の予想物価上昇率はいくつか。
(2)今年は3パーセント物価が上昇するという人と、5パーセント上昇するという人がいる。平均の予想物価上昇率はいくつか。
<ロボットは東大に入れるか 新井紀子>

「今年は〜」
@ 西暦○年度(現在)2)
A 去年は、来年は、○年前は、○年後は〜(1)
B うるう年だ

「物価が上昇」
@ どの月間に、どの年間に(1)、何%の割合か(1)(2)
A 品目別には〜、○円上昇、○円下落

「〜という人」
@ 〜という名前の人間が居る(人間A、人間B)
A 人間Aは○○と述べた、人間Bは△△と述べた(2)

機械には連想思考は期待できない以上、徹頭徹尾人力でインプットあるのみ。
0138デフォルトの名無しさん垢版2014/11/03(月) 09:22:18.89ID:tokfpTJi
>公式に当てはめる単純なタイプの問題には対応できますが、図形の性質に着目するような応用タイプの問題にはまだ対応できないようです。

「方べきの定理」という公式にあてはめるだけの問題も、図形がらみだと機械には理解できないらしい。
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/f/d/fd1497d7.jpg

余計な部分を消せば、「円に交わる(または接する)、平行ではない2本の直線」と、数式化できる。
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/0/c/0cdeedcc.jpg

図形の性質に着目するような応用タイプの問題は、余計な部分を消して、公式に当てはめる単純なタイプの問題に帰着させること。
設定が複雑になったら、「○本の直線と、○個の円と、○個の三角形と、○箇所の接点と、○箇所の交点」をバラバラに抽出し、しかる後に全ての組み合わせを提示する。
0139デフォルトの名無しさん垢版2014/11/03(月) 11:07:24.52ID:gGej6kOp
今回も出来の悪かった数列について。

b1 = 1 , bn+1 = bn + 3 → 階差数列 Cn = bn+1 - bn を考える

東ロボは、こんな程度の初歩的な連想ゲームも出来なかった。式の同値変形は東ロボの得意技であり、
bn+1 - bn = 3  と変形できれば簡単ではなかろうか。同様に 3bn+1 = 3bn + 4 → bn+1 = bn + 4/3 
→ bn+1 - bn = 4/3 も可能なはずだ。それから式の同値変形の手順も教え込んでおきたい。
0140デフォルトの名無しさん垢版2014/11/03(月) 11:29:13.15ID:gGej6kOp
物理の第三問は、「段差を作った容器に浅く水をはる」「斜め方向に一定周期の平面羽を入射させる」の文から、以下のような類題を検索できないだろうか。

図1のような深さが変化する水槽に水を入れ図2のように深さが変わる境界面に対して、45°の方向から斜めに平面波を進行させたところ、
http://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q12119401572
0141デフォルトの名無しさん垢版2014/11/03(月) 18:22:59.01ID:tokfpTJi
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/f/1/f1f74737.jpg

 ブルーベリーがのったデコレーションケーキ(のイラスト)なんて、おそらく多くの
人が生まれて初めて見るものでしょうね。なのに、われわれはそれがそうだと、正し
くわかる。どうしてなのでしょうか。これは認知科学という分野の難問のひとつです。
 だいたい、このイラスト、変なんです。ブルーベリーの直径って1センチ未満ですよ。
だとすると、このケーキ、直径が12センチくらいしかないことになる。そんなの、
おかしいでしょう?(笑)にもかかわらず、その年のセンター入試を受けた受験生たち
は誰一人としてそれを変だと思わず、粛々と問題を解いたんですね。
 ちなみに私の職場で、ケーキにプチトマトがのってるね、と言ったひとがいますね(笑)。
<ロボットは東大に入れるか 新井紀子>

>ケーキにプチトマトがのってるね、

楕円形の周上に、白っぽい不定形の何かと、黒っぽい円形の何かが、交互に並んでいる。
但しこの図を立体として観察すると、楕円形は円形を現しており、また黒っぽい円形の何かの中心部が白くなっているのは球形と推測される。
0142デフォルトの名無しさん垢版2014/11/03(月) 19:01:37.56ID:ieVOoQg9
東ロボくんって画像処理系の人ほとんどいないでしょ
0143デフォルトの名無しさん垢版2014/11/03(月) 23:09:51.81ID:tokfpTJi
初頭幾何は、不要な線を消して、必要な線だけにしないと、定理が使えない。

元の図形
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/3/a/3aaa1e5f.jpg
単純化して、2QT=QR
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/0/1/01eaff32.jpg

線分QTと線分QRの関係を求めるのに、どの線が必要で、どの線が不要なのか。
また必要な線が無い場合は、点と点同士を結んだり線分を延長させたりして、補助線を引く。
計算力にモノを言わせて、しらみつぶしに全ての場合を調べつくすというやり方もある。

正九角形があり辺を共有しない三角形はいくつあるか。という問題があり、答えは30らしいです。なぜこうなるのでしょうか?
http://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q10114300645

全ての場合をしらみつぶしに数え上げるアルゴリズムは可能ですか?
0144デフォルトの名無しさん垢版2014/11/04(火) 00:06:26.26ID:LJyHsHlb
組み合わせ最適化だろ
オーダーくらい自分で考えろよ
0146デフォルトの名無しさん垢版2014/11/04(火) 10:46:33.52ID:Td6UKxL3
イラスト理解は、とりあえず形状と色彩だけを、「遠近法」で大雑把に捉えて推定するくらいの機能を。

>ケーキにプチトマトがのってるね、

ケーキだのクリームだのブルーベリーだのは特定できなくてもいい。まず「形状」は、手書きの文字認識機能
は向上しているのだから、その技術を応用すればいい。また「色彩」は白黒でも遠近法が把握できるように工夫する。
楕円形の周上に、白っぽい不定形の何かと、黒っぽい円形の何かが、交互に並んでいる。但しこの図を立体
として観察すると、まず何かの土台があって、上部の楕円形は円形を現しており、また黒っぽい円形の何かの
中心部が白くなっているのは球形と推測される。
0147デフォルトの名無しさん垢版2014/11/04(火) 11:14:12.09ID:Td6UKxL3
>>116
>朝三暮四になっていないか、一つの問題を様々な角度から理解させたり、表現や設定を変えて類題を作ってみる。

私の講座のテキストで恐縮ですが、コチラの2問をご覧ください。
一見すると、「お菓子を配る問題」「直方体を積み上げる問題」と別の問題に見えます。
しかし、解いてもらえるとわかりますが、この2問は素因数分解を使って解く、
同じパターンの問題です。つまり類題ってことになりますね。
さらに、(細かい説明は解説に任せますが)2つの問題とも「2以上」という語句が共通しており、
この「2以上」が解法の方針を示してくれる重要な語句だということがわかります。
これより類題とは、問題文の重要語句が共通している問題を指すことがわかります。
したがって、皆さんが類題を認識するためには、問題文の重要ポイントを意識しない
といけないんだっていうことがわかりますね?
http://shibasaki873.blog.fc2.com/blog-entry-74.html
0148デフォルトの名無しさん垢版2014/11/04(火) 11:49:28.30ID:Td6UKxL3
>日本語の形式表現変換については,物理科目では極めて困難で,

>余計な部分を消せば、「円に交わる(または接する)、平行ではない2本の直線」と、数式化できる。

そもそも自然言語というのは、単語ひとつとっても『不要な情報』で溢れ返っている。例えば『板』という単語の用途は様々で、
物理学的にみれば「剛体」にもなりうるし「物体」にもなりえるし「障害物」にもなりえる。東大の二次試験などは分野が複数
にまたがっていて一層わかりにくい。自然言語文を題意に合わせた形式表現変換するには、膨大な連想シソーラス網から、
必要な部分だけを切り出すこと。
他の煩雑かつ不要な情報を完全に除外し「重要ポイント」のみを抽出する。入試問題の多くは過去問の焼き直しだが、
表面上の言い回しを変えていたり、別の図柄を用いていたりして、改題して出題される場合が多い。似た問題は出るが
同じ問題は出ない。単純な問題に不要な情報を追加してわざとわかりにくくしているのだ。こういう場合は「類型問題」
の候補をいくつか挙げて、共通事項を抽出するというアルゴリズムが不可欠になってくる。
0149デフォルトの名無しさん垢版2014/11/05(水) 13:11:11.01ID:TFchYdUt
ていうかどうしたいのかね。
画像処理では物体認識と、座標位置は取得できけど。
0150デフォルトの名無しさん垢版2014/11/06(木) 07:15:21.52ID:1dD9kBwW
http://blog.livedoor.jp/dg_law/archives/52234923.html

>日本語の形式表現変換については,物理科目では極めて困難で,数学のような半自動化さえ難しい。
>日本語が曖昧すぎるため。たとえば「金属を折り曲げる」や「滑らかな坂」を東ロボくんが自力で理解して,
>シミュレーターに取り込むのは,少なくとも現状では絶対に無理。

こういうのは、物理用の形式表現変換コーパスを用意しておきたい。

>金属を折り曲げる

長方形のABCDがある。金属板は一様で、質量はM。金属板をEFとGHでそれぞれ直角に折り曲げて、
水平な床に置きCDの中点Iから軽い糸でおもりをつるす。おもりの質量がある値より大きいと金属板は倒れてしまう
mはどのような値になるか?
http://okwave.jp/qa/q7197628.html

この類題に、「金属板」=「金属でできた板」とアノテーションをつけておけば、「金属を折り曲げる」にも応用できる。
また金属を折り曲げると、支点とモーメントはどうなるかという連想思考も可能になる。

>滑らかな坂

したがって滑らかな坂を転がる質点は運動の方向が斜面の形状によって変わろうとも力学的エネルギーの保存は成り立っている。
http://www.ep.sci.hokudai.ac.jp/~heki/pdf/mechanics5.pdf

全ての文章を完璧に形式表現変換できなくても、過去問の解法パターンからある程度の推論はできる。
入力予測機能を備えた文字変換システムのように、解法予測機能をつける。
0151デフォルトの名無しさん垢版2014/11/06(木) 13:15:54.06ID:1dD9kBwW
http://www.ep.sci.hokudai.ac.jp/~heki/pdf/mechanics5.pdf

>なめらかな面に束縛された質点の運動。

これをどうやってコンピューターに理解させるか、どう形式変換するか。

mv2/2(運動エネルギー) + mgh(位置エネルギー) = 一定、となる物理現象とでも定義しようか。
滑らかな面は不定曲線でもいいということで。これなら風が吹いたり電磁気が出たりで別のエネルギー加減
が生じない限り、公式当てはめで楽に解答できる。
同じ内容の物理現象を、別の言葉で言い換えたり、別のイラスト図で書き換えたりして、形式変換コーパスを増やす。
0152デフォルトの名無しさん垢版2014/11/06(木) 14:50:01.57ID:1dD9kBwW
数学TAの第5問「104を素因数分解すると〜」ができなかったのは何故かを数学担当者に聞いてみた。
いくら東ロボが語学オンチでも、これはないだろう、と。

http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/3/0/301029f2.jpg

前文の「104以下の自然数で,104と互いに素である自然数の個数を求めよう。」に目がくらんで解答できなかったらしい。
余計なノイズ(最初の問いでは)が判断を狂わせたのだ。何がノイズかは、文章の一部を何百回もランダムに抜き出して吟味するしかない。
長文は一文一文を分解して(省略語を補い、かつ「それ」「これ」などの代名詞の内容は明確にした上で)、
例えば一つの大問に10の文章があったら、その中からランダムに一つ(10通り)、ランダムに2つ(10×9÷2=45通り)、
ランダムに3つ(10・9・8÷3・2)・・・というふうに挙げてみる。また一つの文を文節に区切ったり、短い文に書き換えたり、
省略語を補ったり、ランダムにいくつかの文節を切り取ってみたりして、小問ごとに必要な要素だけを抽出する。

http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/8/f/8f23e42b.jpg

数列もからっきしだった。これの最初の問いは、ある条件での等比数列の一般項を求めるというごく初歩的な問い。

いったんノイズを消去して、a2 = 24 , a5 = 192 から r^3 = 8
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/5/6/56b247f8.jpg
あとから復活させて、公比は実数だから r = 2 よって
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/2/8/28b927d8.jpg
公比=2、かつ a2 = 24 より 初項a1 = 12 、よって数列{an}の一般項は an = 12(2)^(n-1)
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/c/3/c3506aa2.jpg

あとは東ロボくんお得意の「同値変形」で楽勝のはず。
0153デフォルトの名無しさん垢版2014/11/06(木) 16:11:34.55ID:1dD9kBwW
>ブルーベリーがのったデコレーションケーキ(のイラスト)なんて、おそらく多くの人が生まれて初めて見るものでしょうね。
>なのに、われわれはそれがそうだと、正しくわかる。どうしてなのでしょうか。

http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/0/9/090ff180.jpg

こうして「ある部分」を削除してしまえば、「何かと何かが交互に楕円形に並んでいる」くらいの認識はできるはずだ。

どのように削除するかは、「境界線」のみに着目して切り分けで、あとはランダムに何万通りも抽出する。
0155デフォルトの名無しさん垢版2014/11/06(木) 20:49:20.00ID:Z+6n6avI
>>153
画像処理を最低限知ってから言えよ
ちんぷんかんぷんだわ
0156デフォルトの名無しさん垢版2014/11/07(金) 02:56:19.25ID:zRPOEUiC
>>155
そういう君は、画像処理のプロなの?
0157デフォルトの名無しさん垢版2014/11/07(金) 20:12:31.00ID:LCGb7X+6
囲碁の碁石は、将棋の駒とは違い、一つ一つに能力の差は無い。状況によって要石になったり廃石になったりする。
これは企業が社員ひとりひとりの評価をどうするかという問題と似ている。どの社員が必要で、どの社員がお荷物なのか。
ある時には存分の活躍をしていた社員も、時代が変わればお荷物になったり、逆に新人のときにお荷物だった社員が、
3年目で頭角を現してくる場合もありうる。碁石の評価は社員の社内評価と同じと考えられないだろうか。

●●●
●●●
●●●

だが少なくとも上の図の真ん中の黒石は、役に立たないどころか完全な害悪であろう。会社で言えば「懲戒免職」に値する。
こんな社員ばかりを抱えている企業に、未来があるようには思えない。囲碁における「評価関数」も、
○手目現在における人事評価ということにしてはどうか。
0158デフォルトの名無しさん垢版2014/11/08(土) 04:53:29.67ID:WHpgboF2
>>156
プロだけど?
でも書き込みの内容から最低限度の知識も無いことは誰でもわかるね
0159片山博文MZ次期CEO ◆T6xkBnTXz7B0 垢版2014/11/08(土) 05:41:32.70ID:ebCh2W7f
【確率問題の考え方】
1.試行や事象を表す文章から、すべての未知数の範囲を決定し、
それぞれの未知数の範囲を区間の集合として表す(Boost.Icl参照)。
2.特定の試行や事象の未知数の組合せを計算し、全試行・全事象の組合せに対する割合を求めたものが確率である。
0160片山博文MZ次期CEO ◆T6xkBnTXz7B0 垢版2014/11/08(土) 06:33:51.13ID:ebCh2W7f
※「コインには裏と表がある」「袋にお金を入れると袋の中のお金が増える」
といった常識を理解しておく必要がある。
※試行には順序がある。
0161デフォルトの名無しさん垢版2014/11/08(土) 09:53:46.74ID:DB2yxOk0
>>158
>プロだけど?
>でも書き込みの内容から最低限度の知識も無いことは誰でもわかるね

では先生が>言う「最低限度の知識」とは何?
0162デフォルトの名無しさん垢版2014/11/08(土) 09:56:43.31ID:6X6f98tO
>>158は素人なのは、書き込みからして明らか。プロなら間違いの理由を理路整然と述べる。
0163デフォルトの名無しさん垢版2014/11/08(土) 09:58:47.70ID:6X6f98tO
>>161
「プロのあなたに教わりたい」なんて言ったら逆切れするだろうねw
0164デフォルトの名無しさん垢版2014/11/08(土) 10:04:27.32ID:DB2yxOk0
更に言えば、その道で高給稼いでる画像処理のプロが、こんな2ちゃんねるの名無しの
ゴミカキコにいちいち反応する理由があるのか。

踊るアホウに見るアホウwwww
0165デフォルトの名無しさん垢版2014/11/08(土) 10:10:13.37ID:6X6f98tO
優秀なプロの画像処理エンジニアの君のレスを、早く読みたいなぁw
0167デフォルトの名無しさん垢版2014/11/09(日) 00:34:13.35ID:iKOy/805
>>162
しょうがないなぁ
マッチング性能トップはずっとconvolution newralnetだよ
画像処理の機械学習について調べたらすぐ出てくることだぜ
0168デフォルトの名無しさん垢版2014/11/09(日) 00:36:05.09ID:iKOy/805
東ロボくんの講演で参加者がアホなことほざいてるのは画像処理の人間がほぼいないからってだけだ
お互いにできるこできないことだけでも相談してみたらいいのにね
だから情報工学は程度が低いって言われるんだよ
0170デフォルトの名無しさん垢版2014/11/09(日) 12:07:09.66ID:iKOy/805
アハハハw
0171デフォルトの名無しさん垢版2014/11/09(日) 18:10:14.84ID:uoUT28t9
>>168
>東ロボくんの講演で参加者がアホなことほざいてるのは

だから優秀なエンジニアの君にこそ、技術立国日本の未来がかかっているってことさ!!

優秀なエンジニアの君の話を、もっと聞きたいなぁ。
0173デフォルトの名無しさん垢版2014/11/11(火) 07:12:12.70ID:0bxYCDe4
「各○個ずつあり」「左から1列に並べる」「〜の順に並んでいる」「繰り返し行う」「次の操作を繰り返し行う」「無作為に〜を選び」
「場所を入れ替える」、そのままを当てはめればいいだけではないのか。

<2014年代ゼミ東大プレ文系数学第二問>
 白球,黒球,赤球,青球が各1個ずつあり,これらを左から1列に並べる。最初,4個の球は左から「白球,黒球,赤球,青球」
の順に並んでいる。これらの球に,次の操作(※)を繰り返し行う。
(※)4個の球のうちから無作為に2個の球を選び,これらの並んでいる場所を入れ替える
<以下略>

【問】A,B,Cの3つの箱と,赤,白,青,黄の玉が各3個ずつある。
http://www.nipec.nein.ed.jp/kk/b14/h22/pdf/16nagai.pdf

(1)順序をつけて,左から 1 列に並べる場合をすべてあげよ.
http://157.7.137.167/text/mat_a_s2/mat_a_s2_05.pdf

http://pws.prserv.net/math/mathpuz.html
3人は、前からA、B、Cの順に並んでいます。

いま、初めに頂点Aに白玉を1個、頂点Cに赤玉を1個置き次の操作を繰り返し行う。
http://www.riruraru.com/cfv21/math/kom11sA4.htm

例題 13 右の表は,206 個の卵のうちから無作為に35個を選び,その重さを調べたものである。
http://www.insatell.co.jp/CN/ikou/chugaku/pdf/chumath_3.pdf

池の左側にアマガエルが、右側にヒキガエルが3匹ずつ並んでいる。このカエルのいる場所をそっくり入れ替えてほしい。
http://r27.jp/quiz/toads-and-frogs/
0174デフォルトの名無しさん垢版2014/11/12(水) 11:50:37.55ID:LPSYNXn+
中間言語方式はなぜ失敗したのか
0175デフォルトの名無しさん垢版2014/11/12(水) 14:03:23.82ID:dsokmnVj
機械翻訳における枢軸(pivot)の話か?
そのような中間言語を作ることが事実上不可能だから。以上。
0176デフォルトの名無しさん垢版2014/11/12(水) 15:33:24.76ID:LPSYNXn+
なぜ不可能だったのか
0177デフォルトの名無しさん垢版2014/11/12(水) 22:23:18.43ID:yWDn898h
 検索キーワードを選んだら「実数」「満たす」「範囲」とか「a」「x」とか、ほとんど変わらないです。
でも、解き方も答えも全然違う。数学の問題は、統計的手法ではどうにもならなさそうです。
1)xを実数とする。つねにx^2 + ax + 4 ≧ 0 であるとき、aの範囲を求めよ。
2)x,y を実数とする、a = x + y とする。つねにx^2 + y^2 = 1 であるとき、aの範囲を求めよ。
<ロボットは東大に入れるか 新井紀子>

>つねにx^2 + ax + 4 ≧ 0 であるとき、
>つねにx^2 + y^2 = 1 であるとき、

前者は「2次不等式」、後者は「円の方程式」。それくらいの違いは区別してもらいたい。
0178デフォルトの名無しさん垢版2014/11/12(水) 22:50:00.93ID:dsokmnVj
>>176
日本語の「首」が、ネックの意味だったりヘッドの意味だったりするとか
そういった翻訳上の困難を全部、しかもあらゆる言語間におけるそういった
差異を全部中間言語が吸収しなければならない。あるいは、そうでなければ
各言語間のそういった問題を、中間言語(への・からの)変換部分が抱え込む
必要があって、結局、n 個の言語に対して n × n 個の翻訳エンジンを作るのと
変わらない難しさということになってしまう。
0179デフォルトの名無しさん垢版2014/11/13(木) 00:33:08.26ID:EzUPhDs/
中間言語の候補としては、数学とか物理とかが良いと思う。「東ロボ」プロジェクトに期待したい。

>つねにx^2 + y^2 = 1 であるとき、

x^2が1/x(x≠0)だったら話は違ってくるだろう。また高校数学で二次方程式は解けるが三次方程式は解けない。
0180デフォルトの名無しさん垢版2014/11/13(木) 02:08:12.41ID:EzUPhDs/
類似性に基づく推論は,人間の強力な問題解決方略の 1つである.我々は
新奇な問題に遭遇した時,自分自身が過去に経験した問題や既存の例と
いった「事例」から似たものを参照し,それを問題解決に利用することが
多い.そのため,様々な課題を用いて,人間の類似性判断や問題解決にお
ける思考メカニズムを理解する認知心理学的研究や,類似性に基づく推論
を要素技術として問題解決や問題解決支援を行う計算機システムを構築す
る知識工学的研究が展開されてきた.
類似性に基づく推論においては,現在直面している問題と類似する過去
の事例を利用することから,類似性の判断が問題解決における重要なキー
となる.類似性は,問題と事例との間の同一の要素(共通点),および,
異なる要素(差異)に基づいて評価される.一般に,現在の問題と完全に
一致する過去の事例が利用できることは稀であるため,通常は問題と事例
との差異に基づき,事例を修正する必要がある.
しかし,差異は単に埋められなければならないだけのものではなく,差
異に積極的な意味が生じる場合も存在する.その一例が,数学学習におけ
る問題解決である.数学学習には,教示された問題(例題)に基づいて別
の問題(類題)を解く類題解決や,学習者自身が新しい問題を作り出す作
問といった問題解決がある.数学における作問については,問題を作るこ
とは問題を解くことと同様に重要な活動であることが,数学者や数学教育
者によって指摘されている.

類似性に基づく推論を用いた知的問題解決支援の検討と実現
http://ir.nul.nagoya-u.ac.jp/jspui/bitstream/2237/8249/1/kojima_thesis.pdf
0181デフォルトの名無しさん垢版2014/11/13(木) 03:28:10.49ID:mINVD8Cg
中間言語やインターフェースは、卸しと同じ

メーカーが10社、小売店が20社あるとき、
卸しが無いと、10*20=200 通りのコネクションが必要だが、

卸しを中間に介すると、メーカー・卸し間が10通り、
小売店・卸し間が20通りの合計、10+20=30 通り

つまり、掛け算を足し算にすることで、
組み合わせ爆発を防いで、コネクションの手間をへらす
0183デフォルトの名無しさん垢版2014/11/13(木) 10:17:56.29ID:7ZjHj42h
>>179
単に言語が表現できる世界を極端に制限するだけじゃないか。
そんなことを許せばいくらでも簡単になることは当然わかっている。

そのかわりどんな短篇小説の一本も訳せないような使えないゴミができるだけだ。
0184デフォルトの名無しさん垢版2014/11/13(木) 14:34:17.79ID:ydn9QRw8
>>183
東ロボは国語もやってるが?
0185デフォルトの名無しさん垢版2014/11/13(木) 15:00:26.25ID:7ZjHj42h
機械翻訳における枢軸(pivot)の話とは違う「中間言語」のことを言いたいのか?
だったら知らんわ。
0186デフォルトの名無しさん垢版2014/11/13(木) 23:46:06.97ID:G+XRMicG
東ロボの話してるやつは体系的に勉強して出直してこい
0188デフォルトの名無しさん垢版2014/11/14(金) 10:28:40.79ID:0NdzO4Gj
プロの定義による、と一蹴されて終わりということがわかっている質問をなぜするのか?
人工知能云々以前に、バカだから、か。
0194デフォルトの名無しさん垢版2014/11/14(金) 16:47:02.37ID:cE0anVKk
>>188
>プロの定義による、と一蹴されて終わりということがわかっている質問をなぜするのか?

レスありがとう。それが自然言語処理学のプロたる君の意見なんだね。

だから優秀なエンジニアの君にこそ、技術立国日本の未来がかかってるってことさ!
0195デフォルトの名無しさん垢版2014/11/14(金) 17:15:16.64ID:127iWseV
東ロボはマーケティング・話題作りのセンスがズバ抜けている
エスキモーに氷を売れるレベル
0196デフォルトの名無しさん垢版2014/11/14(金) 20:26:15.60ID:E47YIEif
人工知能学会の親戚でしょ
無人気すぎて細々とやってたとこで昔からアマチュアの参加を奨励してたよね
0197デフォルトの名無しさん垢版2014/11/16(日) 15:42:31.45ID:jrq2Dts2
( 1) オブジェクト指向的アプローチによる係り受け/語義曖昧性解決/照応解析/
述語項解析システム
伊藤 英紀 ((株)富士通研究所)
係り受け解析、語義曖昧性解決、照応解析、および述語項解析の4つのタスクに
対する新たなアプローチを提案する。第一に、これら4つの処理を、逐次的(パイ
プライン的)にでなく同時に行う。これにより、逐次的に行うよりも解析精度が
向上することが期待される。第二に、文中の名詞をオブジェクトに対応させ、
それらオブジェクトの属性とその変化をトラッキングする。形容詞は一般にオブ
ジェクトの属性を、動詞はそれらオブジェクト属性の変化を表す、と考える。
これにより、文脈の情報を解析結果に反映させることが可能となる。このような
意味理解のモデルは、人間が脳で行っているであろう理解プロセスに近く、自然
言語理解には有望なアプローチである。このアイデアに基づいたシステムを実装
し、例文に対して動作を確認した。
( 2) uLSIF を用いた事例への重み付けによる語彙曖昧性解消の領域適応
新納 浩幸, 菊池 裕紀, 佐々木 稔, 古宮 嘉那子 (茨城大学工学部情報工学科)
語彙曖昧性解消の領域適応に対して共変量シフト下の学習を試みる。確率密度比
の算出に uLSIF を用いる。このとき通常のガウスカーネルではなく線形カーネ
ルを利用する、また重み付き学習には、通常、最大エントロピー法を用いるが、
ここでは SVM を利用する。また確率密度比が極端に小さい、あるいは大きい事
例のみに重みを与える方法も試す。
http://www.ipsj.or.jp/kenkyukai/event/nl218.html
0199デフォルトの名無しさん垢版2014/11/18(火) 14:10:53.64ID:7YVftxrd
人工無脳学会はないの?
0200sage垢版2014/11/18(火) 20:56:42.46ID:jieDrr0b
>>198
本当だよね。このスレは本来需要が高いはずなんだけど、スパム投稿で荒らされてる気がする。
0201デフォルトの名無しさん垢版2014/11/18(火) 21:19:15.86ID:f2DqKBZs
自然言語処理の需要ってあんの?
0203sage垢版2014/11/19(水) 01:09:50.33ID:hLraT9DN
削除して再出発しても、自分の意見のない荒らし君が来るとまた同じだからなぁ。
0204デフォルトの名無しさん垢版2014/11/19(水) 05:37:54.13ID:SWof/ihh
じゃあ聞くけど東大ロボットて問題どう読み込んでるの
世界史なんか図をを認識する必要があるのに
まさか手作業で、コンピュータに理解できるように
入力してるじゃあないだろうなw
0205デフォルトの名無しさん垢版2014/11/19(水) 06:50:11.76ID:CbmB6PIS
長文禁止とかいうルール無いからなぁ…荒らしとは判断し辛い。
長文投げる人がコテつけてくれたらいいんじゃないかな?読みたい人は読めて長文嫌いな人は黙ってNGできるように。
0206デフォルトの名無しさん垢版2014/11/20(木) 08:59:42.01ID:AVgM9bDZ
でも画像処理スレが他にあるのにここで変な話されてもね
0208デフォルトの名無しさん垢版2014/11/21(金) 21:08:35.82ID:u7zfQT1D
>>207
>>153
0209デフォルトの名無しさん垢版2014/11/21(金) 22:00:40.78ID:o0Qb8YAB
>>208
もしかして>>153を投稿された方でしょうか。でしたら質問があります。

現在の画像処理技術で、「不要な部分を消して、必要な部分だけ取り出して認識」は可能ですか?
また>>153の画像から、「何かと何かが交互に楕円形に並んでいる」と認識させることは可能ですか?
それから>>136>>143のように、「認識に必要な輪郭だけを取り出す」ことは可能ですか?
0211デフォルトの名無しさん垢版2014/11/22(土) 01:13:12.25ID:AHB+ph+z
亀レス。

>>137
文章題は、「風が吹けば桶屋が儲かる」方式の連想モードで何とかなるかも。機械には
「なぜそうなるか」の論理思考は無理だが、試験問題の多くはそういう能力を要求していない。
0212デフォルトの名無しさん垢版2014/11/22(土) 01:16:42.03ID:g4vKpQIM
何言ってんだ?
0213デフォルトの名無しさん垢版2014/11/22(土) 14:09:13.78ID:6/H2UDnl
エラー分析まとめ
<誤り 200事例 分析結果>
@正解を支持する推論事例が得られていても誤った
? 従来の知識表現で?適切でない推論事例が適用されてしまうのではないか?
→ 大部分を占めている.@事象間関係知識?文脈化
A正解を支持する推論事例が得られなかった
? 2億もの推論事例をもってしても得られない → 類似した事例が在るが適用できない
? より大規模にすれ?解決する問題なのか? → そういった問題?少ない
http://www.cl.ecei.tohoku.ac.jp/~jun-s/publications/nlp2014_slides.pdf
0214デフォルトの名無しさん垢版2014/11/22(土) 16:10:30.29ID:6qlI/h48
人口知能
詐欺集団の合言葉
役人の受けがいい、人口知能関連で科研費が出やすい
何時までも詐欺行為がとまらない
0217デフォルトの名無しさん垢版2014/11/23(日) 02:01:52.03ID:PwhPUgLb
>>124
>作業者の多くは人文系の日雇いもしくは時間単価で働くパート労働者であり,

「 2チャンネラー百万人 」ってのも、当たらずしも遠からずだな。
0218デフォルトの名無しさん垢版2014/11/23(日) 02:42:03.48ID:PwhPUgLb
新井紀子氏「これは面白い結果。"含意関係認識は人間には易しく機械には難しい"と我々人工
知能/自然言語処理の学者は考えているが、本当にすべての人間は含意関係認識を行えるのだろうか」
0219デフォルトの名無しさん垢版2014/11/23(日) 03:50:57.22ID:EIkF2ojA
情報工学の連中はなぜ自分らのやってることをサイエンスだと思ってるんだ?
0221デフォルトの名無しさん垢版2014/11/23(日) 04:24:52.15ID:EIkF2ojA
数学ならサイエンスだろ
アホか
0224デフォルトの名無しさん垢版2014/11/23(日) 10:52:01.52ID:U8weQpWK
工学はエンジニアリングだしな。
こういったごく基本的な語の解釈すら怪しい奴が何を批判しようとしても自爆するのは当然w
0225 ◆QZaw55cn4c 垢版2014/11/23(日) 10:56:15.70ID:K4bM7kRY
え?数学が自然科学ではない、というのは当たり前の話じゃなかったの?
0228デフォルトの名無しさん垢版2014/11/23(日) 18:57:03.46ID:PERA2nvu
51. 意味素性 つづき ?出来事および動作、作用の領域:PRC ?ACT(動作、行為) ?EVE(イベント、出来事)
?APO(予定に従った行動: ex 銀行が9時から始まる) ?RES(結果 ex 災害) ?PRO(結果、制作物 ex パンを焼く)
?PHE(自然現象の結果できるもの ex 氷が張る) ?NAT(自然物、現象 ex 台風、太陽) ?PLA(植物) ?GAS(気体 ex 霧、息)
?ELM(五感では捉えられない性質 ex たんぱく質、神 経) ?POT(身体部位 potency ex 足、肩、肺、胃腸)
52. 意味素性 つづき ?抽象性の領域:ABS ?Price(収入、価格) ?Measure(身長、体重) ?Information(情報、身長、小説、音楽、批評、住所)
?Quantity(重量、面積) ?Social bonds(格差、関係) ?Grade(身分、評価、規模) ?Form (評価される属性 ex 味、形)
?Attribute(程度で計るもの ex 非常識、進歩、塩) ?Reciprocity(相性) ?Personality(意地、性格) ?Mind (勘、神経)
?Manner(能力、性向など ex 料理、詰め、発表、運転、色 使い、人使い)
53. 意味素性 つづき ?抽象性の領域:ABS ?Method(方法、やり方) ?Objective-value(値 ex 赤、四角) ?Sensational-value(甘い、辛い)
?Evaluation(評価 ex 台所が苦しい、財政、舌) ?Currency(価格 ex 100ドル、1000円) ?Duration(期間 ex 3年) ?Distance (距離 ex 3km)
?Item(数を表す、ex 3人、1個) ?Ratio(割合, ex 30%) ?Quantity(量 ex 30kg) ?State(状態 ex安定、幸福、不幸、静か、可能、頑固)
54. 意味素性 つづき ?抽象性の領域:ABS ?Role(役職名) ?Relational-term(親族、交友関係) ?Direction(東西南北左右上下前後)
?Phase(時間的、位置的順序) ?Reference-point(基準点からの相対 ex 逆、以上) ?Norm(規則、法則、法律、公式)
?Subfield(学問、芸術、スポーツなどの分野) ?Inclination(心理的傾向 ex 興味、馴染み) ?Appearance(外見 ex印象、態度、形跡)
?Unit(単位) ?Time-point(時点) ?Time(出来事の順序関係、抽象的時間 ex 将来)
http://www.slideshare.net/hirsoshnakagawa3/grammar-39910952
0230デフォルトの名無しさん垢版2014/11/23(日) 19:14:32.75ID:uAltGaNh
整数は神が作ったから整数論は自然科学
それ以外は人間がつくったkら形式科学
0231デフォルトの名無しさん垢版2014/11/23(日) 19:22:23.28ID:PERA2nvu
グーグルが開発を進めている、写真を「自動的に説明する」技術
http://wired.jp/2014/11/20/google-image-recognition/
自然言語処理に新風を巻き起こしたWord2Vecとは何か
http://business.nikkeibp.co.jp/article/bigdata/20141110/273649/
述語項構造を意識した名詞の意味構造アノテーションのための名詞意味構造の検討
http://www.ninjal.ac.jp/event/specialists/project-meeting/files/JCLWorkshop_no6_papers/JCLWorkshop_No6_06.pdf

意味役割の種類
現段階での意味役割の種類を記述する.大きく 4 つの類にわけて,中分類で 29 種類を定義した.
さらにこれらに対して属性タイプが付与される形である.まず 29 種類を以下に示す.
構文類 ?      連語,外の関係,補語相当
対象類 ?      経験者,被使役者,対象,基準, 相互, 起点,着点,起点・着点,通過点,経路,方向
動作主類 ?    使役,原因,動作主,使役者,手段
条件周辺類 ?   限界,領域,場所,時間,条件,様態,程度,目的,順接,逆接
0232デフォルトの名無しさん垢版2014/11/23(日) 19:26:53.14ID:PmCQRqdR
>>228
>>231
ならば今こそ、そうした「意味役割」を付与したアノテーションコーパスを作成すべきだ。
それこそ 「 2チャンネラー百万人 」を動員すれば何とかなるはずた。
0233デフォルトの名無しさん垢版2014/11/23(日) 19:34:46.40ID:U8weQpWK
2ちゃんねらーなんか動員したら、ゴミの山が出来上がるだけ。
徴兵とか徴農とかがたいしてうまくいくシステムじゃないのと同じ。
0234デフォルトの名無しさん垢版2014/11/23(日) 21:41:51.89ID:PmCQRqdR
でも、アノテーションコーパスは、人手でやるしかないんでしょ。
0235デフォルトの名無しさん垢版2014/11/24(月) 03:15:43.74ID:wqHflsYn
無意味なコピペするやつやめてくんない?
0237デフォルトの名無しさん垢版2014/11/24(月) 23:07:25.90ID:PS8Utgm4
>>124
>作業者の多くは人文系の日雇いもしくは時間単価で働くパート労働者であり,

43歳ニートの俺でも雇ってくれるかな・・・
0238デフォルトの名無しさん垢版2014/11/25(火) 09:26:09.87ID:aL15dD2y
数学では,ある問題を解くために,その問題を別の問題に翻訳して,もとの問題ではなく
て翻訳された問題の方を解く,という方法がとられることがよくあります.A という問
題を解くために,B という問題が解ければ,その解から A の解も得られることが判って
いるような問題 B をうまく設定して,A を解くかわりに B を解くのです.このような
問題 B を見つけることを,「問題 A を問題 B に帰着させる」と表現します.B は以下の
例でのように単に A の言い替えにすぎない場合もありますが,面白いことには,B は A
よりむしろ難しい問題になっていることも多いのです.これは,問題がやさしいか難しい
かは必ずしも問題が解きやすいかどうかということと一致しない,ということでしょう.
多くの場合,解きたい本来の問題 A を帰着させる先の問題 B は A よりずっと抽象的
な問題になっています.これは,前の節でも述べた,抽象的な設定の方が数学的には扱い
やすい,という現象の現われと言えるでしょう.
もとの問題 A が一般的な(必ずしも数学で扱えそうには見えないような)問題で,そ
れを数学的な問題 B に帰着させているときには,A の数学化(mathem atization)が B で
ある,というような言い方をすることもあります.
一般的な問題を数学的な問題に帰着させる,つまりこの一般的な問題の数学化を行う
例として「ケーニヒスベルクの橋の問題」という名前で知られている問題について考察し
てみることにしましょう.
http://kurt.scitec.kobe-u.ac.jp/~fuchino/chubu/method-math-WS06.pdf
0239デフォルトの名無しさん垢版2014/11/25(火) 12:38:38.21ID:7PX75+Zb
無意味なコピペ迷惑だからやめてくんない?
0241デフォルトの名無しさん垢版2014/11/25(火) 12:50:18.42ID:7PX75+Zb
叩かないと消えないでしょ
0243デフォルトの名無しさん垢版2014/11/25(火) 14:01:43.88ID:aL15dD2y
コーパス開発はオープンにした方がよい、という提言で、全てのやり取りを公開しましょう、
という話なのだが、オープンソースソフトウェア開発のようにソースコードから開発のやり取り
まで全てをオープンにできる場合もあるが、コーパス作成は元のテキストを書いた人がいるわけで、
全てをオープンにできないという性格がどうしてもつきまとう。もちろん再利用可能なテキスト
にアノテーションをすればいいし、テキストを作るところからオープンにもできるわけだが、
それで見えなくなってしまう言語現象も少なくないと思われるし(実際講演の中でも「少数の
事例をどうするか」という問題提起があった)、個人的にはセミクローズド(特定のグループ内で共有)
程度が現実的なところではないかと思う。
それより大事だと思われるのは、そういったコーパス開発に参加する、あるいは門前の小僧状態で聞
くだけでも人が育つことであって、結局ここがボトルネックになり、特定の研究室の出身者しかノウハウがない、
という状況になっているのだと思う。特に個人的にポイントだと思っているのは、先日も書いたような新人
に対して優しいコミュニティになっているかどうかで、自然言語処理自体はかなり新人が入りやすい
コミュニティだと思うのだが、ことコーパスや辞書のようなリソース作成系はかなりハードルが高いと感じる。
コーパス分析やそれを用いた自動解析に関しても、簡単にできるところはすでにやり尽くされていて、
残っているのは難しいところばかりで、簡単なところから練習してウォーミングアップし、
助走期間を設けて本丸に突撃する、というようになっていないのである。もちろん最先端を走る研究者
たちで議論するのはもっとも難しい事例でよいし、むしろそうでないと意味がないのだが、簡単な事例
から始める(あるいは既存のものの分析からではなく、新しいタグ付与にメンターつきで最初から関わる)、
というトレーニングもあってよいと思う。
http://d.hatena.ne.jp/mamoruk/20140902/p1
0245デフォルトの名無しさん垢版2014/11/25(火) 14:29:27.54ID:aL15dD2y
コーパス作成について一からやり直したほうがいいかどうかは、悩ましい問題なので一概にどうだ
ということは言いにくいのですが、アノテーション・コーパス作成自体が大きな研究テーマであり、
ベストプラクティス的なものもなければ、少しだけ蓄積されているノウハウ的なものすらチーム
レベルでしか共有できていない(共有するのが難しい)、という状況です。また、やり直したら
すぐコーパスができるかというと、質の高いコーパスを作るには時間が何年もかかるものなので
(自分の携わった NAIST テキストコーパスは5年以上かかっています)、すぐ利用可能にはならないでしょう。
http://d.hatena.ne.jp/mamoruk/20140902/p1
0246デフォルトの名無しさん垢版2014/11/26(水) 10:03:34.88ID:NpjnEUfO
国や自治体は、地球儀で表現できる。物体・流体とその運動は、シミュレーターで表現できる。
人物とその行動はオブジェクトで表現できる。けれども「民主主義」とかの抽象概念は表現できず、
せいぜい共起関係を調べるのみ。例えば朝鮮民主主義人民共和国だって「民主主義」ということで、
北朝鮮=民主主義国家なんて理屈も成り立つ。しかしこれは一般的なイメージとはかけ離れている。
従って抽象概念を一般的なイメージに帰着させるためには、いくつかの具体物を結びつけるしかない。

「世間」とは何か
http://www.pat.hi-ho.ne.jp/nobu-nisi/kokugo/seken.htm

「世間」とは・・・近所のおばさん、警察、新聞、学校、勤め先の会社、知り合い・・・・
0247デフォルトの名無しさん垢版2014/11/27(木) 17:46:09.92ID:+o9Dshrb
英語の論文読むのが苦痛でたまらない
はやく翻訳装置つくってくれ
0248デフォルトの名無しさん垢版2014/11/28(金) 17:31:36.07ID:7V+kfZOs
対話の学習ってどうやるの?
0249デフォルトの名無しさん垢版2014/11/28(金) 21:08:06.67ID:utFPiG0+
第二に,3 次元オブジェクトの中には複数の物体から構成されるオブジェクトがある(たとえば,図 6 は「花」と「鉢」
から成る一つのオブジェクトである).今後,画像解析技術が進み,機械が複数の物体から構成されるオブジェクト
を一つ一つの物体に分解できたとしても,機械にとって,それが常識に基づいた構成であるか,常識から外れた
構成であるかを区別することは困難であると推測される.
http://minamigaki.cs.inf.shizuoka.ac.jp/work/2014/SCIS2014fujita.pdf
0250デフォルトの名無しさん垢版2014/12/01(月) 17:26:06.50ID:7r1s3h7c
目障りなコピペ野郎が
0251デフォルトの名無しさん垢版2014/12/02(火) 19:50:43.04ID:OPiibqqe
東ロボくん センター模試2014

英語………95
国語………69
世界史B… 52
日本史B… 44
数学TA… 40
数学UB… 55
物理………31

7科目合計…386/900

漢文は全問ノーマーク
世界史Bは2問ノーマーク
日本史Bは4問ノーマーク

数学じゃないんだから
分からない問題はランダムにマークしろよ…
0252デフォルトの名無しさん垢版2014/12/02(火) 19:51:56.20ID:OPiibqqe
漢文・世界史B・日本史B
ノーマークの問題をすべてランダムにマークしてたら
49.6%の確率で14点以上アップ

つまり49.6%の確率で7科目合計が400点に届いたことになる
0253デフォルトの名無しさん垢版2014/12/02(火) 19:53:47.76ID:OPiibqqe
東ロボくん 英語 センター模試2014

発音・アクセント問題…パーフェクト(配点14)

未知語-語意推測問題…パーフェクト(配点8)

グラフ・図表問題…得点率75%(配点20)

語句整序完成問題…得点率67%(配点12)

意見要旨把握問題…得点率67%(配点18)

文法・語法・語彙問題…得点率60%(配点20)

会話文完成問題…得点率33%(配点12)

文脈に合わない文-指摘問題…得点率33%(配点15)

実用文書読解問題…得点率33%(配点15)

読解問題(論説文)…得点率33%(配点36)

読解問題(情報理解)…全滅(配点30)
0254デフォルトの名無しさん垢版2014/12/02(火) 19:54:56.87ID:OPiibqqe
東ロボくん 国語(現代文) センター模試2014

漢字…パーフェクト(配点10)

語句の意味…得点率67%(配点9)

評論読解…得点率50%(配点40)

小説読解…得点率32%(配点41)
0255デフォルトの名無しさん垢版2014/12/02(火) 19:55:07.53ID:iCHrVmBA
東ロボくんの話しないでくれない?
0258デフォルトの名無しさん垢版2014/12/03(水) 21:02:56.05ID:14+GtqTY
文章が入力されたら、隠れマルコフモデルがたくさん存在する集合に射影するようなことできないかなぁ
0259デフォルトの名無しさん垢版2014/12/03(水) 22:32:37.61ID:H1Y0sahg
NAISTの自動音声翻訳
2013年、初級通訳者レベルに到達

ドコモが機械翻訳の会社「みらい翻訳」を設立
機械翻訳の精度は現在TOEIC 600点レベル
2016年までにTOEIC 700点レベル、2019年までにTOEIC 800点レベルを目指す

TOEIC 600点レベルなら、センター英語はもっと点とれるんじゃないの?

東ロボ英語チームはみらい翻訳と組めばいいかもね
0260デフォルトの名無しさん垢版2014/12/04(木) 11:13:59.73ID:h+gvphcs
word2vecはギリギリまで次元を減らして意味ありげな指標を作っただけという可能性
0262デフォルトの名無しさん垢版2014/12/04(木) 18:17:46.95ID:5hTqY9uU
東ロボくん 東大模試2014

理系数学…36/120(偏差値55.7)
文系数学…32/80(偏差値54.1)
0264デフォルトの名無しさん垢版2014/12/04(木) 21:03:38.82ID:MwWrePzc
東ロボくん専用スレ立ててこのスレでは禁止していいかな?
0269デフォルトの名無しさん垢版2014/12/15(月) 06:54:15.73ID:NngIclHu
東ロボにRubyは使えないのか?

力学シミュレーションと可視化
これまでRubyで軽くシミュレーションを書くのはかなり困難なことでした。
微分方程式はRuby-GSLで解けますがインストールは非常に煩雑でした。
可視化に関しては決定的な方法がなかったように思います。 (私がよく知らないだけかもしれませんが…)
今ではFortranをラップしたODE gem (gem install odeだけでインストール可能)で常微分方程式
を解くことができます。 また、IRubyに新しく加わったCustomWidgetを使うことで、Rubyとネイティブ
拡張の出した結果をリアルタイムにブラウザ上に表示できます。この場合JavaScriptの有名なdom操作ライブラリ、
jQueryやd3.jsを使って可視化部分を簡単に書くことができます。
http://domitry.hatenablog.jp/entry/science_with_ruby
0270デフォルトの名無しさん垢版2014/12/16(火) 14:52:53.84ID:hxvZqs1F
>>245
>自分の携わった NAIST テキストコーパスは5年以上かかっています

人海戦術で何とかならんのか?
0271デフォルトの名無しさん垢版2014/12/17(水) 13:49:18.49ID:+8T0slzN
>>245
>自分の携わった NAIST テキストコーパスは5年以上かかっています

それでもアノテーションコーパスの充実は、今後ますます必要になってくると思う。

□現象?多様性?カバーできているのか?
SNS文書,論文など別?種類?文書へアノテーションが必要
□学習アルゴリズム・解析アルゴリズム・特徴抽出?さらなる改善
現象?多様性を捉えるには? 今まで?延長線上でうまくいくか? 問題?観点を効果的に捉えるには?
□情報共有
アノテーション時?経験則,問題?評価指標
□ジレンマ
学術的に?問題を安定させなけれ?共有が難しい /
今後想定される応用に向けて問題?改編が必要
□アノテーションしたデータだけ対象にしていていいのか?
アノテーション学 vs ポスト経験主義

述語項構造と照応関係?アノテーション:
NAISTテキストコーパス構築?経験から
飯田龍(NICT), 小町守(首都大),井之上直也(デンソー・東北大),
乾健太郎(東北大), 松本裕治(NAIST)
http://www.anlp.jp/anniversary/20th_sympo/slide_iida.pdf
0272デフォルトの名無しさん垢版2014/12/18(木) 17:37:40.91ID:h7yCp+rM
長文を箇条書きにするというのは恐らく文書要約の範疇で、盛んに研究されているところだと思いますが、
重要文抽出以外はまだ実用的には難しいでしょう(文抽出以上のことをしようとすると、意味を理解しないといけなくなる)。
最近はニュースの配信アプリケーション・サービスが盛んに開発されていて、ざっくりまとめたりする機能がありますが、
自然言語処理の最先端の技術が使われているというよりは、かなりルールを書いたり、人手を入れたりしている、と聞いたことがあります。
http://d.hatena.ne.jp/mamoruk/20140902

コーパスのアノテーションは、ものによりますが人海戦術でなんとかなるものではなく、人を増やしても質が確保できない
(むしろ悪化する)ため、少数の人数で長期間作成する、というのが典型的な方法です。最近はクラウドソーシングによって、
多数の人間にアノテーションをさせる、という試みがなされていますが、自然言語処理は画像認識ほどには一般的ではありません。
見てすぐ分かる、というタスクならいいのですが、少し考えないといけないようなタスクが多いからでしょう。
画像認識については、リンク先を拝見しましたが、これは画像認識だけの問題ではなく、かなり難しい類の問題であると思います。
何が「余計」かというのを分かるためには、答えを推測できないと分からないように思いますし、いまの東ロボプロジェクトの数学
を公理系(数式)に落とし込んで推論(というか証明で)解くアプローチでは、このような問題は苦しいのではないでしょうか(
予測して探索するようなアプローチをする必要があり、どちらかというと証明系というよりはゲームAIの推論のような感じ?
要は大規模なデータからのパターンマッチにする、というパラダイムにする、とうことです)。これを幾何の問題のまま解こうと
するのは数学の解答エンジンを一から作り直すことに相当すると思われますし、このプロジェクトのフォーカスからは離れそうです。
http://d.hatena.ne.jp/mamoruk/20140822
0273デフォルトの名無しさん垢版2014/12/19(金) 11:41:50.67ID:Rp55Z5Hh
無意味な長文コピペやめろ
0274デフォルトの名無しさん垢版2014/12/22(月) 13:05:29.12ID:mCwiHCRV
コピペするなよ!
絶対にコピペするなよ!
0275デフォルトの名無しさん垢版2015/01/01(木) 13:33:29.53ID:BsJlAb0F
自然言語処理のエラー分析は、これまた困難らしい。

Project Next NLP という、いろいろなタスクでエラー分析をする日本の自然言語処理コミュニティの一大実験プロジェクト
があるのだが、予想通り大変そうである(自分は今年度子育ての負荷が高いことが分かっていたので、結局メインでは
参加していない)。こういう機会が必要なことは恐らくこの業界のほとんどの人が賛同すると思うのだが、実際にエラーを
分析しようとすると、アノテーションの経験がありかつ言語学にも詳しい人がプロジェクト内に複数人いないと、
そもそもエラー分析自体がまともに回らないと思うし、もしそういう人たちが中核にいたとしても、議論が白熱して
毎回侃侃諤諤の議論になることうけあいなのである。
http://d.hatena.ne.jp/mamoruk/20141112/p1
0276デフォルトの名無しさん垢版2015/01/01(木) 13:39:38.39ID:BsJlAb0F
アノテーションに関しては、自然言語処理におけるアノテーションに特化したような和書はありませんね。需要はあると思うので、
出版社の方が見えたとき、そのような本を企画されては、と提案したことはあります。ただし、体系化することが難しいので、
書くには骨が折れると思います。ほとんどの場合、仕様を解説されても意味が分からないので、読む人が言語現象自身に詳しく
(つまり言語学の知識があり)、かつ自然言語処理にも明るい(つまりプログラムを書いて機械学習を行う処理がイメージできる)
必要がありますので、入門書とはならないでしょうし、個人的にも入門書ではなく専門書としてちゃんと書いたほうがいいと思っています。
http://d.hatena.ne.jp/mamoruk/20140902
0277デフォルトの名無しさん垢版2015/01/01(木) 17:51:57.22ID:LvmvuVw0
RDF等に関しては自然言語処理よりはウェブマイニング(広義の人工知能研究)で盛んに
研究されていますが、ほとんどの研究は英語が対象で、日本語でちゃんとしたリソースは
作られていないというのが現状だと思います。だからどう(日本語でも作るべき)だとい
うわけではないですが、少なくとも東ロボのプロジェクト期間内にどうこうできるという話ではないでしょう。
個人的には、ここは確かに研究の余地があるところだと思っているのですが、英語で書かれた
リソースと比べると日本語で書かれたリソースが少ない(かつ分野が偏っている)という問題と、
日本語が英語と比べると処理しにくいという問題のため、英語のように精度の高いリソースを
作るのはそんなに簡単ではないと思っています。(たとえば、英語だと2つの名詞句の間の文字列
を取ってくれば、だいたい述語が取れるので、構文解析によらない頑健な処理ができますが、
日本語では述語は文の末尾に出現するので、係り受け解析をしないと述語が分からず、なかなか頑健にはできなさそう)
http://d.hatena.ne.jp/mamoruk/20140902
0279デフォルトの名無しさん垢版2015/01/04(日) 19:32:49.96ID:UrD0d14K
コピペが無くても誰も書き込まないスレッドをコピペのせいにするなよ
0280デフォルトの名無しさん垢版2015/01/05(月) 07:11:49.24ID:755b/Otu
コピペが無くても誰も書き込まないスレッドをコピペのせいにして申し訳なく思います
0282デフォルトの名無しさん垢版2015/02/12(木) 14:36:17.01ID:LHb2oe4V
RDFトリプルセットは「連想・推論」に利用できるので、人力でRDF辞典を作成しておきたい。
自然言語の多義性・曖昧性は、これである程度解消できるはず。

提案手法では,開世界仮説に基づき,RDF グラフからそれより高い表現力をもつ SROIQ概念の極小モデルを推論できる.
さらに,ある概念の極小モデルが一意に決まることを利用し,与えられたRDF グラフから記述できるすべての概念を生成
する停止性をもつアルゴリズムを提案した.
http://sigswo.org/papers/SIG-SWO-A1402/SIG-SWO-A1402-10.pdf

(x,y,z)=(主語,述語,目的語)で、出現頻度の多い順に並べる、あるいは少ない順に並べる。高頻度のトリプルがやたら多いということは、
逆に言えば他と似たり寄ったりでつまらないコンテンツである可能性が高い。出現頻度の少ない組み合わせは、オリジナル表現か
あるいはナンセンス文かのどちらか。例えば「女性は子供を産む機械」。こういうのは普通に「女性 子供」で検索しても出ない。

コーパス作成について一からやり直したほうがいいかどうかは、悩ましい問題なので一概にどうだということは言いにくいのですが、
アノテーション・コーパス作成自体が大きな研究テーマであり、ベストプラクティス的なものもなければ、少しだけ蓄積されている
ノウハウ的なものすらチームレベルでしか共有できていない(共有するのが難しい)、という状況です。また、やり直したらすぐコーパス
ができるかというと、質の高いコーパスを作るには時間が何年もかかるものなので(自分の携わった NAIST テキストコーパスは
5年以上かかっています)、すぐ利用可能にはならないでしょう。
http://d.hatena.ne.jp/mamoruk/20140822

今後,画像解析技術が進み,機械が複数の物体から構成されるオブジェクトを一つ一つの物体に分解できたとしても,機械にとって,
それが常識に基づいた構成であるか,常識から外れた構成であるかを区別することは困難であると推測される.
http://minamigaki.cs.inf.shizuoka.ac.jp/work/2014/SCIS2014fujita.pdf

『常識』なるものは、専ら人力で登録するしかない。コンピューターなんていくら高性能でもただの計算機に過ぎないのだから。
0283デフォルトの名無しさん垢版2015/02/18(水) 13:15:42.49ID:dIyx5cm4
>>282
>機械にとって,それが常識に基づいた構成であるか,常識から外れた構成であるかを区別することは困難であると推測される.

自動作成が困難な「違和感CAPTCHA」は、試験問題作成委員と東ロボとイラスト作成支援ツールや
過去問改題支援ツールを併用し、人力と機械力のハイブリッドで効率的に作成する。イラスト理解は
コンピューターには困難だが人間には易しい。難しい東大の過去問も、懇切丁寧な誘導付きで易しい問題
に改題すればいい。センター数学は人間には易しいが東ロボには困難だ。またそれ専門のセキュリティ
企業を設立して、効率よく大量生産できるようにしたい。できれば一日あたり一万通りくらいは作りたい。
三回間違えたら30分間はアクセス禁止にするとか。そうすれば2chのアラシ投稿も激減するはずだ。
「ぐにゃぐにゃ文字CAPTCHA」にはもうウンザリ。
0284デフォルトの名無しさん垢版2015/02/18(水) 15:59:15.93ID:dIyx5cm4
あと、2ちゃんねるでの板違いスレ立て乱立防止のために、「資格試験CAPTCHA」を導入するとか。
例えばプログラマー板なら、基本情報技術者試験の午前問題で、7割正解しないと投稿できないようにするとか。
0285デフォルトの名無しさん垢版2015/02/21(土) 17:29:42.70ID:VfWo/10x
人間は完璧を求める。物体に穴が開いていると、物体の一部が欠けていると、そのギャップを埋めようとする。
次の画像を見ると、実際には存在しないものの、円と長方形に見えてくる。
閉合の法則が存在しない状態では、長さの異なる線にしか見えないが、閉合の法則により、線を組み合わせて、形として見る。
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/1/8/186ef42f.jpg
http://www.seojapan.com/blog/8-web-design-rules

82. 1. 記述範囲として20sの領域を選択 2. 領域を4 4(=16)ブロックに分割 3.
記述範囲をオリエンテーション方向に回転 方向の正規化 20s 20s 82
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/e/1/e1a13d79.jpg
http://www.slideshare.net/MPRG_Chubu_University/sift-32258833

 我々人間は、無意識のうちに膨大な量のコモンセンス知識を、日常生活の中で自然と会得し共有している。
人間に近い思考をする人工知能を実現するためには、コンピュータ上にコモンセンス知識の巨大なデータベース
を構築する必要がある。ビッグデータを扱う技術と組み合わせれば、人工知能の思考精度を向上させる土台となる。
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/2/9/2989d626.jpg
http://business.nikkeibp.co.jp/art…/bigdata/20140722/268973/
0286デフォルトの名無しさん垢版2015/02/21(土) 21:50:03.02ID:RYr+Lvse
もうコピペすんのやめろ
0287デフォルトの名無しさん垢版2015/02/22(日) 12:00:11.88ID:ALoz31q1
全角カンマが論文で多く見られ、一般には余り用いられないことから
,(.|\n)+https?://
をNGにすると結構良いんじゃないだろうか。

あと驚いたのが
る。(.|\n)+https?://
が思ったより誤認識しないこと。これも論文に特徴的な、「である調」を意識したものだが、このスレで引っかかった中で少しでも意見が含まれると思われる投稿は9件に留まった。

リンク先との内容の重複を検出するのが一番なんだろうけどね。
0288デフォルトの名無しさん垢版2015/02/22(日) 12:27:03.95ID:z7hrtyyQ
研究者ワナビーのオッサンがコピペしてそうだよな
学歴は高くなさそうなオッサンが
0289デフォルトの名無しさん垢版2015/02/22(日) 13:05:32.71ID:I5/HIZJG
ふつうに入門書から読めば、学歴がどうあれそれなりに理解はできるだろうにねえ。

わけもわからずそれっぽいweb上の記事を漁って仮にそれを丸ごと暗記できたとしても
何の意味もないのに。
0290デフォルトの名無しさん垢版2015/02/26(木) 03:40:26.29ID:syX8dA4x
Wikipediaのdumpって
いつの日付のが良くベンチマークとして使われてるとかあるのですか?
むしろlatestを使うのが普通なんですか?
0293デフォルトの名無しさん垢版2015/02/28(土) 15:19:37.45ID:LSUjOX6L
学歴高いオッサンでポストがあっても話にならんクズは多いけどな
0296片山博文MZ ◆T6xkBnTXz7B0 垢版2015/03/08(日) 00:31:15.52ID:mm6WxmZr
入力や解析の途中の状態をすべて保存しておけば、
入力・解析が途中で止まっても再開できるぞ。
俺スゲー
0297デフォルトの名無しさん垢版2015/03/25(水) 01:12:56.51ID:0RNXcvZ9
https://radimrehurek.com/gensim/wiki.html
に書いてある通りにwikipediaのデータを読み込ませているのだけど
セグメンテーションフォルトで落ちる

メモリー8GのマシンではWikipediaを全部読むのは無理ってことでしょうか?

このドキュメントにはwikipediaのダンプは8Gのファイルサイズって
書いてあるのだけど先月のダンプが12Gあるので
そこも疑ってるのだけど
0298デフォルトの名無しさん垢版2015/03/28(土) 11:02:53.34ID:8HMktsnF
https://sites.google.com/site/projectnextnlp/ws2015

12:30-13:00 言い換え 「言い換え認識技術の評価に適した言い換えコーパスの構築指針」(論文,スライド)
藤田篤(NICT),柴田知秀(京大),松吉俊(山梨大),
渡邉陽太郎(NEC),梶原智之(長岡技科大)

13:00-13:30 「情報検索のエラー分析」(論文,スライド)
難波英嗣(広島市立大),酒井哲也(早稲田大)

13:30-14:00 「『ロボットは東大に入れるか』プロジェクト 代ゼミセンター模試タスクにおけるエラーの分析」
0299デフォルトの名無しさん垢版2015/03/30(月) 20:19:29.89ID:kzWOqVdv
すみません、どなたかお力をお貸しください!
英語版Wikipediaのタグ除去済みの生データが欲しいのですが、
どうしても今日中に手に入れたく、、うちのコンピュータだと各種コンバータを借用しても間に合いません。
古めでも問題ないので、どこか公開されてたりしないでしょうか?
0300デフォルトの名無しさん垢版2015/04/05(日) 02:41:47.47ID:KpTWWol8
Splitで分割して読み込み
0301デフォルトの名無しさん垢版2015/04/05(日) 08:15:51.92ID:4nn8wKW5
タグ除去すらできないって(笑)
0302デフォルトの名無しさん垢版2015/04/06(月) 11:50:16.79ID:q6HYn914
まぁ、地味にうちのi5マシンでも
英語版Wikipediaデータのコンバータ使ったら、5日かかったからな。
SQLのINSERT外して、タグ除去ってやり方なら一瞬だけど、
XMLに変換して、綺麗に構造的に展開していくタイプのツールだと、とんでもない時間かかる。
0304デフォルトの名無しさん垢版2015/04/20(月) 14:39:42.43ID:tFQeFLnS
Wikipedia のdumpをapache solrに入れて検索してるんだけど
遅すぎる
どうやったらgoogleの半分の速度でいいから高速検索できるんだ
0306デフォルトの名無しさん垢版2015/04/21(火) 07:29:39.62ID:QYKPjluf
東ロボが「図とグラフの把握」をクリアするころには、連想型アニメイラスト作成支援ツールが普及して、
漫画家はアシスタントを雇う必要が無くなっているに違いない。イラストの大半は既存のオブジェクト
の組み合わせで、それとこれとはどんな繋がりがあるのかが理解できればいい。
0307デフォルトの名無しさん垢版2015/04/22(水) 10:52:46.25ID:ROZbcw1E
また東ロボの話か
0308デフォルトの名無しさん垢版2015/04/27(月) 18:01:44.51ID:tY3Rtetf
質問「ロボットはジグソーパズルを解けるか」
0309デフォルトの名無しさん垢版2015/05/07(木) 18:56:37.96ID:drp//ZQC
自然言語理解=単語と助詞の連想ゲーム。例えば「象はバナナを食べる」はOKだ が、
「バナナは象を食べる」は×。こ のように現実に有り得ない組合せ は、予め削除しておく。
嘉門達夫の 「あったら怖いセレナーデ」を、一 億通り作成しておきたい。
0310デフォルトの名無しさん垢版2015/05/15(金) 16:53:00.42ID:9Z/KxJs4
日本語の語彙的換言知識の質的評価
https://dl.dropboxusercontent.com/u/2152477/arc/14/14NLC-kajiwara.pdf
日本語の語彙平易化システムの構築
https://dl.dropboxusercontent.com/u/2152477/arc/15/15IPSJ-kajiwara.pdf
高専関連報道記事を活用した活動情報の獲得と分析

https://dl.dropboxusercontent.com/u/2152477/arc/15/15NLP-konishi.pdf
高次脳機能障害スクリーニング検査支援ツールの開発

https://dl.dropboxusercontent.com/u/2152477/arc/15/15NLP-yamamoto.pdf
日本語の語彙平易化評価セットの構築

https://dl.dropboxusercontent.com/u/2152477/arc/15/15NLP-kajiwara.pdf
評判分析における品詞情報と意味類型情報の有効性比較

https://dl.dropboxusercontent.com/u/2152477/arc/15/15NLP-okada.pdf
0311デフォルトの名無しさん垢版2015/06/11(木) 16:58:19.47ID:10eKY6On
ボトムアップな言い換え事例収集
ある範囲のテキストをとことん言い換える (内省)
 l 仮説: 100人集めればある程度の網羅性を担保できる
 l パイロット作業
n BCCWJから言い換え元の文をサンプル
n ひたすら言い換え →150事例/5時間(ペースはほぼ一定)
 l trivial なものも結構含む
 l minimal pair となる負例は別途要作成
l 宮尾さん「人間の限界はたかがしれている」
http://paraphrasing.org/~fujita/publications/fujita-NLP2015WS-slides.pdf
0312デフォルトの名無しさん垢版2015/06/13(土) 10:59:18.21ID:oC83Eqv7
才能の無い人の思い付きほど邪魔なものはない
0313デフォルトの名無しさん垢版2015/06/20(土) 06:18:33.41ID:hFZryW7a
2.1 述語項構造に基づく共起関係のモデル化
述語項構造は, 述語とその任意個の項の関係を記述するものである. 例えば,
HPSG に基づく構文解析器 Enju によると, 以下の文

An importer might be able to make payment in his own domestic currency.

に関して表 1 のような述語と項の関係が得られる.Enju における述語項構造では,
動詞だけでなく任意の単語が述語として扱われる. 表 1 では, 主語と目的語に対応する
名詞句を項とする他動詞 make に加え,動詞句の付加部を構成する前置詞 in も述語
として扱われている. これにより, 様々な種類の述語を介して句と句の関係が記述される.

http://www.logos.t.u-tokyo.ac.jp/~hassy/publications/nlp2015/paper.pdf
0314デフォルトの名無しさん垢版2015/06/20(土) 07:25:49.31ID:hFZryW7a
3.1 よく知られている単語の抽出
スクリーニング検査の被験者は,一般的に高齢者が多く,「三単語復唱」で用いる単語には新造語や流行語
は適切ではない.これに対し,童話や童謡は,対象が幼児,児童である故に,そこに出現する単語の多くは,
あらゆる年代の人間に親しみ深く,非常に認知度が高い.そこで,本研究では童話や童謡歌詞を題材とし,
それらに出現頻度の高い名詞を抽出して,「三単語」の候補とすることにした.
本研究では,日本の童話 210 編,童謡 90 曲1をコーパスとして用い,そこから,出現頻度の高い名詞を自
動抽出した.抽出された名詞を日本語語彙大系2の一般名詞意味属性体系に準拠させて「食べ物」,「乗り物」,
「植物」,「動物」,「建築物」,「日用品」,「スポーツ」,「空想物」の 8 つのカテゴリに分類して格納する.
これら 8 つのカテゴリは,互いに意味属性体系上の包含関係が生じないように定めた.この作業の終了後,
「三単語」に適さないと思われる名詞を手動で削除し,さらに,各カテゴリに,適切と思われる名詞を適量ずつ追加した.
http://www.anlp.jp/proceedings/annual_meeting/2015/pdf_dir/B4-4.pdf
0315デフォルトの名無しさん垢版2015/06/20(土) 08:37:02.94ID:hFZryW7a
言語処理部とシミュレータ部を組み合わせることで、「場合の数・確率」の文章題に自動で解答する
システムを開発中であるが、現状では正答率は低い。シミュレータ部では、多くの問題タイプに対応
できるようにして、より汎用的なプログラムにする必要がある。言語処理部では、問題文を変換する
パターンを増やしていき、変換可能率をあげるとともに、オブジェクトが玉でないものにも対応する必要がある。

数学確率文章題の自動解答システムの開発

http://www.anlp.jp/proceedings/annual_meeting/2015/pdf_dir/B2-3.pdf

これができるようになれば、東ロボは東大理3入ってるだろう。
0316デフォルトの名無しさん垢版2015/06/20(土) 12:11:28.08ID:hFZryW7a
文章中の数箇所をワイルドカードで置き換えることによって
表現されるいわゆる文章テンプレートは, 自然言語生成の分野
で使われ, また, ワイルドカードに入る語を見ることで関係抽
出にも使われる. 次々に新しいテンプレートを増やす必要があ
る場合, 人手でテンプレートを作る作業は高コストであり自動
的にテンプレートを抽出する必要がある.
http://www.anlp.jp/proceedings/annual_meeting/2015/pdf_dir/D1-2.pdf
0318デフォルトの名無しさん垢版2015/06/21(日) 00:53:04.18ID:hjBNKoPn
>>304
の間違い
0319デフォルトの名無しさん垢版2015/06/22(月) 11:16:04.74ID:FGMmqqpL
本稿では,マンガ作品において重要な要素である登場人物の顔領域検出について,
学習サンプルの違いによる検出率の変化を検討する.マンガの登場人物の顔領域は
現実の顔画像と比較して,個々の特徴変化が大きい傾向にある.
そこで,顔検出器の学習に,特定の登場人物の顔画像のみを使用した場合と,
複数の登場人物の顔画像を使用した場合について,検出率の比較を行った.

http://www.ams.giti.waseda.ac.jp/pdf-files/2015IEICE_D_12_31_yanagisawa.pdf
0320デフォルトの名無しさん垢版2015/06/22(月) 13:30:11.67ID:10N9eACE
東ロボは別のスレたてろ
0321デフォルトの名無しさん垢版2015/06/22(月) 20:47:32.82ID:WAMJP5Js
全国大会とかゴミだから邪魔
0322デフォルトの名無しさん垢版2015/06/23(火) 07:28:27.73ID:gLR1mXdw
4. アノテーション作業と問題点
「たら」「れば」「なら(ば)」の3つの条件表現アノテーション作業はガイドライン設計
者 2 名で行った。それぞれの表現について、多くの文章の中から該当の表現が出現
する部分を抜き出し、その用法がどのカテゴリに属するかを、テストをもとに判断した。
アノテーションの件数は「たら」「れば」「なら(ば)」それぞれ 200 件ずつ、計 600 件行った
アノテーションを行う中で、以下のような例に対するアノテーションが問題となった。
https://www.ninjal.ac.jp/event/specialists/project-meeting/files/JCLWorkshop_no7_papers/JCLWorkshop_No.7_10.pdf

 実験の結果から, 全体的に「対象」の役割をもつヲ格名詞句に焦点が置かれる傾向があるが,
段階的に「対象」から「到達点」あるいは「道具」へ焦点が移っているということがわかった. 焦点
が置かれるところが類似している動詞は, 意味内容も似通っていることが明らかになったといえる.
 日本語の使役空間移動動詞には, 「−が−に−を 動詞」の型と「−が−で−を 動詞」型があるが,
どちらの型もとれる動詞もある. その場合,対象がヲ格で示され, ニ格で到達点が示された動詞は,
そのニ格がヲ格となって中身よりも容器のほうに焦点が置かれ, ヲ格の対象物はデ格で表されることになる.
 これらの動詞について, 対象物・到達点・容器・道具を示すと考えられる名詞句のどこに焦点が置かれ,
それを話題として取り上げるか, その傾向を調べたのであるが, 全体的にはヲ格名詞句に焦点が置か
れる傾向があることが明らかになった.
http://www.jcss.gr.jp/themes/jcss2014/meetings/JCSS2014/proceedings/pdf/JCSS2014_P1-27.pdf

辞典類にあって、 「し」の用法としては、 〈並列〉と〈原因理由〉とは立項されるが、 〈果〉は立てられていない。
たしかに、、〈34)の例は〈果〉を示しているが注意しておくべきは「だから」の語が直前にあるように、
そうした接続語の支えが必要であるように思うが、このことは、 「し」が何を列挙するのかということを
考える上でも興味深いように思う。
http://www.lib.shimane-u.ac.jp/kiyo/a014/035/004.pdf
0323デフォルトの名無しさん垢版2015/06/23(火) 12:24:22.70ID:gLR1mXdw
従来の係り受けアノテーションは、専門家がそれぞれの文節に対して一つの係り先をタグ付けしている。
この手法だと、例 (2) のように、意味的にはどちらにもとれるような係り受けに対して、係り先をどちらか
に決める必要があり問題となる。
本タスクでは、クラウドソーシングによる係り受けのアノテーションを試行した。一つのタスクは、一つ
の文節の係り先を判定するタスクとした。ワーカーへのインストラクションを図 1 に示す。係り先の候補と
しては、KNP が出力する係り先候補とタグ付きコーパスの正解係り先とした。タグ付きコーパスとしては、
京都大学 Web 文書リードコーパス 2 を用いた。このコーパスは京大コーパスと同じ基準で係り受けがタグ
付けされている。
Yahoo!クラウドソーシング 3 を用いて、一つの文節の係り先につき 10 人のワーカーに判定を依頼した。

https://kaigi.org/jsai/webprogram/2015/pdf/2L3-4.pdf

項省略型は,動詞などの述語の項が省略されているケースで,いわゆるゼロ照応として知られている
問題である.ゼロ照応解析は述語項構造解析の範囲であるが,ゼロ照応解析には自動解析が困難な
例が多数存在しており,すべての問題を対象に自動解析を試みた場合に解析精度が極端に低くなる
ことが報告されている [飯田 12].特に,今回は省略された項が述語と異なる文に出現する文間ゼロ照応
の問題となっているが,文間ゼロ照応の自動解析は文内ゼロ照応と比較して精度が極端に低く
(例えば [今村 15])依然大きな課題である.
https://kaigi.org/jsai/webprogram/2015/pdf/2L3-4.pdf
0325デフォルトの名無しさん垢版2015/06/24(水) 22:50:57.26ID:RNNpRBpA
mosesのmlでまたバカが騒ぎ出した
0326デフォルトの名無しさん垢版2015/06/25(木) 13:26:33.36ID:DHp0BB+5
アノテーションは、人手でやるしかない。コンピュータはただの計算機で自然言語はただの文字列にすぎず、
人間が教えていかないとどうにもならない。

自分は NAIST 松本研にいたからこそこういうタグ付けの方法論を教わったが、自然言語処理の研究室でも
ほとんどの研究室ではこういうノウハウがなく、卒論や修論で闇雲にタグ付けして再利用できないデータが
再生産されているのではないか、と懸念する(先輩から引き継いだ、というか教員から渡されたデータを使っ
て実験したりしても、元々のデータがあやしいのでちゃんとした研究にならない、みたいな)。
コロナ社の言語処理シリーズでもアノテーションの方法論について誰か書いてくれるといいのに、と編集の方
にときどきお話ししているのだが、想定読者が少なすぎるのか(確かにマニアックなテーマで、ほとんどの人
はデータを作る側ではなく使う側)、引き受け手がいないのか、まだ動きが見えないようである。
http://d.hatena.ne.jp/mamoruk/20150529/p1

2 つ目は,4.4.2 項で述べたエラー要因に対する対策を実現することである.対応策の
中には,否定表現や時制表現の処理など,比較的容易に実現できるものもあるが,特にエ
ラーの要因の中で大きな割合を占める人物抽出やパターンに関する問題の解決策は時間
をかけて深く探求する必要がある.M人手 においては完全に人手でパターンの構築を行っ
ているため,パターンが少ないことが大きな問題である.そのため,人物間の関係を表す
典型的な言い回しを数多く発見する手法を検討する必要がある.
https://dspace.jaist.ac.jp/dspace/bitstream/10119/12702/5/paper.pdf

もっと沢山の、人手によるアノテーションコーパスが必要。
0327デフォルトの名無しさん垢版2015/06/30(火) 09:53:09.21ID:HPXFOTKK
JavaだとMavenにmecabあるので自動でインストールできるけど
Cabochaがないみたい

みんな手動でインストールしてるの?
0330デフォルトの名無しさん垢版2015/07/01(水) 07:24:28.67ID:jIHWDdJH
KNPのほうがめんどくさくね?
0331デフォルトの名無しさん垢版2015/07/01(水) 21:28:38.00ID:V1VHs37R
野良レポジトリでcabochaらしきものあったけど
0332デフォルトの名無しさん垢版2015/07/03(金) 12:58:38.55ID:xhUgkep8
mavenに

mecab
kuromoji
go

形態素解析ばかり3つもあるのか
どれが一番いいんだろ

cabochaも誰かつくればいいのに
0334デフォルトの名無しさん垢版2015/07/08(水) 01:38:18.18ID:QVdVWp6D
http://www.lemurproject.org/indri/
IndriにMeCab組み込んで日本語検索してる研究らしき発表はあるのに
公式のホームページにMeCabの組み込み方が書いてない

ワイルドカード検索できるっぽいからSolrより良い感じなんだけど
日本語検索の方法がわからない
0335デフォルトの名無しさん垢版2015/07/08(水) 06:14:03.89ID:iCYqIP+y
solrもワイルドカードできるだろ
0336デフォルトの名無しさん垢版2015/07/08(水) 11:39:07.72ID:65nXd/Mo
以前に使った時はSolrのワイルドカード検索はかなり機能が限定的だった
*が一ヶ所しか使えなくて複数がダメだった
0337デフォルトの名無しさん垢版2015/07/11(土) 07:30:19.31ID:C8cgx19B
じゃあindriでやれば?
0338デフォルトの名無しさん垢版2015/07/18(土) 17:06:52.27ID:IQ+2wK5V
機能表現解析の結果を表 1,2 に示す.これらの結果より,CRF を用いることでベースラインよりも
高い性能での機能表現解析が可能であることが分かった.CRFの結果から,範囲同定は比較的高
い性能で行えるが,曖昧性解消は難しいことが分かった.
https://www.ipsj.or.jp/award/9faeag0000004ej9-att/5Q-02.pdf

本稿では,数学入試問題自動解法の概要を示した後,その技術課題について述べる。
http://img.jp.fujitsu.com/downloads/jp/jmag/vol66-4/paper03.pdf
0339デフォルトの名無しさん垢版2015/08/07(金) 16:15:26.34ID:UBcknauV
Mecabで分かち書きしたのを結合して元の文章にもどす
逆変換の様なものってないのでしょうか

やりたいのは名刺部分だけ言い換えをした文を作りたいのです
0340デフォルトの名無しさん垢版2015/08/07(金) 22:10:35.42ID:bzlwzbgh
名刺部分か。。。
難しいかもね
0341デフォルトの名無しさん垢版2015/08/07(金) 22:49:42.50ID:eSh4n7lV
プログラムは全く書けないの?ものすごく単純な事だと思うんだけど
ただスパムっぽいので協力したくない
0342デフォルトの名無しさん垢版2015/08/07(金) 23:06:48.26ID:wRRiJPql
Mecabはそもそも単語の位置を返すので、結合も糞もないと思いますが。
0344デフォルトの名無しさん垢版2015/08/07(金) 23:32:33.40ID:kPH4MtZ6
>>339
すごく高度な質問なので皆んな戸惑ってるよ。
事例を載せてくれた方が分かりやすい。入力した原文、MeCabの出力、期待する結果。
0345デフォルトの名無しさん垢版2015/08/08(土) 03:26:46.26ID:U78hTTuj
MecabはC++で書かれているので、C++から使うのが一番楽です。
ラティスを好きなようにいじれば好きなように加工できます。
0347デフォルトの名無しさん垢版2015/08/08(土) 13:51:08.73ID:H7ZgeVqn
イイエ、C++が一番簡単です。
0350デフォルトの名無しさん垢版2015/08/08(土) 16:51:37.06ID:H7ZgeVqn
使ってみた中ではJavascriptが一番難しかった。
ハゲそうになる。
0352デフォルトの名無しさん垢版2015/08/08(土) 17:03:17.95ID:H7ZgeVqn
イヤイヤ、Javascriptはかなり難しいよ。

C++は基本的に型がハッキリしてるから、コンパイラが誤りをみつけてくれるけど、
Javascriptは実行しないとわからない。
テストを書いても簡単にすり抜けるし、毛が抜ける。
0353デフォルトの名無しさん垢版2015/08/08(土) 17:30:12.22ID:UXYE7e/V
JavaScriptよりC++がかんたんに思えるとしたら
それはおそらくC++をCに近い状態で書いている
0354デフォルトの名無しさん垢版2015/08/08(土) 17:37:01.00ID:H7ZgeVqn
>>353
Cもかなり難しいよ。

C++が一番簡単だよ。
C++11以降はほとんど何の文句もない。
やりたいことがすぐできるようになってる。

元の話題に出てくる、MecabをもしもJavascriptで書くとかなったら
腹痛と吐き気に悩まされると思う。
誰でも。
0356デフォルトの名無しさん垢版2015/08/08(土) 18:24:19.95ID:UXYE7e/V
>>354
>Cもかなり難しい
C ⊂ C++ だからCのほうがやさしい

>C++が一番簡単
おそらくC++とJSの学習量が違ってる
同じ学習量だったらJSのほうがやさしい
0357デフォルトの名無しさん垢版2015/08/08(土) 18:32:46.48ID:H7ZgeVqn
>>356
イヤイヤ、C++が一番簡単。

Cなんてオーバーロードすらできないし。
0360デフォルトの名無しさん垢版2015/08/08(土) 19:06:53.94ID:H7ZgeVqn
Javascriptは難しいよ。
テンプレートすらないし。
0362デフォルトの名無しさん垢版2015/08/09(日) 14:40:14.70ID:aboGxbYP
動的型言語のjavascriptに対して、templateも無いから難しいって言ってる時点で、jsに対する知見がないわけで、、、
知見のない人が優劣判断なんて出来るはずもないと思うの、、、
0363デフォルトの名無しさん垢版2015/08/09(日) 18:55:33.51ID:XcPHqnDO
速度重視と言いながらmltonを使わずにc言語使っちゃう人が多すぎる
どこが速度重視なんだ
0364デフォルトの名無しさん垢版2015/08/09(日) 20:52:48.18ID:Icb40LOY
JavaScript書き方が多彩すぎてつらい
0365デフォルトの名無しさん垢版2015/08/09(日) 20:54:49.89ID:Icb40LOY
JavaScript書き方が多彩すぎてつらい
0368デフォルトの名無しさん垢版2015/08/15(土) 01:46:01.15ID:90IR3onH
動的型付けが簡単だと言ってる奴は書捨てしか書いたことないか脳内型推論が得意な天才
0371デフォルトの名無しさん垢版2015/08/31(月) 18:43:52.25ID:8EAWBV0c
25000×25000=626000000通りの「共起関係」、及び29種類の「属性」を、人力で分析してアノテーションコーパスを作成すべき!

(3) 学習語彙:小学生用の国語辞典に登録されている語彙約 25000 語。語彙数は,『新教育基本語彙』[3]などを根拠とする。
小学生の理解語彙の上限を示すとされる。
http://www.nise.go.jp/kenshuka/josa/kankobutsu/pub_f/f-141/f-141_2.pdf

本研究では,意味の似ている語をまとめると共起ベクトルの距離は近くなるという仮定を前提に,単語間の共起頻度を用い
るのではなく,単語に付随する意味属性を利用する.単語の意味属性には,単語を意味によって分類整理したシソーラスであ
る分類語彙表を利用し分類語に適用する.
http://db-event.jpn.org/deim2015/paper/335.pdf

意味役割の種類
現段階での意味役割の種類を記述する.大きく 4 つの類にわけて,中分類で 29 種類を定義した.
さらにこれらに対して属性タイプが付与される形である.まず 29 種類を以下に示す.
構文類 ? 連語,外の関係,補語相当
対象類 ? 経験者,被使役者,対象,基準, 相互, 起点,着点,起点・着点,通過点,経路,方向
動作主類 ? 使役,原因,動作主,使役者,手段
条件周辺類 ? 限界,領域,場所,時間,条件,様態,程度,目的,順接,逆接
http://www.ninjal.ac.jp/event/specialists/project-meeting/files/JCLWorkshop_no6_papers/JCLWorkshop_No6_06.pdf
0372デフォルトの名無しさん垢版2015/09/02(水) 08:44:33.62ID:gyrealzj
ここって低レベルな話でもいい?

全文検索したくてSuffix Arrayを作ってみたんだけど
調べるとTrieというデータ構造もあるじゃない?

Trieで文字単位の全文検索の準備をする場合は
Trie構築時に文字列の開始位置を1文字ずつずらして切り出した文字列を入力すればいいの?
0373デフォルトの名無しさん垢版2015/09/08(火) 17:07:13.89ID:kn1dOvzd
新井 今の人工知能にとって一番難しいのは深い言語処理。例えば、人間が何かを命令してロボットがそれを
理解して何かをする場合、命令パターンが決まっていれば簡単です。ですが災害救助現場などで、人間が何か
の指示をして、ロボットが画像認識による状況理解と合わせて問題解決する場合は難しい。そして、
もっとも必要なのは深い言語処理です。
 数学や物理の問題に見られる非常に限られたフレームという縛りがある設定であっても、現段階の自然言語
処理では極めて困難です。でもそこが一番伸びしろが大きいことも事実です。
https://cakes.mu/posts/10730
0374デフォルトの名無しさん垢版2015/09/12(土) 09:59:59.57ID:SNkY48rJ
>>371
>25000×25000=626000000通りの「共起関係」

有り得る共起関係、有り得ない共起関係。

例えば「自動車に乗る」は○だが、「雲に乗る」は×。
0375デフォルトの名無しさん垢版2015/10/01(木) 15:50:28.34ID:wVM5vSk2
職業PGだけど専門が違います。
趣味で自然言語処理やりたいですがいいですか?
0376デフォルトの名無しさん垢版2015/10/01(木) 15:55:49.74ID:ioIU6evz
 これを見てわかることは、Googleの翻訳は、図20でもとても理解し難いところがあったように性能はそこそこですが、
Yahooの翻訳は、人間が機械と同じ条件で行った翻訳にかなり近いレベルまで達しています。よって、
点数をみた限りでは、翻訳システムによっては、文脈まで考えなければこれ以上の上達は難しいことがわかります。
人間でも、文脈を考えるかどうかで10ポイント以上の差がついているので、機械翻訳がこれ以上人間並みに近づくためには、
文章の前後の繋がりを考えるという、計算機にとっては殊の外大きな技術的チャレンジが必要なことが、
このデータを基にわかったという実験結果です。
http://www.scat.or.jp/scatline/scatline98/pdf/scat98_seminar_01.pdf
0377デフォルトの名無しさん垢版2015/10/02(金) 06:13:00.34ID:dkvJ4zDP
単語の使われ方の類似度をベクトルで表現したいんですが、どんな方法がいいでしょうか?
他の単語との距離空間をつくるのがいいと思ってるんですが
0380デフォルトの名無しさん垢版2015/11/14(土) 22:37:12.15ID:60P4EW2B
北大の入試問題と等価な ZF+ の式 (Zermelo‐Fraenkel)
http://www.ssken.gr.jp/MAINSITE/event/2015/20150828-hpcf/lecture-01/SSKEN_hpcf2015_anai_presentation.pdf

文頭から一気に訳す(形式変換)のではなく、細かく分割して質問応答システムで『前処理』しておくのはどうか。
「球面S」=「中心点は?半径は?面積は?体積は?通る点は? ・・・ets」
「直線l」「xyz空間内」=「法線ベクトルは?通る点は? ・・・ets」

今回の東大模試でも、『「(一つの)小石」を「3つの(いずれかの箱)」に「(ある条件で)移動させる」』を、
東ロボは全く把握できなかったようだ。ここでの「小石」というのは単にある条件で移動する「点」に過ぎないが、
物理の問題では「小石」がおもりの役割を果たしていたり、水中に沈めてその体積と浮力はいくらかなんて
ことが問われたりもする。文脈によって訳し分けるのは現状困難かもしれないが、入試で問われる内容
はパターンが限られており、ある程度の予測と候補の絞り込みは可能に思える。
0383デフォルトの名無しさん垢版2015/11/19(木) 10:25:00.56ID:QKaOM6mk
確率の問題ってどうやって解くの?
QEでは解けないよね?
0385デフォルトの名無しさん垢版2015/11/19(木) 14:30:09.74ID:iJa/TMnV
 句構造文法による解析,あるいは格文法解析,係り受け解析のいずれかが行われることが多い。
しかし,たとえば,図4に示すような比較的短い文でもいくつもの正しい解析が成り立つ。
長い文になれば可能な構造は爆発的に増え,そのうちのどれをとるべきかは非常に難しくなる。
その文が話された場面状況,あるいは文章の場合はそれまでに述べられてきたことから作られる
状況知識によって解釈されることになるが,現在の機械翻訳ではその状況を具体的に扱うことが
できていない。日本語に多い主語や目的語の省略について,前後2,3の文からそれを推定して
復元することが試みられている段階である。
https://www.jstage.jst.go.jp/article/johokanri/58/8/58_616/_pdf
0386デフォルトの名無しさん垢版2015/11/19(木) 14:57:31.01ID:iJa/TMnV
(物理的に・常識的に)あり得ない共起関係は、即刻に翻訳候補から外すアルゴリズムが必要。

「炎を食べる」「ヒマワリが跳ぶ」「自動車が泳ぐ」「犬が喋る」「クジラが走る」「テレビが躍る」「クラゲの骨」「ミミズの耳」・・・etc
0387デフォルトの名無しさん垢版2015/12/26(土) 04:45:32.56ID:n0l6crRX
 さらに重要なのは、Unbabelの機械翻訳ソフトの精度が急上昇していることだ。Unbableには「機械が間違えた
翻訳と人間が修正した結果」というデータが猛烈な勢いで集まっている。このデータを「教師データ」にして機械学習
を実行すれば、「機械翻訳が間違えやすい文章のパターン」と「正しい翻訳パターン」を得られる。同社はこれら
の新しいパターンを機械翻訳ソフトに実装することで、翻訳精度を改善しているのだ。
 機械翻訳の精度は「BLUEスコア」という尺度で評価する。2014年3月にUnbabelが翻訳サービスを開始した当初、
同社のソフトが英語をスペイン語へと翻訳する精度は、BLUEスコアで「35」だった。それが現在は「45」にまで伸びた。
 「機械翻訳が人間と同レベル、BLUEスコアで65〜70に到達するのは、当面は不可能だ。しかし機械翻訳の
精度が上がることで、近い将来、機械翻訳を併用した場合の人間による翻訳スピードを、毎時4000単語にまで早め
られるだろう」。Pedro CEOはそう見通しを語っている。
http://itpro.nikkeibp.co.jp/atcl/column/15/061500148/122100040/?ST=bigdata&;P=2
0388デフォルトの名無しさん垢版2016/01/03(日) 11:10:52.50ID:h+Kw2aOG
自然言語処理シリーズの対話システム
ぜんぜん理解できないんですけど
先に読んどいたほうがいい本とかあります?
0389デフォルトの名無しさん垢版2016/01/07(木) 16:42:12.63ID:bIRvr46P
日本語認識するwatson作りたい
てっとり早く1ヶ月ぐらいで作れそうな方法教えて?
0391デフォルトの名無しさん垢版2016/03/12(土) 06:26:09.19ID:8bNf0gbG
質問。

? 大量のテキストから自動獲得する
ポイント:同じような意味の単語は同じような環境に現れる
朝見たらぽげらが真っ赤に熟していた。
おいしそうだったので、またぽげらを食べてしまった。
塩をちょっとかけたぽげらは激ウマだね。
https://www.nii.ac.jp/userdata/shimin/documents/H23/120118_7thlec.pdf

和田秀樹の黒塗り教科書、二冊用意して一冊を塗り潰す、
http://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q12115115392
難解な語句の意味を文脈から推測する問題
http://www.ravco.jp/cat/view.php?cat_id=6445
オントロジー強化型シソーラス
https://www.jstage.jst.go.jp/article/johokanri/58/5/58_361/_pdf

AIが新聞や著書などの大量のテキストから自己学習するために、ランダムに単語一つを黒塗りにして、
そこに当てはまる単語を推論させることはできますか。文中には同じ単語が何度も現れるので、
ある単語をランダムに黒塗りにして、文中に何度も出ている単語のいずれかを当てはめて類推する。
0392デフォルトの名無しさん垢版2016/03/13(日) 16:23:48.95ID:ItxX9S5w
60±40%位の精度でできそう
0393デフォルトの名無しさん垢版2016/05/01(日) 15:33:35.03ID:tKi6j9CT
匿名通信(Tor、i2p等)ができるファイル共有ソフトBitComet(ビットコメット)みたいな、
BitTorrentがオープンソースで開発されています

言語は何でも大丈夫だそうなので、P2P書きたい!って人居ませんか?

Covenantの作者(Lyrise)がそういう人と話したいそうなので、よろしければツイートお願いします
https://twitter.com/Lyrise_al

ちなみにオイラはCovenantの完成が待ち遠しいプログラミングできないアスペルガーw


The Covenant Project
概要

Covenantは、純粋P2Pのファイル共有ソフトです

目的

インターネットにおける権力による抑圧を排除することが最終的な目標です。 そのためにCovenantでは、中央に依存しない、高効率で検索能力の高いファイル共有の機能をユーザーに提供します

特徴

Covenant = Bittorrent + Abstract Network + DHT + (Search = WoT + PoW)

接続は抽象化されているので、I2P, Tor, TCP, Proxy, その他を利用可能です
DHTにはKademlia + コネクションプールを使用します
UPnPによってポートを解放することができますが、Port0でも利用可能です(接続数は少なくなります)
検索リクエスト、アップロード、ダウンロードなどのすべての通信はDHT的に分散され、特定のサーバーに依存しません
0394デフォルトの名無しさん垢版2016/08/20(土) 11:23:57.46ID:3pLJP3Pq
見返りとしての歴史認識
 強化されつつある露中のパートナーシップの枠内で、中国は、事実上、欧州における「結果の見直し」の阻止をめぐる
呼応的連帯と引き換えに、ロシアでお馴染みの解釈とは異なるアジアにおける戦争の中国流の解釈を受け入れるよう提案している。
 提案は、非対称のものである。西側の軍事的歴史的行動の領域において、中国の支持は、ロシアに多くのものを与えない。
この問題に関する中国の立場は、欧州にとってどうでもよいのだから。一方、アジアの「戦線」においては、歴史的なルーツ
をもつ紛争へロシアを引き入れることは、具体的困難を孕んでいる。というのも、ロシアは、今後、世界のその部分においてはるか
により活発に行動し、そこでさまざまなプレーヤーとの均衡のとれた関係を構築するつもりであるから。
http://jp.rbth.com/opinion/2015/09/02/394013

訳出がわかりにくい。

>西側の軍事的歴史的行動の領域において、中国の支持は、ロシアに多くのものを与えない。

→欧米西側諸国の軍事行動とその歴史認識といった分野において、中国のロシア支持がロシアに及ぼす影響は少ない。

>そこでさまざまなプレーヤーとの均衡のとれた関係を構築するつもりであるから

→そこ(歴史的ルーツをもつ紛争、例えば尖閣や竹島や靖国や慰安婦)で、(ロシアは)様々な関係国との偏りのない関係を構築するつもりであるから。

ロシア語のできる日本人・日本語のできるロシア人が少ないためだろうか。機械翻訳でもパラフレーズは困難というが、
日露双方でもっと大勢の訳出者が様々な方法で翻訳して、パラフレーズ辞典でも作れないだろうか。
日露翻訳を通じて、どんな訳出方法が考えられるか、なぜそういう訳出が適切なのかを徹底的に議論し、
その膨大な記録をサーバーに保管しておいて、後で人手と機械の両方でコーパスにしておきたい。
長文はなるべく句読点で句切って短い文章にすれば、機械翻訳も簡単になるだろう。
中間言語方式が廃れているというが、長文を短く区切って短文にするくらいの中間処理はしておきたいところ。
句読点で句切るのは簡単だが、句読点が無い場合でも自動で補うアルゴリズムも考えておきたい。
0395デフォルトの名無しさん垢版2016/11/22(火) 11:46:30.39ID:ZRtoxbUd
国立情報学研究所(NII)、富士通研究所、サイバネットシステムの3者は11月14日、名古屋大学および東京大学と共同で、
NIIの人工知能(AI)プロジェクトである「ロボットは東大に入れるか」(東ロボ)において東大第2次学力試験に向けた論述式模試
とマークシート式の大学入試センター試験模試に挑戦し、論述式模試の数学(理系)で偏差値76.2、センター試験模試の
物理では偏差値59.0と、2015年度を大きく上回る成績を挙げたと発表した。
NII、富士通研究所、名古屋大学を中心に構成する「東ロボ」数学チームは、代々木ゼミナールの論述式模試である
「東大入試プレ」に挑戦した。
数学(理系)では、問題文を入力後、問題文の解釈から自動求解、解答の作成までをAIにより完全に自動で行ない
6問中4問を完答した結果、偏差値76.2(120点満点中80点)を獲得したという。2015年度は駿台予備学校の論述式模試を受験し、
数学(理系)は偏差値44.3(20点)だった。
http://news.mynavi.jp/news/2016/11/15/200/

東京医科歯科大 2010 年度 [数学]  (2009年までの問題分析)
合格可能な点数は、2009年は6割、2008年は7割、2007年は6割、2006年は6割、位でしょう。
毎年問題の傾向が変わるのは、出題者が毎年交代するせいであると思われます。2007年はやや得点しやすい
ですが、大問2,3で小問の間の関係を読み取る読解力がないと、高得点には結びつきません。ただ東大や東工
大に似たような問題があるので、それらを充分演習・理解していれば、8割以上得点することも可能です。しか
し高校数学からやや離れたところで問題が作られていますので、たとえ問題が解けたとしても、問題の意味が理
解出来ないこともあるでしょう。(東大も同じ)
2009年から?し気になった問題を見ていきましょう。
2009年大問1は、平面・空間の格子点の問題ですが、よく出題される数列の和に還元する格子点の個数の問
題ではありません。初等整数論でミンコフスキーが創始した「格子の幾何学」と呼ばれる分野の雰囲気です。
この分野では次のミンコフスキーの定理が有名です。(高木貞治「初等整数論講義」より)
http://www.waseda-eg.com/wp-content/uploads/2010/04/igakubu-ikashika2010.pdf

#入試数学というのは問題の意味を考えながら解くものではないらしいが・・・
0396デフォルトの名無しさん垢版2016/11/22(火) 11:50:24.64ID:ZRtoxbUd
現実世界をすべてシミュレーションすることはできないが、入試で問われる数学や物理はやることが大体決まっており、
こういうものに対処するシミュレーションを作成することはさほど困難とは思えない。

(1) 正八面体のひとつの面を下にして水平な台の上に置く。この八面体を真上から見た図(平面図)を描け。
(2) 正八面体の互いに平行な2つの面をとり、それぞれの面の重心を,とする。,を通る直線を軸としてこの八面体を1回転させてできる立体の体積を求めよ。ただし、八面体は内部を含むものとし、各辺の長さは1とする。
http://www.riruraru.com/cfv21/math/tum08f3.htm

自然言語の正確な読解はまだ困難(統計的機械翻訳ではムリ)だけど、入試数学で正四面体やら正八面体やらの
「ある辺」「ある頂点」「ある面」(いずれも「対称」)を、「回転」させるとか「接地」
させるとか「光を当ててその影が」とか「ある方向から眺めると」とか、やることは大体決まっているはず。
「台の上に置く」=「接地」と解釈できるようにする。
0397デフォルトの名無しさん垢版2016/11/22(火) 16:16:28.76ID:pcsF5hBI
>>396
> 「台の上に置く」=「接地」と解釈できるようにする
そういうAd hocな知識はもちろん東ロボで使われていて、パレートの法則に従って、2〜3割の作り込みで7〜8割の問題は解けるんだけど、そのまま作り込みを増やしても効率は悪くなる一方だし意味があるとは思えない。というのが先日の報告会の話だったと思う。
0398デフォルトの名無しさん垢版2016/11/22(火) 17:39:54.66ID:e6b1iY6l
>「台の上に置く」=「接地」と解釈

それひとつだけなら当たり前に思えるけど
実際にはそういう類似表現は無数にあるから
いつまで経っても知識獲得が終わらない
0399デフォルトの名無しさん垢版2016/11/23(水) 23:25:59.87ID:7Tc8wtps
シンギュラリティが近づけば近づくほど、技術的失業で雇用が喪失される。
従来型のエリートは職を失うか年収の大幅減は避けられない。

医者も弁護士も例外ではない。

AIは画像診断の“第4の技術革新”
慈恵医大 放射線医学講座の中田典生氏が語る
http://techon.nikkeibp.co.jp/atcl/feature/15/327442/092600087/?ST=health

画像認識分野では、2012年に開催された物体認識技術を競う国際コンテストでディープラーニングが驚異的な結果を出し、1位と2位を独占。
人工知能におけるブレークスルーとして注目を集めた。
ディープラーニングの登場により、人工知能の画像認識精度は急速に高まり、2015年には人間を超えたとされる。
控えめに言っても「人間と同程度になった」(中田氏)。

AI外科医ロボット、世界初の完全自動での患部縫合実験に成功
http://business.newsln.jp/news/201605052146350000.html

内科も外科もAIやロボットに代替されて、
遠くない未来に医者は機械の監視役や補助員になる。
0400デフォルトの名無しさん垢版2016/11/23(水) 23:30:24.41ID:SxU+7yHZ
>>397
>そのまま作り込みを増やしても効率は悪くなる一方だし意味があるとは思えない。

一般的な自然言語処理に関してはそうかもしれないけど、入試での数学物理はパターンが限られる。
だから今年の東ロボでは「作り込みを増やした」だけで、物理と数学は大きく伸びた。
0401デフォルトの名無しさん垢版2016/11/23(水) 23:34:41.73ID:SxU+7yHZ
>センター試験模試の物理では偏差値59.0と、2015年度を大きく上回る成績を挙げたと発表した。

>数学(理系)では、問題文を入力後、問題文の解釈から自動求解、解答の作成までをAIにより完全に自動で行ない
>6問中4問を完答した結果、偏差値76.2(120点満点中80点)を獲得したという。

国語や英語などの一般的な自然言語処理が問われる科目では、従来通りの「統計的機械翻訳」では限界。
けれども数学や物理においては、これまでの技術の延長でまだまだ伸びる可能性が考えられる。
0402デフォルトの名無しさん垢版2016/11/23(水) 23:43:41.18ID:SxU+7yHZ
>>397
>そのまま作り込みを増やしても効率は悪くなる一方だし意味があるとは思えない。

数学と物理に関しては、高校入試や公務員試験の過去問も利用して、人海戦術で伸ばせると思う。
報告会でも、物理や数学はまだ実装していないシミュレータもあると聞いた。
0403デフォルトの名無しさん垢版2016/11/24(木) 01:05:49.48ID:ZeSA51HI
>>402
わかってて書いてるんだと思いたいけど、東ロボはテストの点数を上げることそのものが目的のプロジェクトじゃないから。
0404デフォルトの名無しさん垢版2016/11/26(土) 07:08:03.31ID:idm38aCZ
日本発、新方式の量子コンピュータ、来年にクラウドサービスを提供
http://itpro.nikkeibp.co.jp/atcl/column/14/346926/112200709/?ST=spleaf

グーグルDeepMind、AIの学習を高速化させる新手法を発表--動物の見る夢から着想
http://japan.zdnet.com/article/35092476/

この知見を取り入れたエージェントを、Atariのゲームと、「Labyrinth」という3D迷路ゲームを使ってテストしたところ、
以前のアルゴリズムに比べて学習速度が10倍に高速化されたという。
またLabyrinthのテストでは、人間のエキスパートとの比較で平均87%という成績を収めた。
従来型のスパコンの性能向上に加え、
非ノイマン型コンピュータも実用化されつつある。
と同時に、AI開発も加速している。
この状況を考えれば、否定厨のダメ出しなど言い掛かりの域を出ないと言えよう。
0405デフォルトの名無しさん垢版2016/11/26(土) 09:36:03.92ID:EjVoV4YX
http://digital.asahi.com/articles/DA3S12674633.html

 「あなたは2021年に人工知能は東大に入れるようになると思いますか?」
 どの会場でも8割以上が「入れるようになる」と答える。みんな笑顔だ。AIがもたらす明るい未来を信じているのだろう。
「囲碁の世界チャンピオンも破ったのだから、東大に入ってもおかしくない」と言う生徒もいる。
 「では」と私は続ける。
 「AIが社会で働くようになったとき、あなたは何をして働きますか? どうやってお金を手に入れますか?」
 一転して、動揺が走る。マイクを向けると「……ゴミ拾い、とか?」と絞り出すような声。AIが東大に入るような日が来たら、
AIがゴミ拾いもしてくれるに違いない。その時、人間は労働から解放されて幸せになるだろうか。
 AIから得られる富が、地球上のすべての人に平等に分け与えられればそうかもしれない。しかし、そのような仕組みは、
今までかつてこの地球上に築き上げられたことはない。むしろ、ITが社会に導入されて以降、経済格差は広がり続けている。
 2010年、アメリカでのAIの隆盛を眺めながら、私はそのことを考えていた。AIはどこまで行き、どこで止まるのか。
AIはどのように仕事を奪い、仕事を生み出し、社会を変えるのか。私がはじき出したのが、30年に現在のホワイトカラー
の仕事の半分がAIに置き換えられるという予想だった(後に、それはオックスフォード大の研究グループが行った
予測とぴたりと合うことになる)。
 私は数学者だから、こういうときには原理から考える。コンピューターは徹頭徹尾、数学でできている。AIに使えるのは論理と
確率と統計だけだ。論理と確率はわかる。だが、いくら考えても、統計にどれだけの威力があるのか、はっきりしなかった。
 そこで考えた。AIに大学受験をさせてみたら、と。大学受験に挑ませたら、近未来のAIの可能性と限界がクリアになるのではないか。
 11年にプロジェクトが始まり、私は目標を立てた。3年でどこかの大学に合格させる。4年目には箱根駅伝に出るような名のある大学に、
5年目は国公立大学に。そして6年目に、MARCH・関関同立に合格させたいと思った。可能性は五分五分だろう。
0406デフォルトの名無しさん垢版2016/11/26(土) 09:37:16.37ID:EjVoV4YX
 その目標を口にした時、私は恐怖に似た緊張感を覚えた。研究者としては誰も見たこともないAIを開発したい。一方で、
AIが難関大に合格する能力を備えた場合、ホワイトカラーの仕事の半分は確実にAIに奪われるだろう。AIを大胆に導入し、
コスト削減に成功した企業の利益率が上がる一方、雇用を守ろうとした企業は市場から退場を迫られるだろう。
 こう話すと生徒から責められた。「なぜ、私たちの仕事を奪うかもしれないAIの研究をするのですか」
 私がやめても世界の企業や研究者はAIの研究をやめはしない。ならば、AIの可能性と限界をきちんと見極め、
対策を取ろうではないか。AIには弱点がある。それは彼らが「まるで意味がわかっていない」ということだ。
 数学の問題を解いても、雑談につきあってくれても、珍しい白血病を言い当てても、意味はわかっていない。逆に言えば、
意味を理解しなくてもできる仕事は遠からずAIに奪われる。私は次のように講演を締めくくる。
 「みなさんは、どうか『意味』を理解する人になってください。それが『ロボットは東大に入れるか』を通じてわかった、
AIによって不幸にならない唯一の道だから」
0407デフォルトの名無しさん垢版2016/11/26(土) 10:56:50.53ID:EjVoV4YX
グーグルの人工知能ニューラルネットワーク「ディープ・ドリーム」は、心の内側で起きている事象を
人工知能が視覚化するシステム。でもそこから生み出されたものは、6つの目を持つ犬とか、
ナメクジのような人間の足とか、もはやお薬でイッちゃった系アートで、人工知能が生み出す新しいアート
ってすごいね…ということで昨年夏、インターネットを衝撃に陥れたのは記憶に新しいところ。
http://www.gizmodo.jp/2016/02/googledeepdream.html

もっと現実性のあるアートを描けないのだろうか。題材を単語入力すると、ランダムでそれらしいアートが出てくるとか。

まんがの背景画の書き方
http://shincomi.webshogakukan.com/school/cat4/

「学校」「運動場」「野球」と入力すると、ランダムにそれらしい背景画が自動で出てくるみたいな。
0408デフォルトの名無しさん垢版2016/11/28(月) 07:52:12.25ID:JvF7VB+B
しっぽの生えた人間とか、人間の言葉を話す犬とか、便器に生えるキノコとか、凍り付く太陽とか、三本足の人間とか、
水道の蛇口から火が出るとか、爆発するメガネとか、回転するシャクトリムシとか、「ありえない」ものはアートにしない。
そういう機能のついた人工知能アートは作成できないのだろうか。
0409デフォルトの名無しさん垢版2016/11/28(月) 13:38:25.99ID:NUJXuwJ2
私は元創価の会員でした。
すぐ隣に防衛省の背広組みの官舎があるのですが、
自分の家の窓にUSB接続のwebカメラを貼り付けて、そこの動画を撮影し続け、
学会本部に送っていました。

別に大したものは写っていません。ゴミだしとか奥さんが子供を遊ばせている所とか。
官舎が老朽化して使われなくなってから、
今まで法人税(うちは自営業です)をほぼ払わなくても済んでいたのが、
もう守ってやれないのでこれからは満額申告するように言われました。
納得がいかないと言うと、君は自業自得で餓鬼地獄へ落ちる、
朝夕南無妙法蓮華経と三千回ずつ唱えて心をきれいにしなさいと言われ
馬鹿らしくなって脱会しました。

それ以来、どこへ行くにもぞろ目ナンバーの車につけまわされたり大変な日々です。
全部自分の出来心から起きた事で、どこに訴えるわけにもいかないのですが、
なんとかあの人たちと縁を切って新しい始まりを迎える方法はないんだろうか。
0410デフォルトの名無しさん垢版2016/11/30(水) 12:21:41.26ID:a3BI0E5E
五文型
S+V
(x,y,z)=(S,V,0)
S+V+C (Cは正)
(x,y,z)=(S,V,C)
S+V+O (Oは負)
(x,y,z)=(S,V,O)
S+V+O+O (Z1は負 Z2は負)
(x,y,z)=(S,V,α) α=Z1 α=Z2
S+V+O+C (Z3は負 Z4は正)
(x,y,z)=(S,V,β) β=Z3 β=Z4
http://www.eibunpou.net/01/chapter3/3_1.html

五文型を (x,y,z)空間上で表現できないだろうか?
0412デフォルトの名無しさん垢版2016/12/03(土) 18:45:19.62ID:11QyyS1l
>>409

人工知能の開発はインプットできるデータを多く持っているところが圧倒的に強い。
創価もこれまでに盗みとってきたデータやら、ファミリー企業(楽天やツタヤ、セコムなど)
から吸い上げたデータを駆使して自動運転自動車の開発くらい自前でやればいいのに。



でもそうなったら原因不明の交通事故とかがちょろちょろ出てくるようになるんだろうなあ。
0415デフォルトの名無しさん垢版2016/12/08(木) 18:29:53.36ID:erOvGha/
これからはシミュレーションシステムの構築が簡略化されるので、来年のセンター物理は大きく得点が伸びるに違いない。

 理化学研究所(理研)計算科学研究機構コデザイン推進チームの村主崇行特別研究員らと、千葉大学の堀田英之特任助教、
神戸大学の牧野淳一郎教授、京都大学の細野七月特任助教、富士通株式会社の井上晃マネージャーらの共同研究グループ※は、
スーパーコンピュータ「京(けい)」(注1)を用いて、数式のような簡潔な指示を書くだけでスーパーコンピュータでの計算に必要
となる高度なプログラムを自動生成できるプログラミング言語「Formura」を開発しました。
 スーパーコンピュータでの計算に必要となるプログラムはときに数十万行にも及び、作成やチューニングは大変困難です。
一方で、原理的にはシミュレーションしたい自然現象とその離散化法(注2)を指定すれば、プログラムは機械的に生成できます。
しかし、プログラミングはシミュレーションとコンピュータ双方に深い知識が必要となる非常に高度な作業であり、多数の計算機を
協調して動作させるスーパーコンピュータの性能を引き出す高度なプログラムを、自動かつ汎用的に生成することは不可能でした。
 そこで共同研究グループは、方程式がプログラムに変換されるまでの一連の段階に対応する数学的定義を作りました。
スーパーコンピュータが持つ階層のすべての段階において、自然が元来備えている「並列性」と「局所性」(注3)を保持する変換
を厳密に定めることで、新たなプログラミング言語「Formura」を開発しました。これによって、これまで不可能だったプログラミング
の機械化に成功しました。さらにFormuraは、同じアプリケーションに対して何万通りものプログラムを試し、最も速かったものを自動的に選択します。
 Formuraを開発したことで、規則格子シミュレーション(注4)分野においては、自然科学者が慣れ親しんだ方程式の記法を使ってシミュレーション
したい対象を記述することで、スーパーコンピュータの性能を引き出すための高度なプログラムが自動的に作成できるようになりました。
気象、地震、宇宙、生態ネットワークの研究など、規則格子シミュレーションを用いる分野の研究の加速が期待できます。
http://pr.fujitsu.com/jp/news/2016/12/2.html
0416デフォルトの名無しさん垢版2016/12/10(土) 14:57:04.83ID:zzrTqzlJ
>>407
>もっと現実性のあるアートを描けないのだろうか。

人間が見て「珍風景」であっても、人工知能からすればどうでもよいのか?

【訂正】思わず二度見してしまう世界の珍風景18選
http://kangaerarehenzo.blog.fc2.com/blog-entry-719.html
0418デフォルトの名無しさん垢版2016/12/21(水) 14:50:23.02ID:BNpN6X2e
自然言語処理研の学生が意味理解の問題に対してニューラルネットや機械学習での解決に腐心している。
分類器以上の枠組みを作ろうという動きってあるの?
0419デフォルトの名無しさん垢版2016/12/22(木) 14:30:51.26ID:ZC+xkany
どういう意味?
0420デフォルトの名無しさん垢版2016/12/22(木) 16:20:57.49ID:YlCTiaOR
自然言語系の人達の発表ってパターン認識ばっかでつまらないんだ。
要所々々にはそれが求められるだろうし、実際人間もそうした判別を行っていると思う。
しかし、文章の整合性の把握だとか論理的矛盾の回避みたいな話はとんと出てこない。
NNや機械学習といった今の流行りは「考える」ことを考える事に尻込みしているように見える。
0421デフォルトの名無しさん垢版2016/12/23(金) 14:19:36.91ID:FjX6yDwQ
同じようなことは思うけど
機械学習が流行したからしゃーない
みんな割に合わないことはやりたくないし
0425デフォルトの名無しさん垢版2017/01/20(金) 13:11:27.56ID:chntIv2b
全くの門外漢なのですが、
機械翻訳で、日本語の主語や目的語の同定をしている
技術(研究テーマ)の名前を知りたいのですが、教えていただけませんでしょうか。
述語項構造解析というやつですか?
0428デフォルトの名無しさん垢版2017/01/21(土) 12:56:08.90ID:nFM+9kDb
ニューラル機械翻訳と記号幻想の死
http://rekken.g.hatena.ne.jp/murawaki/20161017/p1
DeepLearning研究 2016年のまとめ
http://qiita.com/eve_yk/items/f4b274da7042cba1ba76

昨年11月にRNN(LSTM)の機構をCNNで再現するQRNNが提案され、
時系列データをGPUで高速学習できるようになった。
今年の自然言語系は昨年以上に機械学習ばかりになるのだろう。
0429デフォルトの名無しさん垢版2017/01/31(火) 17:46:47.47ID:0xnJU1y2
http://www.afpbb.com/articles/-/3116032

【1月31日 AFP】ドナルド・トランプ(Donald Trump)米大統領がツイッター(Twitter)で繰り出す個別企業への攻撃。
それを投資に生かそうと、テキサス(Texas)州の企業が人工知能(AI)を使ったプログラムを開発した。
トランプ氏のツイートを分析して株価の変動を予想、瞬時に取引をこなすもので、すでにトヨタ自動車(Toyota Motor)
のメキシコ工場建設への批判などから大きな利益を上げたという。
 プログラムはその名も「トランプ・アンド・ダンプ(Trump & Dump)」。株価の変動につながるトランプ氏の投稿を特定し、
株価にプラス材料になるかマイナス材料になるかを即座に判断、素早く取引を行う。
 開発したテキサス州オースティン(Austin)のマーケティング・テクノロジー企業、T3のベン・ガディス(Ben Gaddis)社長は
AFPの取材に、政権移行期間にトランプ氏からツイッターで攻撃された米ボーイング(Boeing)やロッキード・マーチン(Lockheed Martin)
の株価が急落したことに目を付けたと説明した。
「トランプ氏の予測不能なツイートにどのように対処すればよいか、誰もが自問自答している」(ガディス氏)。
そこでT3が取り組むことにしたのが、トランプ氏のツイートを基にして自動取引するプログラム(ボット)の開発だった。
 同社はこれまでの運用成績に満足しているといい、2回の取引で「大きな利益」が上がり、3回目は「若干」の損失だったと明かしている。
 T3のウェブサイトに掲載された動画によると、
1月上旬にトランプ氏がトヨタ自動車(Toyota Motor)のメキシコ工場建設を批判したことを受けた際には、
同社の株価が下落すると見込み「非常に大きな」利益を得たという。
 同社は取引で得た利益を米国動物虐待防止協会(ASPCA)に寄付していると明らかにした上で
「トランプ大統領がツイートすれば子犬が救える」と述べている。(c)AFP
0430デフォルトの名無しさん垢版2017/02/12(日) 03:24:59.33ID:F57yHuTx
http://www.sankei.com/wired/news/170210/wir1702100001-n2.html

次に「PixelCNN」(CNN:畳み込みニューラルネットワーク)を使用するprior networkが、8×8画像にピクセルを追加する。
『Are Technica』UK版の記事によると、PixelCNNは既知の画像を利用して細部を追加するという。
たとえば、唇はピンクであることが多いので、唇だと判断された領域にはピンクのピクセルを追加するという具合だ。

それぞれのニューラルネットワークの処理が終わると、グーグルの研究者たちがその結果を組み合わせて最終画像を生成する。
「顔の典型的なヴァリエーションを前もって学習することで、AIは細部をリアルに描画することができる」と研究者たちは書いている。

今後さらに研究が進めば、低解像度の写真や動画に映っているものを再現できるようなシステムが開発されるだろう。
防犯カメラの不鮮明な映像に映っているものを特定するために、こうした技術が役立つかもしれない。
0432デフォルトの名無しさん垢版2017/03/12(日) 05:00:43.07ID:Su9PiV/H
Deep Learningでmecabとcabocha作るとか奈良先端でやってたらしいけど、もう出来たのかな
ソース公開まだかな
0436デフォルトの名無しさん垢版2017/03/13(月) 14:03:57.38ID:0UOJ2nFM
JUMANは精度がどうのこうのという以前に遅すぎて実用サービスに組み込めない。
研究に使うにはバッチ処理的にしか使わないからいいんだろうけど
0441デフォルトの名無しさん垢版2017/05/08(月) 12:37:00.42ID:vY0SYpKn
>>391
>和田秀樹の黒塗り教科書、二冊用意して一冊を塗り潰す、

 先行研究として、Kanayamaら [1]およびKobayashi
ら [2] によるセンター試験「世界史」の自動解答シス
テムがある。これらの研究では、選択肢中のキーワー
ドを一つずつ隠し、隠した語を問う factoid 問題に対
するシステムの解答を隠した語と比較することで誤り
を検出する手法を用いている。
http://www.anlp.jp/proceedings/annual_meeting/2017/pdf_dir/C7-3.pdf
0442デフォルトの名無しさん垢版2017/05/08(月) 16:29:03.69ID:b93vRxrz
深層学習を駆使し辞書無しで日本語分かち書きできるライブラリはやく作ってください
人間に出来るのだから余裕だろ?
0447デフォルトの名無しさん垢版2017/05/10(水) 14:36:25.96ID:Kj7x3S1t
回転放物面の方程式と東大の問題
http://mathtrain.jp/kaitenhobutsu

「放物線 y = 3/4 - x^2」

「y軸の回りに回転させる」

・・・例えば、こういう操作ができる3次元CADって開発されてないんですか?

統計的機械翻訳では自然言語処理は無理という話も聞いているけれど、高校数学でやることは内容が限られており、
一般的な機械翻訳よりは難易度は低いと思われます。
0449デフォルトの名無しさん垢版2017/05/20(土) 10:09:44.32ID:RV6Qdphw
>>143
>線分QTと線分QRの関係を求めるのに、どの線が必要で、どの線が不要なのか。
>また必要な線が無い場合は、点と点同士を結んだり線分を延長させたりして、補助線を引く。
>計算力にモノを言わせて、しらみつぶしに全ての場合を調べつくすというやり方もある。

音楽より画像処理の方が凄いな。ディープラーニングで画像補完。
フォトショでCG加工や写真補正をチマチマやる必要のないレベルに来てる。
そのうちディープラーニングで自動作曲とか出てきそう。

画像を塗りつぶした部分に一瞬で自然な画像を補完する技術を早稲田大学の研究者が開発
http://gigazine.net/news/20170501-globally-locally-consistent-image-completion/
0450デフォルトの名無しさん垢版2017/05/20(土) 21:53:06.95ID:rcfMwuXb
ちなみにこれが機械学習で機械が作った寝室の画像

もちろん現実のどこにも存在しない、機械が学習した「寝室」の概念画像

遠くから見ると普通に寝室の写真に見えるが、よーく見るとちょっとおかしいことに気づくと思う

http://blog.aylien.com/wp-content/uploads/2016/08/gan-samples-1.png

ってか、既存のGANでも機械にエロ画像の概念を学習させることはできるんだよな
やってみようかな

匿名でやらないと頭硬い奴らに訴えられて面倒なことになりそうだが
0452デフォルトの名無しさん垢版2017/05/21(日) 00:11:37.70ID:S5rss42C
>>451
自然言語処理にも画像理解やシミュレーションが必要なのでは?
0453デフォルトの名無しさん垢版2017/05/21(日) 00:14:45.81ID:S5rss42C
画像理解技術が進歩すれば、東大物理も満点近く取れると思う。

>>136
>次にBの図ろ考えると、点線が途中までになっていて、「何かが入っている箱」と考えられる。

>>449
>画像を塗りつぶした部分に一瞬で自然な画像を補完する技術を早稲田大学の研究者が開発
0454デフォルトの名無しさん垢版2017/05/21(日) 00:28:19.74ID:eegh9j+G
>>452
東ロボみたいなセンター問題回答に物理シミュレーションが使えるのでは? っていうアイデアならまだ理解できるけど、それはもう自然言語処理じゃないだろ
まあいいけど
0455デフォルトの名無しさん垢版2017/05/21(日) 00:32:02.89ID:eegh9j+G
ディープラーニングは大量のデータから特徴を抽出して確率的に生成するんだから、問題文中の図を補完するなら大量の過去問が必要だろう。
しかし過去問はスモールデータだからなぁ
0456デフォルトの名無しさん垢版2017/05/23(火) 05:12:53.15ID:BN0kPFXk
確率の問題はまだ当分無理と思われる。一度には読み込めないからまず小さな文節に区切って、
何が何のことを指しているのかを把握しなければならない。

コンピューターの画面に、(※※)
記号○と×のいずれかを(記号〇と記号×は2つに一つで「背反」である)
表示させる(※)
操作をくり返し行う。(k回繰り返す)

このとき、(どんな時?)
各操作で、(「記号○と×のいずれかを」「表示させる操作」を「k回繰り返す」。)
直前の記号と(「k回の各操作」において)
同じ記号を(○か×か)
続けて表示する確率は、(・・・○〇・・・または・・・××・・・)
それまでの過程に(k回の各操作全てにおいて)
関係なく、(一定である)
pであるとする。(確率は0<p<1)

最初に、(k=1において)
コンピュータの画面に(※※)
記号×が
表示された。(※)
操作をくり返し行い、(k回繰り返す)
記号×が
最初のものも含めて(k=1のものも含めて)
3個出る(×・・・×・・・×、×××、××・・・×、×・・・××)
よりも前に(×・・・×・・・、××、××・・・、×・・・×)、
記号○がn個出る確率をPnとする。
http://math.nakaken88.com/problem/tokyo-u-r-2006-2/
0457デフォルトの名無しさん垢版2017/05/23(火) 08:39:25.38ID:BN0kPFXk
>>282
>RDFトリプルセットは「連想・推論」に利用できるので、人力でRDF辞典を作成しておきたい。

RDFDNN において, 予測失敗を以上の 4 種類に分けてカウ
ントを行ったところ表 2 のようになった. 訓練データの中から
RDFDNN が予測に失敗したトリプルを無作為に 100 個サン
プリングし人手でカウントを行った.
表 2 のとおり最も多かった予測失敗はタイプ A である. A の
例としては,”Leslie Dilley”と”レイダース 失われたアーク”
の関係予測において, 正しくは”アートディレクター”であると
ころを”出演者”と予測した例が挙げられる. この例の場合, 人
間と映画の間に張られる関係の中で”出演俳優”という関係が
最も多いために”出演俳優”と間違った予測をしたと考えられ
る. このように RDFDNN の予測失敗 100 個のうち A,B,C の
68 個の間違いには何らかの妥当性があった.

https://kaigi.org/jsai/webprogram/2017/pdf/718.pdf
0458デフォルトの名無しさん垢版2017/05/23(火) 16:39:02.27ID:BN0kPFXk
y=x^2 のグラフを x 軸方向に 2 だけ平行移動し,
それをx軸に関して対称移動したグラフを求めよ.
http://www.anlp.jp/proceedings/annual_meeting/2017/pdf_dir/D5-1.pdf

y=x^2

グラフ

x 軸方向

2
だけ
平行移動


それ

x軸

関して
対称移動
した
グラフ

求めよ



このように全ての単語と助詞を「オブジェクト」に分解し、かつその「多態性」を分析し、然る後に形式変換すべきだと思う。
0459デフォルトの名無しさん垢版2017/05/23(火) 17:09:27.18ID:BN0kPFXk
[ 2017年03月13日 - 00:40 ]
【数学の大学入試問題、被りすぎやろ(2017年入試)】
■ 1993年和歌山県立医科大医学部医学科→1994年京大理系数学(後期)→2016年東大理系→
2017年杏林大医学部医学科の巴戦の確率の極限の問題(まったく同じ問題で難問)
2000年東工大→2017年上智大理工の立体の側面積の最大、最小問題(東工大の問題に丁寧な誘導を付けて標準レベルにした問題)
1977年千葉大文系数学→2017年早稲田大理工の漸化式で表された数列の和をニ項定理をつかって考察する問題(全く同じ。やや難レベル)
2006年早稲田大理工→2017年早稲田大理工の3次方程式の解が三角関数で循環することを論証する問題(全く同じ。難問)
1999年名古屋市立大医学部と2001年東京農工大前期試験を合わせた問題→2017年早稲田大理工の複素数平面上の直線公式の導き出し、
複素数平面上の任意の点が複素数平面上の三角形の周及び内部にある存在条件を図示する問題(存在条件を複素数平面上に図示するのが難しい)
1986年東大文系数学→2016年同志社大全学入試文系→2017年東大理系数学の置き換えを利用して三角関数から2次関数に帰着して最大、
最小を求める問題(文系の問題が東大理系で出題されるのか・・・基本レベル)
1993年上智大理工学部→2017年東大文理共通の平面上のランダムウォークの確率の問題(反復試行の確率に帰着する問題。標準レベル)
2013年大阪大理系→2017年東大理系の円錐をy軸で回転してできる立体の体積を求める問題。一様多面体の円錐曲線を背景にした問題。
(大阪大の問題に誘導をつけ、阪大より易しくした問題だがやや難レベル)
2005年お茶の水女子大理学部→2017年東大理系の2つの放物線の共通接線の本数問題。(お茶の水女子大の問題から共通接線が
引ける本数の条件を変えた問題。標準レベル)
1999年名古屋市立大医学部→2017年東大理系数学の複素数平面上の任意の点が複素数平面上の三角形の周及び内部にある存在条件
を図示する問題(早稲田大理工に数値を変えただけ。早稲田大理工よりは存在条件を複素数平面上に図示するのは易しい。標準レベル)
<以下略>
http://www.fuoriclasse2.com/cgi-bin/read.cgi?2017-03-13004037
0462デフォルトの名無しさん垢版2017/07/04(火) 03:55:25.73ID:NogRrZwu
 機械翻訳事業を手掛けるみらい翻訳が、深層学習技術を用いたニューラル機械翻訳エンジンを発表した。
現在、同社のサイトでデモが体験可能になっている。
 これは同社と国立研究開発法人情報通信研究機構(NICT)との共同研究によるもので、
深層学習技術の導入により、従来の統計的機械翻訳に比べて翻訳精度が大幅に向上していることが特徴。
対象となるのは日英双方向の翻訳で、なかでも和文英訳においては「TOEIC900点程度
のスコアを持つビジネスマンと同等以上の作文能力があることを確認」できたとアピールしている。
これらを搭載した企業向け翻訳アプリケーションサービスを本年11月から提供するとしているが、現在、
同社のサイトで「お試し翻訳」と称する無料版が利用できるようになっているほか、
共同開発を行ったNICTでは、Android/iOS向け音声翻訳アプリ「VoiceTra(ボイストラ)」
において同日付でこの技術を組み込んでいる。気になる人はまずは、こちらを試してみるとよさそうだ。

お試し翻訳(みらい翻訳)
https://www.miraitranslate.com/index.php#txt-t
TOEIC900点以上の英作文能力を持つ 深層学習による機械翻訳エンジンをリリース(みらい翻訳)
https://miraitranslate.com/news/313
ニューラル機械翻訳で音声翻訳アプリVoiceTraが更なる高精度化を実現(NICT)
http://www.nict.go.jp/press/2017/06/28-1.html
http://internet.watch.impress.co.jp/docs/yajiuma/1067830.html
0463デフォルトの名無しさん垢版2017/07/04(火) 04:20:24.35ID:8q3gEZqY
【大発見】おいwww3の倍数じゃない奇数を思い浮かべて2乗してから1引いてみろwwww絶対に24で割りきれるぞwwwww
0468デフォルトの名無しさん垢版2017/09/17(日) 21:31:26.60ID:kSa7kRax
ねえ?
0470デフォルトの名無しさん垢版2018/03/09(金) 22:58:34.64ID:GTHolLBp
これ翻訳できる?
なんでみんな笑っているかわからん
Topic modelの授業の冒頭
I'm from Princeton in New Jersey where it's four o'clock in the morning.
(笑)
教えてくれ
0471デフォルトの名無しさん垢版2018/03/10(土) 01:12:32.33ID:uUYTpCvs
>>470
たいへん。壺魔人がトイレから出てこない。
改札通れないんだと思う。

って言ってる。
0472デフォルトの名無しさん垢版2018/03/10(土) 01:49:36.91ID:xzUBTHi1
↑全然おもろない
阿保丸出し
0474デフォルトの名無しさん垢版2018/03/15(木) 17:51:17.69ID:8tnce99v
新井紀子教授はすごくなかった
『新井紀子教授は研究者としてすごい』とタイトルにありますが、
皮肉で書いたわけではなく、本当にすごいと思っていました。
宣伝を大きくして予算を確保するということができる研究者は多くありません。
私も研究の世界にいたのでわかるのですが、いろいろと疑問のあるプロジェクトというのはよくあることで、
新井紀子教授の場合は宣伝が上手いゆえに、悪目立ちして損をしている部分はあると思います。
そして、そもそも個人攻撃は私の意図したところではありません。
https://mywarstory.tokyo/our-enemy/
0475デフォルトの名無しさん垢版2018/03/15(木) 18:11:41.15ID:8tnce99v
新井紀子教授のAIやコンピュータに関する知識は素人に毛が生えた程度
新井紀子教授の『AI vs. 教科書が読めない子どもたち』という本が大変売れているようです。
私も本を購入し精読させていただきました。
一言で感想を言うと、新井紀子教授のAI技術に関する知識はせいぜいAI関連ニュースに詳しい人レベルであり、
そのベースであるコンピュータに関する知識もほぼ素人だということがわかりました。
https://mywarstory.tokyo/inconvenient-truth/
0476デフォルトの名無しさん垢版2018/03/15(木) 21:50:00.22ID:8tnce99v
新井紀子教授はUniversity of Illinois Urbana-Champaignから1985年に数学の学士を授与された後、
博士課程に5年間在籍しているのにもかかわらず、1990年に修士号だけ授与されて退学しているようなので、
数学はあまり得意でないのかもしれません。
しかしそれにもかかわらずこれだけ世間をにぎわせていることは、能力よりも宣伝力の方が世間
に対するインパクトが大きいことを示していると思います。
https://mywarstory.tokyo/being-employed-is-easy/
0478デフォルトの名無しさん垢版2018/03/19(月) 10:56:01.35ID:N8hV/6aX
初歩の整数論プログラミング
https://www.saoyagi2.net/integer/

整数問題を解答するプログラムも造っておきたい。
0480デフォルトの名無しさん垢版2018/03/19(月) 13:27:48.98ID:pEbY2e08
>>476
途中までしか読んでいないけど、「現在の社会は人間のために作られていて、機械にとって優しくない。これはAI差別でなかろうか」という視点はどうでしょうか。
0481デフォルトの名無しさん垢版2018/03/21(水) 20:30:25.43ID:QInlrutD
チンボがシコシコする!
0482デフォルトの名無しさん垢版2018/03/22(木) 01:02:52.70ID:Z1JBGYGJ
チンボがシコシコする!
0483デフォルトの名無しさん垢版2018/03/22(木) 04:56:52.06ID:HWN7MKDU
チンボがシコシコする!
0484デフォルトの名無しさん垢版2018/03/23(金) 21:35:06.73ID:BM3HBGyY
自然科学、特に変化の速い人工知能関連の分野で日本語で最新の情報を得ようとしても限界があるので、
自分で英語の論文を読む以外のいい方法はないと思います。(無料です。)
こちらから気になるワードで検索してみてください。
自然科学の基礎研究に関して議論するのに適した場所は知りませんが、まずはQuoraかredditあたりで同じ質問をしてみてはいかがでしょうか?
Quoraはとても親切な人が多いので、丁寧に教えてもらえると思います。
https://mywarstory.tokyo/qa40/
0485デフォルトの名無しさん垢版2018/03/24(土) 22:53:15.70ID:6mZ6T11K
(第1章 はじめに 2頁)
たとえば、CycはFredという名前の男が朝にひげをそるという話が理解できなかった。
Cycの推論エンジンは、この話の中に矛盾を見つけた。Cycは人間には電気の部品がないことは知っているが、
Fredが電気カミソリを持っていたので、エンティティ「Fredがひげそり中(FredWhileShaving)」
には電気の部品が含まれていると考えた。したがって、CycはFredがひげをそっている間、
Fredはそれでも人間なのかと尋ねた。

『深層学習』
著者:
Ian Goodfellow, イアングッドフェロー,
Yoshua Bengio, ヨシュアベンジオ,
Aaron Courville, アーロンカービル
0487デフォルトの名無しさん垢版2018/03/24(土) 22:55:30.16ID:6mZ6T11K
ところで「チンボがシコシコする」という日本語表現は、文法的に正しいのか?

チンボ「を」シコシコするのではなくて、チンボ「が」シコシコする。この場合、「チンボ」は主語となる。

オブジェクト指向で言う「集約」は2種類あって、全体(俺)と部分(チンボ)が繋がっている場合と、
全体(俺)と部分(チンボ)が別々になっている場合とが考えられる。けれども「チンボ」はそれ自体
が独立した生き物であり、所有者の意思とは無関係に、勃起して「シコシコする」。
例えば寝てる時にエロい夢みて朝起きてみたらチンコが勃起して射精してたとか。

違うか?

「頭がズキズキする」は良いが、「チンボがシコシコする」はダメな理由を、50字以内で述べろ!
0488デフォルトの名無しさん垢版2018/03/25(日) 01:03:31.88ID:26j2IyXZ
「舌がピリピリする」みたいな
身体の受動的感覚なら文法的に可

「顔がニコニコする」みたいに
動作主体が人間なら不可
0491デフォルトの名無しさん垢版2018/03/25(日) 16:31:05.25ID:qleen6XJ
>>490
そこのリンク先
URL直接貼れんけど
コメントわろた
0492デフォルトの名無しさん垢版2018/03/25(日) 22:51:24.22ID:26j2IyXZ
>>490
何がしたいのか不明確だが
UIを自然言語にするだけなら昔からある
コマンド入力型ADVゲームとかな
0493デフォルトの名無しさん垢版2018/03/26(月) 01:29:09.56ID:FVXYqf1L
>>492
>コマンド入力型ADVゲームとかな

コマンドではなくて、50字以上100文字以下の、主語と述語と目的語と修飾語を含む自然言語文で。
0494デフォルトの名無しさん垢版2018/03/26(月) 03:16:49.02ID:1pM3oPKs
この質問されてるyu.とかいう人はそもそも何者なんだよ
twitterのプロフにPh.dと書くだけなら誰にでもできる
0496デフォルトの名無しさん垢版2018/03/26(月) 06:35:12.71ID:QR480mqW
コンピューターのための自然言語理解シミュレ
ーターというのは可能ですか?

例えば第二次大戦の推移について、言葉ではな
くて動画で理解する方法もあります。
言葉で説明するよりもマインクラフトのような
創作ゲーム表現に変えたほうが分かりやすいで
す。
けれども自分が読み漁った人工知能や自然言語
処理の本にはそうしたアプローチは見つからな
かったです。
言語はただの記号の羅列で機械は現実世界を全
く知らない。でもそういうことなら、
テレビゲームのような仮想世界をインプットし
て、自然言語で操作したらいいと思います。
というか自然言語入力でときめきメモリアルみ
たいなゲームをやってみたいてす。
0497デフォルトの名無しさん垢版2018/03/26(月) 20:51:09.10ID:tuciBVy7
残念だが人間と完全に同等のレベルで
自然言語を理解するのは現時点では不可能
人工無能を改良して上手く使っていくしかない
0498デフォルトの名無しさん垢版2018/03/28(水) 06:05:44.86ID:KZCr/n70
        ||
        ||
      ∧||∧   
     ( / ⌒ヽ
      | |   |
      ∪ / ノ
       | ||
       ∪∪

      -━━-
0500デフォルトの名無しさん垢版2018/04/11(水) 14:17:19.53ID:XeDgccB8
チンボがシコシコする!
0501デフォルトの名無しさん垢版2018/05/12(土) 10:59:50.86ID:pDgCeBjY
共同ツール 1
https://seleck.cc/685

https://trello.com/
ボードのメニュー → Power-Upsから拡張可能 Slack DropBoxなど
Trello Chrome拡張機能 elegant
ttp://www.kikakulabo.com/service-eft/
trelloのオープンソースあり

共同ツール 2
https://www.google.com/intl/ja_jp/sheets/about/

共同ツール 3
https://slack.com/intl/ja-jp
https://www.dropbox.com/ja/
https://bitbucket.org/
https://ja.atlassian.com/software/sourcetree
https://sketchapp.com/extensions/plugins/
ttp://photoshopvip.net/103903

ttps://goodpatch.com/blog/sketch-plugins/
0502デフォルトの名無しさん垢版2018/05/23(水) 19:52:19.56ID:Au5e7VGg
僕の知り合いの知り合いができたパソコン一台でお金持ちになれるやり方
役に立つかもしれません
グーグルで検索するといいかも『ネットで稼ぐ方法 モニアレフヌノ』

2OND8
0504デフォルトの名無しさん垢版2018/06/26(火) 00:19:49.53ID:suPxm0NB
冒険者の広場では提案広場・あしあと伝言板にて言論規制がしかれている。
提案広場では主にスクエニに対して不利になるような発言
WiiUで発売してすぐ、ウィンドウズ版では出さないといっておきながら
発売を発表、それにより広場は荒れたものの、超速で削除。
両手剣スレイプニールのチート問題、これもチート行為は絶対にないと
いいきってからの問題発覚、これも荒れて超速削除。
他全年齢対象のためちょっとでも卑猥と感じる内容は削除
ネタバレと書かなければ、ネタバレと思われるものは削除
これについては運営側がネタバレと加筆すればいいだけの話だと思うけど。
あしあと伝言板は悪口と思われる内容の言葉が含まれていれば
自動で削除される。
この装備イカす→カス
ちょっとバカンスに行ってきます→バカ
パチンコばっかりいってた→チンコ
どう考えても冤罪削除。しかも累積すると冒険者の広場利用停止。
横暴。
ちなみに冤罪削除を訴えた発言も削除される。
異議申し立ても悪だというらしい。
サポートセンターに問い合わせたところ、調べてもくれなかった。
https://ameblo.jp/cinnamon-rilakkuma/entry-12317442377.html
0505デフォルトの名無しさん垢版2018/07/04(水) 22:07:34.62ID:gFgZc5FG
5UX
0508Mb垢版2018/07/16(月) 06:02:54.03ID:RFTF6J3p
省略のある文を構文解析するときに、
あらかじめ「省略がある」と解っている場合は
いいんだが、文法が間違ってて「ないはずの省略が
あることになってしまっている」場合は
ややこしい話になりそうに思う。
「すごく面白い」は「省略なし」で「すごく」が
「面白い」にかかるんだが、「すごい面白い」だと、
構文解析木自体が変わってきてしまう。
それとも、「解析木自体が違う」と認識して、
もっと上位の意味解析とかで処理するほうが
いいのかね?
0509Mb垢版2018/07/16(月) 06:18:39.78ID:RFTF6J3p
逆に、誤用とか慣用として、辞書レベルで処理しちゃったほうが
実用上は便利なのかね?
「そうすべきだ」なんていうのは、構造としては、
「そうするべきことだ」のはずなんだが、
「××する」みたいな附属語的な用法や、「漢字一字+s」
の形の五段活用動詞の連体形の変化形とは違って、単独の
「する」の連体形が「す」として使われる例はあんまりない
(文語じゃねぇんだから)。
で、「べき」は連体形だから、助動詞「だ/です/である」に
接続する場合は、本来は間に体言が入らないとおかしい。
でなかったら、「べし」と命令形にしちゃうのが文法的には
正だろう。
こういうのは、処理の観点からいうと、どう扱ったらいいのかね?
0511Mb垢版2018/07/16(月) 08:41:11.73ID:RFTF6J3p
>>510
それは、「おれは好きにするからユーザは文句言うな」
なのか、「ユーザが好きに処理できるように、アプリに
自由度を持たせろ」なのか。
0512Mb垢版2018/07/16(月) 08:48:33.94ID:RFTF6J3p
そもそも、「人間のチェックには漏れがある」から
「コンピュータにチェックさせる」のが本筋なのに、
「コンピュータの解析精度が低いから、人間が
処理結果をチェックしないといけない」というのが
本末転倒だ。
標準表記外音は『常用漢字表』(昭和56内閣告示)によれば、
「時」には「と」の音はないため、「時計」を「とけい」と読むと
表記外になるとか、「日」には「に」の音はないため、「日本」を
「にほん」と読むと表記外となるとか、そんなの人間がチェックしたら
見落とすに決まってるだろ。
「じゃあ、他にはそういう例があるのか?」とかいったデータくらい、
ちゃんと用意してどっかに公開しておけというのだ。
0513Mb垢版2018/07/16(月) 11:05:42.72ID:RFTF6J3p
だいたい、中学校で
「活用するのが『用言』で、活用しないのが『体言』」とか
教えてるくせに、
天(あめ→あま)
天日嗣(あまつひつぎ)・天津日嗣(あまつひつぎ)・天照大神(あまてらすおおみかみ)・天の川(あまのがわ)・天水(あまみず)
雨(あめ→あま)
雨足(あまあし)・雨脚(あまあし)・雨蛙(あまがえる)・雨傘(あまがさ)
・雨具(あまぐ)・雨乞い(あまごい)・雨水(あまみず)・雨漏り(あまもり)
雨(あめ→さめ)
秋雨(あきさめ)・霧雨(きりさめ)・小雨(こさめ)・細雨(ささめ)
・春雨(はるさめ)・氷雨(ひさめ)・村雨(むらさめ)
とかいうのはどう説明したらいいんだよ。
「日本語処理の技術者は、中学校レベルの文法知識も持っていない」って、
中学校で教えるのかよ。
で、高校受験や大学受験で、「本当のこと」を主張したら減点されて
不合格のリスクを負うのか?
それっておかしいとは、おまいら自然言語処理をやっている人間は思わんのか。
0514デフォルトの名無しさん垢版2018/07/16(月) 11:21:56.62ID:Tl1DHPio
>「活用するのが『用言』で、活用しないのが『体言』」とか
>教えてるくせに、

ええぇぇぇっ
0515Mb垢版2018/07/16(月) 11:36:38.15ID:RFTF6J3p
>>514
> ええぇぇぇっ
いや、ここは驚くとこじゃねぇだろう。
中学二年で習う「文法」だと、
まず「自立語」と「附属語」の区別があって、
自立語のうち「その役割によって形を変える語」を
「用言」といい、「形を変えない語」を「体言」というと、
しっかり教科書に書いてある。
だもんだから、教師はそれを信じてテストの問題を作り、
それに「教師が正しいと思った解答」を書かなかった
児童・生徒は成績評価が低くなる。
で、「それはおかしいんじゃないですか?」とかいって
文句をつける保護者は、「モンスター・ペアレント」として
扱われる。

めでてぇな。
0516デフォルトの名無しさん垢版2018/07/16(月) 11:36:41.25ID:1RDPQ2ba
最近少し興味を持った初心者なのですが、
2ch用語やギャル語、話し言葉や文法的な違いはどのような手順で処理されるのですか?

例えば、

>それっておかしいとは、おまいら自然言語処理をやっている人間は思わんのか。

おまいら自然言語処理をやっている人間は、それっておかしいとは思わんのか。

あなた方の様に自然言語の処理を行う人達は、「それはおかしい」と思わないのですか?
0517デフォルトの名無しさん垢版2018/07/16(月) 11:54:52.76ID:KKQqxuup
>>515
その「教え方(ほんとなら)」に驚いてるんじゃなくて

>>513 の認識に驚いてる
0518デフォルトの名無しさん垢版2018/07/16(月) 12:10:49.45ID:LulkQD8r
しょせんは人が決めた分類なんで従うしかない

って書こうとしたけど
漢字って単語のさらに一部分で雨水はいつだってあまみずだから
雨水を単語として分類するとき体言にするのはべつに間違ってないような

https://kotobank.jp/word/%E4%BD%93%E8%A8%80-91058
定義もっとこまかかった最初の前提からちがう
0519Mb垢版2018/07/16(月) 12:54:56.73ID:RFTF6J3p
>>518
> 漢字って単語のさらに一部分で雨水はいつだって「あまみず」だから
 開く(あく/ひらく)
 開ける(あける/ひらける)
 温める(あたためる/あっためる/ぬくめる)
 暖める(あたためる/あっためる)
 温まる(あたたまる/ぬくまる)
 言う・謂う・云う(いう/ゆう)
 怒る(いかる/おこる)
 行く・逝く・往く(いく/ゆく)
 射殺した(いころした/しゃさつした)
 抱く(いだく/だく)
 行った(いった/おこなった)
 出し((文)いでし/(現)だし/(文)でし)
 居る(いる/×おる)
 入る(いる/はいる)・入れない(いれない/はいれない)
 得る(うる/える)
(以下、規制に引っかかるので省略)
「雨水溝」は、「うすいこう」なのよ。
0520Mb垢版2018/07/16(月) 13:03:08.07ID:RFTF6J3p
>>516
> 2ch用語やギャル語、話し言葉や文法的な違いはどのような手順で
> 処理されるのですか?
いや、普通に処理してるけど?
「文法格の一意性」とか「非交差則」とかで説明できるんだけど。
ただ、「処理の結果が気にくわない!」って言ってる、自然言語処理
分野のヒトが邪魔してるだけだし。文語文法とかの研究者は、
「使えるツールがあれば欲しい」っていう要望があるんだけど。
そのあたりは早稲田大学の文理学部の筧先生とかに嘆願してね。
0521Mb垢版2018/07/16(月) 13:08:49.98ID:RFTF6J3p
>>518
「の」とか「ん」で表される、いわゆる「準体助詞」は
主語にならないから体言じゃないんだな?
0522Mb垢版2018/07/16(月) 13:12:52.10ID:RFTF6J3p
>>516
そのあたりは運用上の意味論がある。
わりと有名な例だが、
「てめぇは馬鹿か?」は通るが、
「あなたは知恵遅れではありませんか?」と
言ったら、血の雨が降る。
0523Mb垢版2018/07/16(月) 13:16:06.01ID:RFTF6J3p
慣用・誤用、あるいはいわゆる“百姓読み”

口腔外科
「こうくうげか」ではなく「こうこうげか」。
清拭
「せいしき」ではなく「せいしょく」。
独壇場
正しくは「独擅場」と表記して、「どくせんじょう」。
疾病
「しつびょう」ではなく「しっぺい」。
偏執狂
「へんしつきょう」ではなく「へんしゅうきょう」。
情緒
慣用は「じょうちょ」。正式には「じょうしょ」。
膏肓
「病、膏肓に入る」は「やまいこうもうにいる」ではなく「やまいこうこうにいる」。
捏造
慣用は「ねつぞう」。正式には「でつぞう」。「捏ち上げる」は「でっちあげる」。
0524Mb垢版2018/07/16(月) 13:17:32.40ID:RFTF6J3p
>>523
あ、ごめん。うっかり送信しちゃった。
0525Mb垢版2018/07/16(月) 13:22:00.06ID:RFTF6J3p
>>519
続き。
 脅かす(おどかす/おびやかす)
 下り(おり/くだり)
 降り(おり/ふり)
 解す(かいす/ほぐす)
 通った(かよった/とおった)
 来る(きたる/くる)
 汚す(けがす/よごす)
 汚れる(けがれる/よごれる)
 煙る(けぶる/けむる)
 扱く(こく/しごく)
 栄える(さかえる/はえる)
 誘う(さそう/いざなう)
 認める(したためる/みとめる)
 狭まる(せばまる/はさまる)
 狭める(せばめる/はさめる)
 初めて(そめて/はじめて)
 逸らす(そらす/はやらす)
 逸れる(それる/はぐれる/はやれる)
 違う(たがう/ちがう)
 尊ぶ(たっとぶ/とうとぶ)
 貴ぶ(たっとぶ/とうとぶ)
 違える(たがえる/ちがえる)
 吐く(つく/はく)
 留める(とめる/とどめる)
 留まる(とまる/とどまる)
 叩く(たたく/はたく)
 弾く(はじく/ひく)
 瞬く(またたく/まばたく)
0526Mb垢版2018/07/16(月) 13:25:35.64ID:RFTF6J3p
せっかくだから、最後までやっとこうか。
 (文)悪し(あし/わろし)
 良い・善い・好い(いい/よい)
 鈍い(にぶい/のろい)
 辛い(からい/つらい)
 難い(かたい/にくい)
 臭い(くさい/におい)
 尊い(たっとい/とうとい)
 貴い(たっとい/とうとい)
 難しい(むずかしい/むつかしい)
 (文)良し(よし/よろし)

(まだ続く)
0527Mb垢版2018/07/16(月) 13:26:51.56ID:RFTF6J3p
 (文)悪し(あし/わろし)
 良い・善い・好い(いい/よい)
 鈍い(にぶい/のろい)
 辛い(からい/つらい)
 難い(かたい/にくい)
 臭い(くさい/におい)
 尊い(たっとい/とうとい)
 貴い(たっとい/とうとい)
 難しい(むずかしい/むつかしい)
 (文)良し(よし/よろし)

抜けてる例があったら知らせてくれ。
0528Mb垢版2018/07/16(月) 13:29:11.05ID:RFTF6J3p
で、質問があったらカモーン! 歓迎するぜぇ!
0529Mb垢版2018/07/16(月) 13:49:08.35ID:RFTF6J3p
>>517
> その「教え方(ほんとなら)」に驚いてるんじゃなくて
中学校の国語教科書なら神保町の三省堂書店で
売ってるから確かめてみたらどうだ。
0530Mb垢版2018/07/16(月) 15:36:36.28ID:RFTF6J3p
ところで、
「ところで」を漢字で表記する場合、
「処で」「所で」「處で」のどれが正しいのか、
知っているヒトがいるんだったら教えてほしい。
本当に。
0531デフォルトの名無しさん垢版2018/07/16(月) 16:15:34.93ID:Od4s/iux
>>523
確執は?
0532Mb垢版2018/07/16(月) 16:59:58.75ID:RFTF6J3p
>>531
それは別板の話題だと思うが …
「固執」「執事」「偏執狂」との絡みで解決してくれい。
0534Mb垢版2018/07/16(月) 17:22:46.07ID:RFTF6J3p
>>533
べつにおれの知ったこっちゃないんだが、
あっちゃこっちゃの板でヒトに嫌われるようなコトを
ホザいてたからだろう。
0535Mb垢版2018/07/16(月) 17:30:44.70ID:RFTF6J3p
>>533
なんか知らんが、数学板とかプログラマ板とか、
あっちゃこっちゃで粘着してくる香具師がいるんだよ。
どうしたもんかなぁ …
0536デフォルトの名無しさん垢版2018/07/16(月) 18:49:32.10ID:Weu21Vcy
国文法の細かい話題に参加する気はないが
人間が文法を間違えたときにどう処理するかは
自然言語処理で昔から問題になってる
0537Mb垢版2018/07/16(月) 21:00:28.41ID:RFTF6J3p
>>536
> 昔から問題になってる
っつーのはよく解る。
清少納言が「べきにもあらず」とか
書いてるけど、文法的には「べからず」が
正しいと思う。

「慣用形」として認めるのはアリだと思うが、
しょっちゅう使うから「慣用」なんであって、
そこを網羅するのがコンピュータの出番だと
思うんだがどうだろう。

つーか、記述文法の精度が低すぎるのが
本来の問題なんだが、

おまいら記述文法を舐めてねぇか?

という連中が自然言語処理業界に多すぎるのが
問題だと思うが。
0539Mb垢版2018/07/16(月) 21:14:19.70ID:RFTF6J3p
>>536
“じつは”というか、“ぶっちゃけ”というか、
もう四半世紀(要するに二十五年以上)前から、
そこいらにあるパソコンの(形態素解析レベルの)チェック
能力は、人間を軽く超えているんだよ。
ただ、構文解析に関しては、国語学とか自然言語処理とか
数学とかコンピュータサイエンスとか認知心理学とか、
そのあたりの合意がとれてないわけよ。
だから、そのあたりを整理する必要があるわけなんだけど、
苫米地 英人とかが引っ掻き回しやがってバカヤロウ、
みたいな話があるんだわ。
0540Mb垢版2018/07/16(月) 21:24:18.35ID:RFTF6J3p
>>538
そもそも先人の業績をないがしろにしてるところが
気にくわんのだよ。
処理はできるんだが、その結果が「気に食わん」という奴が
いるわけだ。
「文法格の一意性」とか「非交差則」とか言うと、
学会で「こいつ GC とか信じてやがる pgr」とか云われるんだよ。
0541Mb垢版2018/07/16(月) 21:28:39.50ID:RFTF6J3p
>>540
× GC
〇 CG
汎文法(common grammer)な。
「文を構成するのは述語である」とか、
「述語に対する役割が、文法格である」とかいった、
「言語には、基本的な構成要素がある」っていう
構造主義的な立場だ。
0542デフォルトの名無しさん垢版2018/07/16(月) 21:48:34.53ID:LulkQD8r
文法よりまずおまえの頭を整理したほうがいいきがする
結局なにゆーてんかわからん
0543Mb垢版2018/07/16(月) 22:09:23.58ID:RFTF6J3p
>>542
とりあえず、トポロジーとかカタストロフィ理論とかから
勉強してきてくれるとありがたいんだが。
一から説明してると面倒臭いんだわ。

「私はラーメンを餃子を喰う」とは言わんだろ?
「私はラーメンと餃子を喰う」んだわ。
「喰う」という動詞に対して、文法格を
持つ対象は一意なんだよ。だから、「ラーメンと餃子」というふうに、
集合体になってるわけ。これが、「文法格の一意性」。
0544デフォルトの名無しさん垢版2018/07/16(月) 22:12:55.13ID:LulkQD8r
2行目で頭がフットーした
絶対おれの知識不足じゃなくてお前の話し方に問題がある
0545Mb垢版2018/07/16(月) 22:12:55.55ID:RFTF6J3p
>>542
でもって、昔(文語文法)は形容詞は述語になってたんだが、
いまの文法(いわゆる学校文法)では、形容詞は述語に
ならんのよ。だから、

「象は鼻が長い」

は、「述語がないのに主語が二つもあるのはおかしい!」という
批判が出てるわけ。

おわかりか?
0546デフォルトの名無しさん垢版2018/07/16(月) 22:28:36.42ID:LulkQD8r
文法の細かいことはほとんどわからんが

ようはその文法格とかをメインに考えてきたおまいらの方針が
AIとかの漠然とした解析方法に押されて消えちゃいそうで
危機感を感じて発狂してるということなのか?
0547デフォルトの名無しさん垢版2018/07/16(月) 22:55:46.12ID:LulkQD8r
批判ってつまり
今の文法格の考え方じゃ対処できてないじゃんって
おまいさんが突っ込まれたってことだよね

誰かが日本語の文法批判してるみたいじゃねーかまぎらわしい


それともなにか
本当に教育に干渉して日本語の文法に変更を加えようとしてるのか
0548Mb垢版2018/07/17(火) 09:14:36.43ID:iAzNVHws
>>547
> 誰かが日本語の文法批判してるみたいじゃねーか
> まぎらわしい
国語学者が中学校の現代国語で教えられている
「いわゆる学校文法」を批判してるんだよ。
「学校文法 批判」でググると五十万件以上
ヒットするから読んでみるといい。
特に、文語文法を教えてる先生は、言葉が通じなくて
頭を抱えてる。
0549Mb垢版2018/07/17(火) 09:25:46.63ID:iAzNVHws
>>546
つーか、自然言語処理自体が AI の一分野なんだよ。
だけど、事前言語処理をやっている人間の多くは
學校文法の延長でしか日本語の文法を捉えていないので、
日本語処理の技術の進歩が停滞しとるのよ。
0550Mb垢版2018/07/17(火) 09:28:18.11ID:iAzNVHws
>>547
これなんか、よくまとまってる。
ttps://ci.nii.ac.jp/els/contentscinii_20180717092612.pdf?id=ART0001102905
0551Mb垢版2018/07/17(火) 09:34:38.84ID:iAzNVHws
なお、本居春庭が悪いとか、橋本進吉が悪いとかいう話ではない
(大野晋先生は橋本進吉先生の弟子)。
中学校の文法教育が、文法嫌いを六十年以上拡大再生産
しているのが悪い、っちゅー話。
0553Mb垢版2018/07/17(火) 14:40:42.81ID:iAzNVHws
>>552
ある。「かな漢字変換」とか「ローマ字かな変換」とかな。
「programwo」は、本来なら「プログラム(program)を」と
変換してほしいところだが、「pろgらmを」と変換される。
これを「AI の限界」とか言ってる奴も多いが、
技術的にはすでに解決されてる。
0554Mb垢版2018/07/17(火) 14:50:17.21ID:iAzNVHws
>>552
かな漢字変換システムの形容詞の辞書登録で、
「i」とか「e」とかで終わる形容詞を登録してみ?
「i」終わりは「みみっちい」「ばっちい(ばばっちい)」
くらいしか存在しないので、登録時のチェックで注意喚起
してくれるのが正しいありかただ。
「e」末尾は、「かそけき」「さやけき」「むくつけき」「猛き」
あたりが該当するが、現代語の連体形が存在しないので、
「かそけい」「さやけい」「むくつけい」「猛い」が
変換候補として出てきたときに腹が立つかどうか、という
話になる。
0555Mb垢版2018/07/17(火) 14:55:42.16ID:iAzNVHws
でもって、自然言語処理というのは、一般的に
「形態素解析ができて、それを構文解析したときに、
正しい(ちゅーか、実用的な)解析木(ちゅーか、
情報処理するときに扱いやすいデータ構造)に落ちるか
どうか」が勝負なんだよ。
だけど、「そんな解析木は認めない!」ていって
頑張っている奴が業界を押さえていると、日本語処理
っていうもの自体が成り立たなくなるわけだ。
だから、「まず、記述文法から交通整理しよう」っちゅー
話をしとるわけよ。
0556Mb垢版2018/07/17(火) 15:08:30.84ID:iAzNVHws
「日本人は髪が黒い」という表現は、「黒い」が「髪」を連体修飾
してて、「髪」がとりたてによって強調されているから、「黒い」
の前に出てきて、とりたて詞「が」が用いられる、って言っただけで、
学会で吊るし上げを喰らうんだぞ?
で、まともな反論が返ってくるならともかく、
「くぁwせdrftgyふじこふじこふじこ!」
みたいなコトになるんだぞ?
「いや、ちゃんと動いてるシステムがあるんですが」とか
言っても、「あーあーあーあーあー聞こえない聞こえない聞こえなーい」
みたいな反応しか返ってこないんだぞ?
だけど、普通の研究者は逆らえないんだ。そういう連中は、大っぴらには
言えんけど大きな企業で国の予算を貰っていて、その一部をスポンサーとして
研究機関に流してるところから来た、背広着てネクタイ締めて学会に来てる
ような連中だからだ。
「日本語処理が実用化されたりなんかしたら、研究費が出なくなって
自分らが干上がる」というのを知っている連中が、日本語処理業界に
巣食ってるんだよ。
0558デフォルトの名無しさん垢版2018/07/17(火) 16:56:24.01ID:GZ88p15f
原子力学会かよ
0559Mb垢版2018/07/17(火) 17:08:28.25ID:iAzNVHws
>>557 >>558
自然言語処理に関係してる学会なんて、
だいたい想像つくだろうに。
0560Mb垢版2018/07/17(火) 17:17:24.52ID:iAzNVHws
で、益岡 隆志/田窪 行則『基礎日本語文法』以外の文法は
認められないんだ。
なぜかというと、JUMAN や ChaSen や MeCab とかを
いじくって「日本語処理やってまーす」つってアピールして
予算貰って生きてくしかないからだ。
0562Mb垢版2018/07/17(火) 20:31:47.87ID:iAzNVHws
でまぁ、本筋に戻るんだが、
現代日本語の動詞と形容詞の終止形(連体形と形は同じ)は、
じつは連体形の終止用法で、その後に体言とコピュラが
省略されていると考えると、処理も楽だし解析木も
ややこしくならない。試してみりゃあすぐ解る。
だけど、これを大声で言うと冷や飯を食わされるやら
煮え湯を飲まされるやら、いろんな目にあう。
0563Mb垢版2018/07/17(火) 20:47:58.86ID:iAzNVHws
>>561
まぁ、「データが木構造なんで、図で説明するのに
便利」っちゅー以上の意味はないわな。
「修飾関係が交差しない」から、木の形で
描ける、つーだけの話だし。
フローチャートと同じで、滅んだほうがいい
文化かもしれん。
0564デフォルトの名無しさん垢版2018/07/18(水) 17:42:01.84ID:r2tNZQmN
>>561
それな

どうせ文法なんて人間の都合で勝手に名付けた物だったりルールがあると錯覚してるだけだし
0565デフォルトの名無しさん垢版2018/07/18(水) 18:58:52.59ID:nFdzt/yd
>>564
ところが、「ハナモゲラ語」とか「言葉のサラダ」とか、
そういうのが、コンピュータで生成しようとしても
面白くならないんだよなぁ。
「ある」のは分ってるんだが、それが「何なのか」っつーのが
わからないのが文法の面白いところなのよ。
0566デフォルトの名無しさん垢版2018/07/19(木) 11:52:00.94ID:ZMW1ym8c
ランダムでやってもつまらんだろ
0567デフォルトの名無しさん垢版2018/07/19(木) 13:27:00.87ID:DUpb208V
>>566
だな。つまらん。
n-gram 法の単純なやつで、2-gram 法でウケてた時代も
あったんだが(筒井康隆『狂気の沙汰も金次第』参照)、
いまどきはそれで笑いは取れん。
昨今はスパムフィルタを潜り抜けるための
ネタでしかない。
自然言語処理の研究者は何をやってるんだ、という
怒りが消えない。
0568デフォルトの名無しさん垢版2018/07/19(木) 13:31:36.20ID:DUpb208V
つーか、東工大とかお茶の水女子大とかは、
「自然言語処理」っつって何をやってるんだ、
という怒りがある。
正直、いっぺん行ってシメてきたほうが
いいような気がする。
0569デフォルトの名無しさん垢版2018/07/19(木) 13:51:07.59ID:yj8RkDmG
日本以外の国ではどうなん?自然言語処理。
0570デフォルトの名無しさん垢版2018/07/19(木) 15:32:56.09ID:DUpb208V
>>569
日本語みたいに膠着語の国が少ないので、
もうちょい楽。
ただ、わりと手に負えないのが韓国語と
インド諸語かな?
インドは英語が普及してるんで、あんまり
自国語(つーても方言が多いので、何が
なんやら分らんのだが)の自然言語処理には
熱心じゃないらしい。
韓国は、とにかくハングルの字母の数が多いうえに、
正書法が確立しとらんのだよ。
「子音+母音+子音」でカナ一個の文字なんで、
単純に子音が十個で母音が五個としても、カナが
五百個ある勘定になる。
0571デフォルトの名無しさん垢版2018/07/19(木) 15:51:30.42ID:DUpb208V
ハングルは使い慣れると便利っつーのは
分るんだけど、できればローマ字表記を
確立してほしい。
「ピビン麺」と「ビビンバ」を並べて
見るとイラッとくる。
0572デフォルトの名無しさん垢版2018/07/19(木) 16:31:30.15ID:OaLdX1mQ
連投してる奴が何に対して怒ってるのか分からん
現状を打破する何かを自分で開発すればいいだけだろ
0573デフォルトの名無しさん垢版2018/07/19(木) 17:56:05.63ID:DUpb208V
>>572
開発したからイラついてんだよ。
だったらおまいは何を開発したか
言ってみろ。
0575デフォルトの名無しさん垢版2018/07/19(木) 19:54:40.83ID:DUpb208V
>>574
「ビビンバ」は、「混ぜご飯」の意味で、発音は“pi-bim-pap”。
「ビビン麺」は、「混ぜ麺」の意味で、表記は “bi-bim-guk-su”。
だけど、「ピビンパ」とか「ビビン飯」とか変換するとダメだと言われ、
「ビビングスク」とか変換するとダメだと言われる。
「じゃあ、どうすればいいのか?」という話になると、
「それは説明できないが、とにかくそうなんだ」と言われる。

まぁ、そんな連中はいっぱいいるので、べつに「韓国人は」
みたいなことで怒っているわけではないし、
ユーザの要求を聞き取って、具体的な仕様に落とすのが
システムエンジニアの仕事ではあるんだが、
自然言語処理の世界だと、「いやだー! いやだー!
そうじゃないんだー! うわぁぁぁぁぁぁぁ!」みたいな話で
ぶっ壊れる案件が多いというのは知っておくといい。
少なくとも金が自分の懐に入るまでは、油断しないほうがいい。
もっとも、その後で知的所有権がなんだかんだ、で懐から
金が出てゆくこともあるから油断はできないが。
0576デフォルトの名無しさん垢版2018/07/19(木) 20:01:12.43ID:DUpb208V
>>564
> どうせ文法なんて人間の都合で勝手に名付けた物だったり
> ルールがあると錯覚してるだけだし
「だから説明できないけどおれが正しい」って言われても、
説得できないのが自然言語処理。
で、説得しようとすると、「あんたは日本語処理とかなんとか
言ってるけど、あんたは日本語がわかってない」と言われる。
それが日本語処理業界の現実。
0577デフォルトの名無しさん垢版2018/07/19(木) 20:29:21.21ID:DUpb208V
これは言いたかなかったけど、
「支配者の言語」というのがあって、「被支配者の言語」の
言語表現を規制するのが「規範文法」。で、被支配者の
言語表現に対して、「それは文法に適っていない」と言えるのは、
支配者の権利だとする思想がある。
それがあるんで、左派の言語学者は「文法なんてない」と主張するし、
おれは「すべての言語表現において普遍的な原則」としての
「高精度の記述文法」というのを考えたワケ。
だから、おれが「あんたの表現は文法的に間違ってるぞ?」と
言うときは、「そういう言い方だと、他の奴には通じないぞ?」と
いう意味で使ってる。で、精神科医は、そういう発話を「言葉のサラダ」
と謂うんだ。
0580デフォルトの名無しさん垢版2018/07/20(金) 06:28:12.00ID:GozXxEHN
>>579
たぶん、ぬくぬくはしてないと思う。全体のパイが
小さいから、研究費(あるいは科研費)の奪い合いが
熾烈なんだと思う。だから、足の引っ張り合いになるんだろう。
日本語が論理式(モンタギュー文法)にうまく落ちないとか
形態素解析の精度が上がらないとかいうことになると、
「日本語は非・論理的だ」「日本語の文法は不完全だ」みたいな
ことを言いだして、「大規模データを統計的に処理すれば …」
とかいって予算を取ろうとする。
だから、哲学(論理学が絡むとこっちに該当する)とか
記述文法なんかやってる奴が下手に成果なんか上げちゃったら、
そいつらが困る。
0581デフォルトの名無しさん垢版2018/07/20(金) 10:16:08.42ID:B9AYu9ui
>>571
韓国人はピもビも同じ文字を使って区別しないで発音してるけど、日本人が聞くとピビンバに聞こえるんだな。どっちの表記が正しいってこともないけど表記揺れはちょっともやもやするな。

日本語でも「パパ」って発音したとき1個目のパは有気音、2個目のパは無気音で発音するので、韓国人にしてみれば同じカナなのに別の発音してるって感じるはず。
0582デフォルトの名無しさん垢版2018/07/20(金) 13:02:25.01ID:CcJkjASV
別に困んないけど

本当にpracticalならともかく
0583デフォルトの名無しさん垢版2018/07/20(金) 13:26:52.30ID:c77xM4ns
朝鮮人パカするな
0584デフォルトの名無しさん垢版2018/07/20(金) 14:58:22.06ID:GozXxEHN
>>581
まぁ、「マンガ」「メガネ」の「ガ」は鼻濁音だし、
「軍歌」の「カ」と「軍靴」の「カ」は違うんだけど
(後者は「クワ(ワは小さく)」)、普通の日本人は
気にせんのだけどな。

>>583
おれは朝鮮人と呼ばれてバカにされても一向に気にしない
(大陸顔なのは理解している。鹿賀 丈史とか米倉 斉加年が
代表的な大陸顔だ)。
必ずしもすべての朝鮮人が馬鹿ではないし
(例を思い浮かべられないのがなさけないが、
呉 善花は入れておいていいかもしれないと思う)、
すべての馬鹿が朝鮮人だという話でもない
(馬鹿な日本人は少なからずいる)。

力道山や大山倍達や大木金太郎については
コメントは控えておきたい。
0585デフォルトの名無しさん垢版2018/07/20(金) 15:05:41.59ID:GozXxEHN
千田是也さんが、関東大震災のときに、「朝鮮人が叛乱を
企てている」というので自警団が検問をしているときに
引っかかって、「『水道局』と言ってみろ」と言われ、
滑舌が悪くて「しゅっ … しゅいどうこく!」と言ったら
「鮮(せん)だ、これは。」と言われたので、「千田是也」という
ペンネームを使っていたというのは有名な話。
0586デフォルトの名無しさん垢版2018/07/20(金) 15:11:04.74ID:GozXxEHN
「おれは東京生まれの東京育ちで、日本橋の出身だから
訛りなんかない」と豪語していた奴が同僚にいたので、
「だったら『潮干狩り』って言ってみろ」と言ったら、
しばらく絶句してから、「しっ …… しおしがり!」って
言ってから勝手に落ち込んでた。
ちなみに江戸弁だと「ひよしがり」が正。

「鮭」は「しゃけ」、「朝日新聞」は「あさししんぶん」。
かな漢字変換用の辞書には登録しておくのが吉。
0587デフォルトの名無しさん垢版2018/07/20(金) 15:19:37.45ID:GozXxEHN
あと、「蠅帳」は、正訓は「はえちょう」。江戸弁では「はいちょう」。
「蚊帳」は、日本中「かや」。
「棟梁」の正訓は「とうりょう」。江戸弁では「とうりゅう」。
「道了尊」は、「どうりょうそん」と「どうりゅうさん」。
形態素解析っていうのは、ここまでやって一丁前。
0588デフォルトの名無しさん垢版2018/07/20(金) 15:29:07.28ID:GozXxEHN
>>582
「義足とか義手とかなくても、別に困んないけど。
おれ健常者だし」
「べつにハングル表記とかなくても、別に困んないけど。
おれに帆人だし」

「本当にpracticalならともかく」。
あーやだやだ、想像力とか共感性のない奴は。

「自然言語処理とかなくても、別に困んないけど。
普通に言葉分かってるし」ってぇ話だろ?
0589デフォルトの名無しさん垢版2018/07/20(金) 17:35:58.98ID:GozXxEHN
>>588
×に帆人
〇日本人
0590デフォルトの名無しさん垢版2018/07/20(金) 17:40:15.50ID:GozXxEHN
あと、昔の越後の人は「し」と「す」の区別がつかなくて、
「伸びた“シ”と結んだ“シ”」というんで区別してた。
「お寿司」と「お獅子」とかな。
0591デフォルトの名無しさん垢版2018/07/20(金) 18:01:44.97ID:GozXxEHN
日本橋の『たいめいけん』の茂出木 心護さんが、
越後の出身者は「えちご」と「いちご」が発音上
区別できなくて、「ストロベリー」と云われて
馬鹿にされたという話を書いている。
0592デフォルトの名無しさん垢版2018/07/20(金) 18:34:54.69ID:GozXxEHN
正しい日本語処理。

「やってみてくれ」
 ⇒金融機関が借入金を引き上げようとしているので、
なんか儲かりそうな話をでっち上げてくれ。
「やってくれ」
 ⇒「できません」とか言ったらぶっ殺すぞ。とにかく
儲けを出せ。
「上からの GO が出た」
 ⇒逃げ支度が済むまで引っ張れ。
「君には失望させられたよ」
 ⇒ぜんぶお前の責任だ。お前が尻拭いをしろ。おれらは
知らない。

そんなもんですよ。
0593デフォルトの名無しさん垢版2018/07/20(金) 18:57:49.52ID:TZxtxi0x
連投してる奴いろいろ書いてるけど
他人に対して何か伝える文章じゃないな
結局何が言いたいのかぼんやりしたまま
0594デフォルトの名無しさん垢版2018/07/20(金) 19:55:29.19ID:GozXxEHN
人工無脳が なんか言ってますよ。

ところで、「なさい」「ください」「いらっしゃい」とかは、
文法的にいうと、動詞の活用としては何形になるのかねぇ?
0595デフォルトの名無しさん垢版2018/07/20(金) 20:02:56.67ID:GozXxEHN
>>593
> 連投してる奴いろいろ書いてるけど
> 他人に対して何か伝える文章じゃないな
> 結局何が言いたいのかぼんやりしたまま

「 連投して(い)る奴(が)いろいろ(と)書いて(い)る[けど
(=「けれども」)]、他人に対して何か(を)伝え(「ようとしてい」?/
「られ」?)る文章[じゃ(=「では」の口語的に崩れた形)]ないな
結局、何が言いたいのか(が)ぼんやりしたまま(の)(何か)(だ)」 。

こんな屑な人口無脳を作った馬鹿は、どこの大学のどこの研究室の所属だ。
0598デフォルトの名無しさん垢版2018/07/20(金) 20:53:07.41ID:GozXxEHN
>>597
> 自然な省略だろ
自然言語処理をやっているなら、何が自然なのかを説明してくれ。

>>かねぇ?
>ってのは口語的に崩れた形だろうが
そんな甘いツッコミを入れられてもサムいだけだ。
まぁ、ここのところ猛暑が続いているからご愛敬だけどな。
「動詞の活用としては何形になるのかねぇ?」
だったら、
「動詞の活用としては、何形になる(の)(でしょう)かねぇ?」
とツッコんでほしかった。「なる」は連体形だから、その後に何かが
省略していないと文が完結しないので、そのあとに「体言+コピュラ」が
省略されている、と推測するのが正解、くらいのツッコミが入ったら、
おれも素直に頭を下げられるんだが。

ついでながら、「ってのは」は「というのは」の、口語的に崩れた形だ。
0599デフォルトの名無しさん垢版2018/07/20(金) 20:58:35.72ID:GozXxEHN
>>597
> お前も人工無能な
文脈としては、
×人工無能
〇人工無脳
だと思うが。“も”っていうことは、お前は無能なんだな?
おれが人工無脳だったら、製作者はとっくにチューリング賞を
獲っとるわ。
0600デフォルトの名無しさん垢版2018/07/20(金) 21:25:48.02ID:GozXxEHN
くそう。叱られちゃったい。
> ないな
「ない(体言:省略)(コピュラ:省略)な」
> ぼんやりした
「ぼんやり(と:省略)した」
が正解。
0604デフォルトの名無しさん垢版2018/07/22(日) 06:53:00.75ID:HlH3bx5P
>>そんな甘いツッコミ
> お前が自分に甘いだけだろ
> だから馬鹿なんだよ
せっかくだから自然言語処理に関係のある話をしておこう。
形容詞は暗黙の主語として話者を要求する。「>>602 は恥ずかしい奴だ」は
>>602 は自分を恥じている」を含意しない。「>>602 は(話者である)私を
して“恥ずかしい”と感じせしめる人物である」という意味を内包している。
また、「とりたて詞『が』は強調転置を起こす」ので、
「お前が自分に甘い」は「自分に甘いお前」を含意するが、たいていの奴は
自分に甘い。
「だから馬鹿なんだよ」は、「だから」と「馬鹿」のどちらに強意があるかが
字面からは読み取れない。前者だとすると、「馬鹿」という概念が
すでに所与のものとしてあり、前提から導出が可能だ、と主張している
ことになるが、後者では、「馬鹿」というのは文中にトピックとして
出てきたことになる。
0606デフォルトの名無しさん垢版2018/07/22(日) 09:01:24.76ID:HlH3bx5P
日本語には体言の省略が多い(ただし異論はある)。
ただ、「その、省略された対象が何か」を推定するのに、
シソーラスと「その名詞にはどういう性質(内包的な意味)が
付与されているか」というデータが必要になってくる。
仮に百科語を二万語として、それだけのシソーラスを
作るのは並大抵の労力ではない。
そうすると、なにか限定されたジャンル(医学とか、化学とか)を
扱うしかなくなってくるが、それだと一般性が乏しくなる。
中学・高校あたりの理科系分野とかに狙いをつけるのが
いいんだろうか。
素人向けの医学・薬学・栄養学的な知識、というのも
考えたんだけど、厳密な体系にならないんだよね。
0607デフォルトの名無しさん垢版2018/07/22(日) 12:40:16.29ID:HlH3bx5P
>>606
もうひとつ、述語の中心である動詞の場合、要求する
「文法的な格」がどのようなものであるか、が明らかであって、
しかも「かかる」相手がどういうカテゴリーにあるか、というのが
分らないと、体言に附属した助詞が省略された場合に、「述語から
要求される文法格」が何であるかを推定できないんですよね。
「彼、スパゲティ、食べた」が、「彼はスパゲティを食べた」なのか
「スパゲティが彼を食べた」なのかは決定不能なのね。
「コタツが葬儀屋を食べた」は無意味文になりそうだけど、
映画『バトルヒーター』(一九八九)という文脈があったら、
「意味がある」と判断されると思うんだけど。
0608デフォルトの名無しさん垢版2018/07/23(月) 08:38:44.41ID:8XnpjG9G
一時期「ら抜き」が問題になってたけど、
「可能」と「尊敬」を区別できるという
メリットがあるので、一概に否定はできないと
思っている。だったら「れる」を「ことが可能である」と
入力時に機械的に置き換える(あるいは変換候補として出す)
くらいの芸はできんのか、とは思う。
一行めの「なってた」も「なっていた」が候補に出ていいし、
「あっさりした」も「あっさりとした」が正のはず。
入力時にチェックするのは難しいにしても、
テキストデータをチェックするくらいは簡単なように
思われるんだけどね。
0609デフォルトの名無しさん垢版2018/07/23(月) 12:57:40.81ID:8XnpjG9G
>>601
> しよはしよじゃないの?
そこんとこ kwsk
0611デフォルトの名無しさん垢版2018/07/27(金) 14:25:38.80ID:q3ebuKRa
>>610
ダメだ。暑気中りが治ってない。

×You might or more heard a two fishes.
〇You might or more heard today's a two fishes.

冬バージョン
You might or more heard today's some fishes.
0613デフォルトの名無しさん垢版2018/07/28(土) 23:43:24.97ID:HVxOC8gw
>>612
粋な先生だな。
じゃあ、「“ghoti”と書いて何と発音するか?」とか
習ったクチだな?
おれはすれっからしの自然言語処理屋なんで、
“Time flies like an arrow.”を
「時蠅は矢を好む。」とか「矢のように時を測れ。」とか
訳してしまうクチだ。
0614デフォルトの名無しさん垢版2018/07/29(日) 00:46:36.29ID:TGkp0btZ
>>613
象は鼻が長い、で二、三時間話ができそうだな。
0615デフォルトの名無しさん垢版2018/07/29(日) 11:52:38.73ID:ecsh/nBS
>>614
どっかの国語学者は何十年とかそういう話をやってるので、
二三時間で片がつくならいつでもやるんだが(^_^;)。
ついでながら、>>613
「enough」の "gh"、「women」の "o"、「nation」の "ti" で
「フィッシュ(fish)」だそうだ。

電算業界では「jail(牢獄)」というテクニックがあるのだが、
「本当は『geol』」とか思ってしまうおれはへそまがりだ。
0616デフォルトの名無しさん垢版2018/07/29(日) 12:05:56.01ID:ecsh/nBS
「象は鼻が長い」は、「象は鼻が長いのです」を含意し、
準体助詞の「の」の役割を考えると、「象は鼻が長いのです」
は「象は鼻が長い(X)(です)」を含意すると看做せると
解釈可能である。
しかしながら、「長い」は「鼻」を修飾しているので、X は
「哺乳類」「生物」とかいったものであると解釈するのが
妥当であろう。したがって、とりたて詞「が」によって「鼻」が
強調されて転置が怒り、「長い」の連体修飾という役割が、
結果として文構成のなかで引き継がれた、と解釈すると、
構文解析によって自然な解釈であろうと私は主張するのだ。

できればツッコミをよろしく。
0617デフォルトの名無しさん垢版2018/07/29(日) 12:34:29.98ID:2jsBPgao
ここは「は」の機能に焦点をあてて説明した方がいいんじゃないのかな。
0618デフォルトの名無しさん垢版2018/07/29(日) 14:10:34.39ID:ecsh/nBS
>>617
「は」「が」は「とりたて詞」であって、「主格の格助詞」では
ない、とかいう主張はなかなか通らないんだよね。
そうすると「主格の格助詞が存在しない」ということに
なってしまうから(個人的には、ないと思っている)。
で、「は」「が」がつくと、格助詞が消えるという現象が
あると思っている。「をは」「をが」「にが」って使わないだろう?
「には」はあるし、「へは」「へが」「からは」「からが」「までは」
「までが」等々はあるわけだから、「『は』『が』はとりたて詞であって、
格助詞ではない」というのは強調しておきたいところだ。
0620デフォルトの名無しさん垢版2018/07/29(日) 16:35:02.64ID:TGkp0btZ
文法の存在ってのは幻みたいなもんだと思うけど、言語にはよく分からんけど法則があることだけは確かなんだよなあ。
0621デフォルトの名無しさん垢版2018/07/29(日) 16:59:44.89ID:jmfLAdWz
>よく分からんけど法則

結局なんでもそうだし
機械学習やDLに向いてる分野ってことかな

でも法則自体は判らんでも何故かうまくこなすっていうAIっぽいのが生まれるっていう展開
0623デフォルトの名無しさん垢版2018/07/29(日) 20:06:05.33ID:ecsh/nBS
>>622
おれらは自然言語屋なんで、むしろ「副助詞」の
定義がわからん。「ね」「さ」「よ」「な」「ぞ」
は、「強調助詞」と呼んでいる。「とりたて詞」は、
トピックであることを示すと同時に、語順の
転換が起きる。それを「強調転置」と呼んでいるので、
「用語の統一ができていない!」と叱られそうに思うが。
「だからね、そのあたりはさ、適当によ、塩梅してな、
欲しいぞ?」みたいなのは強調助詞、という話。
0624デフォルトの名無しさん垢版2018/07/30(月) 03:32:11.29ID:Rd2xs5Db
よくわからん。
このスレはプログラム板のスレなんだからコンピュータで自然言語処理するのに有用な話をしてほしい
ぶっちゃけ、MeCabにもKNPにも出てこない品詞の話をされても意味がない。
0625デフォルトの名無しさん垢版2018/07/30(月) 07:03:35.67ID:9nIH/p+f
end-to-endの時代なのにね

わざわざnmtに構文解析の結果をぶち込んでくるバカがいて
誰がやってんのかなと思ったら東大だった
0627デフォルトの名無しさん垢版2018/07/30(月) 08:45:24.47ID:ArBfASRB
ぶっちゃけ形態素解析システムなんて自前で開発しても
たいした手間じゃないぞ? 方針が分かってりゃ
1人月くらいで書ける。
1)まず、形容詞を活用語尾で引っ掛けるルーチンを書く。
2)それを使って形容詞の辞書を作る。
3)それでコツを掴んだら、動詞で同じことをする。
4)受け身だとか尊敬だとか使役だとかの処理と、
各種の形態素の処理を書く。これは数が少ないので
大した手間じゃない。
5)残った奴は名詞句なので、助詞やらなんやらの処理を
考えつつ名詞の辞書を作る。
ただ、これをやると、「もうちょっと抽象化できんかな?」とか
考えてしまい、全部捨てて新しいシステムを書きたくなる。
ただ、ここまで来ると日本語の文法体系が頭に入っていて
必要な辞書はあらかた揃ってるから、勝負は早い。
0628デフォルトの名無しさん垢版2018/07/30(月) 09:02:59.59ID:ArBfASRB
形態素解析システムを自前で開発すると、いくつか副作用があって、
「モーニング娘。」とか「藤岡弘、」とか見ると
反射的にイラッとくるようになる。
0629デフォルトの名無しさん垢版2018/07/30(月) 09:05:49.92ID:ArBfASRB
あと、メモが手放せなくなる。
「さっぱりした」の「さっぱり」と、
「さっぱりわからん」の「さっぱり」は、
別の単語として辞書に登録したほうがいい、とか
その場でメモるからだ。
「さっぱりとした」は言うが、
「さっぱりとわからん」は普通言わない
(いう地方もあるかもしれんが)。
0631デフォルトの名無しさん垢版2018/07/30(月) 09:15:05.66ID:ArBfASRB
いい面での副作用としては、
「文語」「(正体の)口語」「俗語的な口語」の
区別に敏感になる。
「むくつけし」「猛(たけ)し」「かそけし」のような
e 音で終わる形容詞は、文語にはあるが現代語にはない
(「むくつけい」「たけい」「かそけい」はない)。
「し」ではなく i 音で終わる形容詞は、俗語では使うが
正体では使わない。「みみっちい」「ばばっちい」などが
あり、「ずるっちい」を使う人はいる。
文語動詞では「子音終わりは四段」「母音終わりは一段」が
基本。ただし、母音は i, e しかない。
ところが、現代語では五段活用ワ行があり、a/o/u という
母音で終わっているのに五段活用、というややこしい話に
なっている。これは動詞末尾の h 音が消失しまったせいだが、
h 音の前が i/e である動詞は行き場がなくなって、けっこうな
騒動になっていることが形態素解析で判る。
0632デフォルトの名無しさん垢版2018/07/30(月) 09:22:41.82ID:ArBfASRB
あるよ。新旧とりまぜて三つほどある。
1)C 言語ベタ書きバージョン、
2)C 言語文法分離バージョン、
3)Java で書き直してメモリリークや
ワイルドポインタを防止したバージョン。ただし、
Java の使い方が当時は よくわからなかったので、
多段解析を実装できなかったのが悔やまれる。
(2)のバージョンは、ローマ字英単語交じりの
文字列を漢字かな交じり文に変換する、というのも
可能だった。
あと、(2)と(3)は双方向のシステムで、
漢字かな交じり文の読みびらきと、かな漢字変換の
両方が同じシステムで可能だった。
0633デフォルトの名無しさん垢版2018/07/30(月) 09:28:45.10ID:ArBfASRB
あと、全件辞書引きは Google が使ってるダブル配列法じゃなくて、
その原形であるトリプル配列法を使ってる。
マルチバイト文字の場合、「辞書がコンパクトになる」という
ダブル配列法のメリットが生きなくて、トリプル配列のほうが
コンパクトになったりする。
まぁ、昨今のマシンは作業用のメモリがギガバイト単位なんで、
それほど気にする必要はないんだが。
ほかになんか質問ある?
0634デフォルトの名無しさん垢版2018/07/30(月) 09:35:40.86ID:ArBfASRB
ところで質問なんだけど、
MeCabとかKNPとかって、文語とか解析できるの?
文法って、どんな形で持ってるの?
品詞分類とか変えられるの?
0635デフォルトの名無しさん垢版2018/07/30(月) 12:28:22.50ID:fs6nfZiK
あ、古い人なんだ
0636デフォルトの名無しさん垢版2018/07/30(月) 12:34:35.75ID:fs6nfZiK
JAI-Parserとかかな
0637デフォルトの名無しさん垢版2018/07/30(月) 12:41:04.42ID:ArBfASRB
>>635
つーか、JUMAN と ほぼ同時期に開発したシステムだから、
茶筅とか MeCab とかは、はなから使ったことがないのよ。
unix 環境なんて、手近になかったからね。初代は PC-98 とかで
動かしてたらしい。
当初、辞書をフロッピーディスクに置いといたら、やたら
カッチャンカッチャンとアクセスするので、「ドライブが
壊れるかと思った」てな話を聞いた。で、その後「RAM
ドライブ」っちゅーのが出て、384 Kb くらいの「マシンから
見るとドライブだけど、じつはメモリ空間」っつーのができて、
そのあたりの心配はなくなった。
で、その後 IBM-PC 互換機ができてメモリ空間が広がったんで
普通に実メモリ空間に置いて、アスキーの出版技術部の
TEX のチームの前でデモしたら、「それで?」と言われたそうだ。
あんまり処理が速かったんで、ただファイルを出力してただけだと
思われていた、というオチがついている。
0639デフォルトの名無しさん垢版2018/07/30(月) 12:42:57.61ID:fs6nfZiK
文体と興味が特徴的すぎる
0641デフォルトの名無しさん垢版2018/07/30(月) 18:23:05.86ID:fs6nfZiK
たまごとかの世代ですが何か?
0642Mr.Moto垢版2018/07/30(月) 19:38:47.79ID:ArBfASRB
>>641
じゃあ、Wnn(「私の名前は中野です」) あたりは知ってるんだ。
おれらは VJE-Pen(VJE-β)とか「ことえり」とか Wnn とか
よりちょっと遅れた時代だ。rStone-JE は、JAI-Perser の、
>>632 の(1)を実装してる。
(2)は、自動ルビ振り/自動点訳システム「紅玉(Ruby)」に実装
したんだが、まつもとゆきひろさんの「Ruby」が流行っちゃったので
あんまり有名にならなかった。
0643Mr.Moto垢版2018/07/30(月) 21:22:57.38ID:ArBfASRB
たいへん・またせて・ごめんなさい
0644Mr.Moto垢版2018/07/30(月) 21:25:45.64ID:ArBfASRB
「くるまでまつ」
「はくさいやだいこんなどのやさいが」
「やまのうえにはながさきました」

懐かしいのぅ。
0645Mr.Moto垢版2018/07/30(月) 21:29:31.72ID:ArBfASRB
今は、
「長く庄内平野を転々としながらも私は肘折の渓谷に分け入るまで
月山がなぜ月の山と云われるのかを知りませんでした」
を、一発で構文解析できるシステムをインプリメントしようと
思案中。
0646Mr.Moto垢版2018/08/02(木) 17:06:15.29ID:qDXNPl4s
スレが止まってるのが気にくわんなぁ。
せっかくの夏休みなのに、
喧嘩売ってくるとか、
質問してくるとか、
なんかスレを伸ばすような話題はないのか?
自然言語処理をやってる研究室は何をやっとるんだ?
0647デフォルトの名無しさん垢版2018/08/03(金) 10:26:42.91ID:G5/K3zuO
昔のソースを発掘したのはいいが、
なにせ量が多すぎて頭を抱えている。
辞書管理とかとツールが多いんだよなぁ ……
やっぱり日本語処理システムの開発は、
ある程度頭数が揃ってないとしんどいわ。
0648デフォルトの名無しさん垢版2018/08/03(金) 12:24:06.18ID:zviFVEVF
githubで公開すれば?
0649デフォルトの名無しさん垢版2018/08/03(金) 15:27:48.96ID:G5/K3zuO
>>648
昔のソースなんで、恥ずいからやだ。
だいたい、Tomcat 上で SubVirsion 使ってソースは公開してたのに、
ずっと無視されてたから知ったこっちゃない。
0651Mr.Moto垢版2018/08/04(土) 09:55:56.28ID:Ply8bxep
>>650
わかった。努力する。
0652Mr.Moto垢版2018/08/06(月) 06:44:57.20ID:C/D04uYr
スキーマと辞書の扱いを、どうすりゃいいのかな?
A)田中は台所でカップ焼きそばを作っている。
B)田中は工場でカップ焼きそばを作っている。
があって、
C)田中は栃木でカップ焼きそばを作っている。
は、どう解釈するか、っちゅーのが問題なんだが。
0653Mr.Moto垢版2018/08/06(月) 13:59:40.47ID:C/D04uYr
漢字二字熟語で置きかえるというのはひとつの手段ではあるのだが、
A)田中は台所でカップ焼きそばを作っている。
→田中は台所でカップ焼きそばを調理している。
B)田中は工場でカップ焼きそばを作っている。
→製造している/開発している。
くらいはOKとして、
「子供を作っている」とか「家庭を作っている」とか
いうのは、なかなか説明しづらいものがあるように思う。
0656Mr.Moto垢版2018/08/07(火) 19:12:08.68ID:DcjP7j/S
かなり昔の話だが、
『ぼんさんがへをこいた』というパソコンの
ソフトがあった。

今日、近所のローソンへ行ったら、なんかしら
レジのところに『おいしいおでんのつくり方』という
のが置いてあって、「これって書籍ですか? それとも
店内のマニュアルですか?」と訊いたら、「あ、これは
店内用のマニュアルです」という返答だった。

「おいしいおでんのつくり方」をコンピュータに説明できるか、
というのは、けっこうテーマになりそうに思う。
0658Mr.Moto垢版2018/08/07(火) 20:07:35.64ID:DcjP7j/S
>>657
と、いうことは、おまえは「田楽芋」が「おでん」になった経緯を
説明できる自然言語インターフェースを備えた知識ベースシステムを
すでに実装して運用してるということだな?
0660Mr.Moto垢版2018/08/08(水) 13:13:47.75ID:l+OzLrq9
>>659
知識ベース=プロダクション・システムという
昨今の決めつけには疑問を持ってる。
とはいえ、様相論理とかフレーム理論とか、
そのあたりを取り込みゃあうまくいくかというと、
そうでもなさそうな気はする。
なんか、そこいらを統合するコンセプトが
ありそうな気はするんだが、おれには今のところ
思いつかない。
0662Mr.Moto垢版2018/08/08(水) 21:46:41.52ID:l+OzLrq9
>>661
おまいも上から目線でコメすだけじゃなくて、
なんか具体的な意見出せや
0663デフォルトの名無しさん垢版2018/08/09(木) 12:51:14.04ID:a88nmHyC
このスレさあ、最近俺とお前しか書き込んでないよ
0664デフォルトの名無しさん垢版2018/08/09(木) 12:56:18.84ID:NXkdt6vr
ごみん
0665Mr.Moto垢版2018/08/09(木) 22:08:36.40ID:RMQfHlDH
形態素解析って、流行ってねぇんだなぁ ……
真面目にやると面白いんだけどな。
0666Mr.Moto垢版2018/08/09(木) 22:15:20.21ID:RMQfHlDH
そういやぁ「三階」を「さんがい」って言う奴はいるけど、
「三回」は「さんかい」なんだよな。
そういうのって自然言語処理の世界で真面目に研究してる
奴っておるんかな?
AI も方言でインタフェースが成立すりゃあ可愛げがあるのに。
0667デフォルトの名無しさん垢版2018/08/10(金) 10:58:25.21ID:x87YEa9j
>>666
言語学ではそういう感じの論文はよくあるよね。
0668Mr.Moto垢版2018/08/10(金) 15:24:14.22ID:a1LHeoak
>>667
あるのか!
繰返しになるが、人間って、文法というものを所与のものとして
受入れているので、「形態素解析でイレギュラーなものを拾う」
っていうのは、けっこう困難なんだよ。
だけど、メジャーな形態素解析システムって、そういうのを
スクリーニングするようにできてないので、インターネット
のおかげで言語データが大量にあるのに、そういう例外を
掬うのって、なかなか手段がないんだよ。
昨今のパーソナルコンピュータは、そういうのに使えるだけの
性能を持ってるのに、研究者がそういうツールを使いこなせない、
っていうのは(研究者に対して言ってんじゃなく、サポートする
体制のほうに言ってんだが)イカンと思う。
0670Maria垢版2018/08/10(金) 15:54:03.82ID:a1LHeoak
>>669
研究者が、あらかた、意味論とかそっちの方に逃げちゃってるので、
記述文法とかの話になると、誰も相手をしてくれないんだよねー。
昔は大修館の『言語』の『言語空間』で、国広哲弥先生とガチのバトルとか
してたんだけどねー。
「相撲好き」っていうのかなぁ? がっぷり四つに組んで、「おまえの
底力を見せてみろ!」みたいなヒトって、最近は見ないでしょう?
0671デフォルトの名無しさん垢版2018/08/11(土) 20:51:29.75ID:lNetj8kV
ところでだ。「チンボがシコシコする」という日本語表現は、文法的に正しいのか?

チンボ「を」シコシコするのではなくて、チンボ「が」シコシコする。この場合、「チンボ」は主語となる。

オブジェクト指向で言う「集約」は2種類あって、全体(俺)と部分(チンボ)が繋がっている場合と、
全体(俺)と部分(チンボ)が別々になっている場合とが考えられる。けれども「チンボ」はそれ自体
が独立した生き物であり、所有者の意思とは無関係に、勃起して「シコシコする」。
例えば寝てる時にエロい夢みて朝起きてみたらチンコが勃起して射精してたとか。

違うか?

「頭がズキズキする」は良いが、「チンボがシコシコする」はダメな理由を、50字以内で述べろ!>>98
0673Mr.Moto垢版2018/08/11(土) 21:23:15.94ID:Rp7CVdHg
>>671
それは運用論の話だな。たしか
城生 佰太郎『言語学は科学である ―「象ガ国会デ宿題ヲ忘レル」
不思議への招待』で「なぜ『元祖ゴキブリラーメン』がないのか?」
みたいな話で論考してたと思う。
0674Maria垢版2018/08/11(土) 21:31:55.39ID:Rp7CVdHg
>>671
あんた、どっかの大学の自然言語処理系の研究室から、鉄砲玉として
送り込まれてきたんだろうけどさぁ、命(タマ)ぁ獲れなかったら、
どういう目に遭うか、覚悟はできてるんだよね?
逃げるんじゃないわよぉ? ほら、こっちはいくらでも
相手になろうって言ってるのよ?
0676Maria垢版2018/08/11(土) 22:01:16.57ID:Rp7CVdHg
>>675
だから、質問しなさいって言ってるのよ。
仁義切って、啖呵切って、勝負はそれからでしょう?
「お控えなすって」
「早速のお控え、ありがとうござんす。手前、生国は …」
から始めるのが仁義でしょう?
せめて、どんな研究してて、どういう分野に興味があって、
どういう点に疑問やら反論やらがあるのか、
はっきりしなさいよ!
どこの所属とかは訊かないけどさ、
「この分野だったらおれのほうが上だ!
白黒つけてやるから勝負しろ!」くらいの
勢いでかかってきなさいよ。
0677デフォルトの名無しさん垢版2018/08/11(土) 22:02:45.90ID:8JECWN+f
「シコシコ」は対象と他の物体の摩擦を表す擬音。
「ズキズキ」は対象が発してる状態の擬音。
よって対象そのものについて述べるのに
外部要因がある「シコシコ」を使うのは適切じゃない。





つまり50文字で纏めると

全く自然言語処理をやってないプログラマですが
いつも楽しく拝見しています
ところでスレチじゃないですかね

となる
0678Maria垢版2018/08/11(土) 22:28:42.02ID:Rp7CVdHg
>>677
あー、こういう方がいらっしゃって下さると、
ありがたいわー。

「背中がヒリヒリする」とか「喉がイガイガする」とかは、
内部なのか外部なのかが判然としないけど、「シコシコ」は
内部化がしにくい、っていうコトですよね?
とはいえ、肩凝りなんかだと、「僧帽筋と菱形筋と最長筋が
“シコシコ”してるんですよ」とかいう表現は、運用上は“あり”だと
思うわけです。

となると、これは自然言語処理というよりも、意味論のほうの
話になると思うんですよ。

「できる」の命令形「できろ」は、文法上は禁止されていませんが、
運用上は「それ、無理でしょ?」っていう話になってしまいます。
それと同じことだと思うんですよ。
0679デフォルトの名無しさん垢版2018/08/12(日) 02:28:21.41ID:/WZyCUyT
>>671
(´・ω・`)頭は自分の意思とは関係なくズキズキするから「が」
(´・ω・`)ちんぽは自分の意思でシコシコするから「を」
自分の意思かどうかで主語が変わる
0681デフォルトの名無しさん垢版2018/08/12(日) 09:56:42.76ID:ULAI4zx4
>>680
> 最近気になるのは、DVDが発売する、だな
それは「DVD が発売される」じゃなくってか?
たしかに「DVD が出る」みたいな表現はあるから
なんかしらの説明はあるのかもしれんけど。
強いていえば「DVD を発売する」の「DVD」が
強調されて「DVD “が” 発売する」になった、
あたりかな? そうでなければ「発売する」に
自発の意味がある、という解釈だな。
0682Mr.Moto垢版2018/08/12(日) 10:29:17.36ID:ULAI4zx4
「おいしいおでんの作り方」と
「おでんをおいしく作る方法」は
意味がほぼ同じであるように見えるのに、
文構造がかなり違う (-_-!)
どこかに「食べる」が省略されているとでも
考えないといかんのか? 食べなかったら
「おいしい」というのが判断できないわけだから。
「(食べて)おいしいおでんの作り方」はともかく、
「おでんをおいしく作る方法」は、ちょっと
珍しい形の転置が起きた結果、文の構造が
見えにくくなっている感じがする。
「おいしく食べられるおでんが作れる方法」を
どうひねくったら「おでんをおいしく作る方法」に
なるのかがわからん。
0683Mr.Moto垢版2018/08/12(日) 12:47:07.64ID:ULAI4zx4
>>682
ようやく解ってきた。
述語にかかる句には、
「文法格をもつ句」(主語とか目的語とか)と、
「修飾句」(「さっぱり」「あっさり」「粛々と」)と、
「相」(「夏に」「谷川岳で」)があるという分類が
立っているのだが、いわゆる「具格」は、文法格ではなくて
相であり、体言が述語にかかるときに「で」が附属するので
あって、「で」は「具格を表す格助詞」ではないっちゅー
コトなんだな?
文法格がないんで、述語に対する一意性もないわけで、
「〜で〜で」みたいなのもアリ(なかなか実例が
示せないんだが)なんだと思う。
「鶏は鍋でおろし醤油で食うのが好きだ」の場合、
「鍋」と「おろし醤油」が助詞「で」によって
述語「食う」に係っているわけで、これを
「鶏は鍋と おろし醤油で食うのが好きだ」とすると
語感がおかしくなる。そう考えると、
「方法」というのは、「場所」や「時刻」「季節」と
同じように、「相」であると考えたほうが、
動詞の型分けがすっきりしそうだ。
0684デフォルトの名無しさん垢版2018/08/12(日) 17:57:06.47ID:PIG+WPz5
おいしいおでんの作り方=how to make おいしい おでん
「おいしい」は「おでん」に対する修飾語

おでんをおいしく作る方法=how to make おでん (to be) おいしい
「おいしい」は「おでん」に対する述語

「おいしく作る」は「穴を掘る」と同じように考えればよく
「食べる」が省略されているなどと考える必要はない。
0685Mr.Moto垢版2018/08/12(日) 18:01:52.82ID:ULAI4zx4
>>684
よし、解った。
「鮟鱇は土鍋で出汁で煮る」はオッケーだが、「土鍋と出汁で煮る」は NG。
「鮟鱇は土鍋でかえしと出汁で煮る」もオッケー。
「鮟鱇は土鍋でかえしと出汁で強火で煮る」もオッケー。

つーことは、具格は文法格ではないから、なんかしら別の呼び名を
立てたほうがいい、っちゅーこっちゃね。するってぇと「具相」とかに
なるのかな。
0686Mr.Moto垢版2018/08/12(日) 18:18:00.76ID:ULAI4zx4
>>684
> 「おいしい」は「おでん」に対する述語
なるほど。そこへ来たか。
確かに文語では形容詞は述語になる(終止形もある)
よなぁ。
うん。反論を考えてみる。
0687Mr.Moto垢版2018/08/12(日) 18:35:32.47ID:ULAI4zx4
>>684
> おでんをおいしく作る方法=how to make おでん (to be) おいしい
うん。
ひょっとしたら、The way of make おいしい おでん
みたいな脳内変換が行なわれているかもしれない、という
可能性を考慮する必要はあるだろうな、と思っている。

強調転置は、とりたて詞「は」「が」を “常に” 伴うと、ずっと
思っていたので、「を」がそのまま使われて
強調転置が行なわれる、というケースを考えていなかった。
やっぱり、形態素解析 “だけ” を考えて自然言語処理を
行なおうとすると、どっかしらに無理がくるということか。
0688Mr.Moto垢版2018/08/12(日) 18:41:17.81ID:ULAI4zx4
>>687
「The way of make」とか書いたらダメだな(^_^;)。
俗語・口語に慣れちゃってるんで、気づかなかった。
「The way of to make」とか「The way of how to make」
とか書かないと、英語教師には叱られそうだ。
0689デフォルトの名無しさん垢版2018/08/13(月) 16:13:26.37ID:obMX332h
666
読みで揺らいでるけど
「依存」は「いぞん」がいつのまにか「いそん」に変わってしまった
「マスゴミ」は「マスコミュ」
でないといけない
0690684垢版2018/08/13(月) 17:13:57.48ID:GO6p/lGf
> Mr.Moto

> 「おいしく作る」は「穴を掘る」と同じように考えればよく
と書いたこちらの意図がまったく伝わっていないようだが。
穴を掘る、湯を沸かすなどと同じく、ただの結果を先取りした表現。
「壁を白く塗る」と同じといってもよい。
0691Mr.Moto垢版2018/08/13(月) 17:28:37.19ID:AihWjEg3
>>690
おれは、形容詞は(暗黙の)主語を要求するという点に着目した。
「おいしいおでん」の「おいしい」の主語は、「そのコンビニの店員」
ではなくて、「そのコンビニの系列の店で、リピーターになってくださる
お客様」だと思うんだよ。
ペットショップでミジンコとかコオロギとかゴキブリとか
冷凍のヌードマウスを買ってくお客さんが、「おいしい」っていうのは
また別な意味だろう?
プロの料理人が言ってたけど、「うまみ調味料は、半分までだったら
バレないけど、肝心な出汁の味がマスクされちゃうので、味がブレた
ときに、しかたなく使う」「塩味は、ギリギリまで強くすりゃあ、
客は『うまい』って言ってくれるんだけど、外で食うなら
ともかく、家で毎日食うんだったら、『ちょっと物足りない』
くらいが普通」だそうだ。
0692Maria垢版2018/08/13(月) 17:30:28.58ID:AihWjEg3
>>689
それ言ったら、「寄贈」だって「きぞう」じゃなくて「きそう」でしょ?
0693Maria垢版2018/08/13(月) 17:41:26.57ID:AihWjEg3
>>689
正確にいうと、「いそん」が正で、「いぞん」は “百姓読み” と
呼ばれる俗語の訓なのよねー。
「マスゴミ」も、「マス・コミュネーション」+「ゴミクズ」
の合成語であって、「マス・コミュネーション」=「マスゴミ」では
ないんですよ。「ミニコミ」⇔「マスコミ」っていう対義語関係も
あるしね。
0696Maria垢版2018/08/15(水) 10:39:21.70ID:vp8/ud0K
>>695
「ぞんさい」と「そんさい」はあるかもしれない。
「無人島」も、「むにんとう」「ぶにんとう」「むじんとう」
の訓があるわけだし。小笠原には「ムニンノボタン」が
生えているし、英語だと「ぶにんとう」→「ボーニン・アイランド」だし。
0697デフォルトの名無しさん垢版2018/08/15(水) 14:37:14.24ID:ai0gypJB
理屈っぽさと独創的なプログラミングスキルには負の相関がある、
と誰かが言ってたな
理屈こねて長文レスしまくってる人はもうプログラミングやめた方がいいかも
0698Mr.Moto垢版2018/08/15(水) 16:21:40.83ID:vp8/ud0K
>>697
ご意見はありがたく拝聴しておくが、
「じゃあ、おまえはどんなプログラムを書いたんだ?」と
質問しておこう。
せめて、まともな理屈くらいこねてくれ。
0699デフォルトの名無しさん垢版2018/08/16(木) 04:30:16.20ID:Wl8UzWlX
>>679
>ちんぽは自分の意思でシコシコするから

ならオシッコを我慢するときは?
0700デフォルトの名無しさん垢版2018/08/16(木) 04:33:08.06ID:Wl8UzWlX
>>496
>テレビゲームのような仮想世界をインプットして、

人体というのは宇宙のように広大で、コンピューターには入り切らないぞ?

>>485
>CycはFredがひげをそっている間、Fredはそれでも人間なのかと尋ねた。

人間の動作というのはそれだけ複雑だってことだな。
0701デフォルトの名無しさん垢版2018/08/16(木) 09:58:38.18ID:odc/xF8f
>>700
SF だけど、『未来の二つの顔』でやってたな。
星野之宣さんのマンガでやってたけど、
仮想空間の中でコンピュータに目玉焼を作らせようと
したら、フライパンの中に割らずに卵を載せて
しまうとか …。
で、「これは、やっぱり実際の空間の中でやんなきゃ
ダメだ!」っつーんで、コンピュータ制御の戦闘用ドローンと
武器を持った人間が、宇宙ステーションの中で
ドンパチをやるという話。
0702デフォルトの名無しさん垢版2018/08/16(木) 10:03:34.87ID:odc/xF8f
自然言語処理と関係なくなっちゃいそうだから、
それっぽいものも足しておこう。
『2001:宇宙のオデッセイ』
『ヴァレンティーナ』
『月は無慈悲な夜の女王』
『ウォー・ゲーム』(映画)
『ノーラの方舟』
『アメリカの黒船』(笑)
0703デフォルトの名無しさん垢版2018/08/16(木) 13:54:12.85ID:odc/xF8f
>>703
×『アメリカの黒船』
〇『マンハッタンの黒船』
諸星大二郎。「デモクラシー・マシン」という、
国民に端子を埋め込んでおいて、その測定値を
もとに、コンピュータが政策決定をするという話。
あれ読んどくと、幕末史がかなりよくわかる。
ついでに、『ゴースト・バスターズ2』を観ると、
けっこう笑える。

こう、どうしようもなく暑いと「ドンマイ・ダンス」(=ええじゃないか)を
踊りたくなるよなぁ。川原泉も『笑う大天使(ミカエル)』で、
ウルトラマンと鉄腕アトムと超人ロックにドンマイ・ダンスを
踊らせてたし。
0704デフォルトの名無しさん垢版2018/08/16(木) 18:48:54.08ID:zg++OkBY
>>699
腹筋運動で腹に力を入れるってのと同じ。
0705デフォルトの名無しさん垢版2018/08/16(木) 18:52:01.50ID:zg++OkBY
>>701
>フライパンの中に割らずに卵を載せてしまうとか …。

ゆでたまごとは違うからなあ。
0706デフォルトの名無しさん垢版2018/08/16(木) 18:55:36.47ID:y4swezJj
>>704
ゲロ吐くときも腹に力を入れるけどな。
0707デフォルトの名無しさん垢版2018/08/17(金) 10:03:25.37ID:gqiCzic7
日本語処理をやってて困るのは、
「葱」を「ネギ」と訓むと気持が悪く、
「キ」と訓みたくなることと、
「タマネギ」を漢字で書くときに、
「玉葱」ではなく「玉根葱」と
書きたくなることだな。
0708デフォルトの名無しさん垢版2018/08/17(金) 10:24:20.58ID:7A6IqWlB
>>699
オシッコの時とオナニーの時とでは、役割が全然違う。
0709デフォルトの名無しさん垢版2018/08/17(金) 14:08:30.32ID:gqiCzic7
>>708
今はただ 小便だけの 道具かな
0710デフォルトの名無しさん垢版2018/08/22(水) 18:11:57.81ID:dTPH0Jpn
第13回テキストアナリティクス・シンポジウム
あたりに出てみたら?
0712デフォルトの名無しさん垢版2018/08/31(金) 12:25:09.97ID:jw7g7wHs
いまのところ思いつきでしかないんだが、
日本語の「文語」「旧漢字」「旧かなづかい」と
いうのは、自然言語処理における暫定的な
ピボット言語として、けっこう実用的なのでは
ないか、と思う。

戦後に教えられている、日本語の現代国語の文法は、
文語文法ほど厳密ではない。
「常用漢字への置き換え」のせいで、本来の字義が
わかりづらい文字がある。
旧かなづかひには、文語文との歴史的な関連があり、
合理性がある。
で、「現代語」「常用漢字」「新かなづかい」への
変換は、わりと標準的辞書とそれなりのアルゴリズム、
そこそこのマシン環境があれば、実用上は不自由な
感じがなく可能だ。

いけそうに思うのだが、どうだろう。
0714デフォルトの名無しさん垢版2018/09/03(月) 19:36:30.73ID:EdX2r8s2
>>713
どこの?
おれは出席できるのか?
発言権とか議決権とかはあるのか?
どういう影響力があるのか?
0716デフォルトの名無しさん垢版2018/09/04(火) 19:38:35.15ID:1ahLzDkT
>>715
日本ソフトウェア科学会の自然言語処理の
分科会で、ボロクソに叩かれたのが、いまだに
トラウマになっている。

当時は JUMAN 以外の形態素解析システムは
認められていなかったので、分科会の座長に
「益岡 隆志 ・田窪 行則の『基礎日本語文法』を
読んでから来なさい」と一蹴されてそれっきり。

資料をほじくり返せば、どっかから名前が
出てくるだろうが、それも野暮な話だろうと
思って遠慮している。

形態素解析で、おれらに勝てると思ってる
奴がいたら、喧嘩売ってこい。ぜんぶ
買ってやる。
0717デフォルトの名無しさん垢版2018/09/04(火) 19:42:49.40ID:1ahLzDkT
ついでながら、大修館の『言語』の
『言語空間』で、国広哲弥先生と
がっぷり四つに組んでバトルをしたのは、
うちらの親玉だ。
0718デフォルトの名無しさん垢版2018/09/04(火) 20:55:35.67ID:L4gEVvGM
>>714
>発言権とか議決権とかはあるのか?

人工知能研究は何とか大学で何とか言う学位を得たとかいう専門家達の小難しい数式ではなく、
こうした何気ない日常生活の中から何かを発見していくことのほうが大切と思われる。


485 デフォルトの名無しさん 2018/03/24(土) 22:53:15.70 ID:6mZ6T11K
(第1章 はじめに 2頁)
たとえば、CycはFredという名前の男が朝にひげをそるという話が理解できなかった。
Cycの推論エンジンは、この話の中に矛盾を見つけた。Cycは人間には電気の部品がないことは知っているが、
Fredが電気カミソリを持っていたので、エンティティ「Fredがひげそり中(FredWhileShaving)」
には電気の部品が含まれていると考えた。したがって、CycはFredがひげをそっている間、
Fredはそれでも人間なのかと尋ねた。

『深層学習』
著者:
Ian Goodfellow, イアングッドフェロー,
Yoshua Bengio, ヨシュアベンジオ,
Aaron Courville, アーロンカービル
0719デフォルトの名無しさん垢版2018/09/04(火) 21:19:40.95ID:1ahLzDkT
>>718
「日本語の動詞の活用は、
末尾の音との対応によって決まる」
んだが、しょっちゅう使う動詞に関しては、
この対応関係が崩れることがある、という
話をした。
いわゆる「サ変(する)」「カ変(「来る」)」は
知られているが、それ以外に「言う」「行く」と、
「乞う」「問う」は、その原則から外れていると
いうのを、実際のテキストデータ(コーパス)を
コンピュータによって篩にかけて実証したんだが、
侮辱されただけで終わった。

> こうした何気ない日常生活の中から何かを
> 発見していくことのほうが大切と思われる。
たしかに大切だと思うのだが、それが学会で
評価されると信じるのは、「いつか王子様が」
みたいなファンタジーでしかない。
0720デフォルトの名無しさん垢版2018/09/04(火) 21:28:33.77ID:1ahLzDkT
「創傷熱や産褥熱は、医者や看護師の手を
介在して感染するので、医療行為を行う人間は
よく手を洗え」と主張したイグナーツ・ゼンメルワイスは、
精神病院に収容されたあげく、看護人に殴られて
死んだ。

世の中はそんなもんだ。過去にではなく、
現在もだ。
0721デフォルトの名無しさん垢版2018/09/05(水) 08:19:26.23ID:sGefZ1lw
あんたの考えてることが他人に説明できないなら戯言でしかない
それすらできないくせに歴史的英雄に自分を重ねてこんなとこで自慰をするのは無様で恥知らずとしか言いようがない
人工知能学会でも自然言語処理学会でもいいから論文を出せ
日本でダメなら国際会議で訴えろ
甘利ににらまれた金谷は国際会議で訴えた
0722デフォルトの名無しさん垢版2018/09/05(水) 08:39:26.69ID:TGJHl4wU
>>721
>こんなとこで自慰をするのは

ところでだ。「チンボがシコシコする」という日本語表現は、文法的に正しいのか?

チンボ「を」シコシコするのではなくて、チンボ「が」シコシコする。この場合、「チンボ」は主語となる。

オブジェクト指向で言う「集約」は2種類あって、全体(俺)と部分(チンボ)が繋がっている場合と、
全体(俺)と部分(チンボ)が別々になっている場合とが考えられる。けれども「チンボ」はそれ自体
が独立した生き物であり、所有者の意思とは無関係に、勃起して「シコシコする」。
例えば寝てる時にエロい夢みて朝起きてみたらチンコが勃起して射精してたとか。

違うか?

「頭がズキズキする」は良いが、「チンボがシコシコする」はダメな理由を、50字以内で述べろ!>>98
0723デフォルトの名無しさん垢版2018/09/05(水) 08:42:52.59ID:TGJHl4wU
人間発見国立情報学研究所教授 新井紀子さん AI時代を生き抜く力(3)
ttps://www.nikkei.com/article/DGKKZO33940070Y8A800C1EAC000/ 
 娘の身を案じ猛反対する両親を押し切って米国へ留学。大学院に進んだが教官のセクハラに遭い、一度は研究者の道をあきらめ
かけた。
 1年後には帰国して就職か結婚をする、と約束し、ようやく両親に留学の許可をもらいました。大学4年の1984年7月に日本を出発、
数学基礎論が盛んだったイリノイ大学に入学しました。イリノイ大は1年で卒業。卒業時に優秀賞をとり、奨学金を得たので大学院に
進学しました。
 ところが大学院では指導教官からのセクハラに遭い、つらい日々を過ごしました。遠距離結婚して間もない夫も心配して米国に来て
くれましたが、セクハラが止むことがなく、学内で訴えを起こしました。当時は米国でもようやくセクハラへの関心が高まり始めたばかり。
当時は米国でもようやくセクハラへの関心が高まり始めたばかり。学内規則が不十分だったこともあり、決着をつけることはできず、
博士号をとれずに失意のまま帰国することになりました。
 帰国後、娘が生まれたこともあり、一度は家庭に入って専業主婦になろうと考えました。今も研究を続けているのは、このとき夫が
「あきらめるな」と励ましてくれたからです。広島市立大学に情報科学部が新設されることを知った夫は、応募してはどうかと勧めて
くれました。「もう一度やってみよう」とタイプライターを買い込んで論文を書き始め、一橋大の先生方のサポートもいただいて完成。
助手に採用されました。
0724デフォルトの名無しさん垢版2018/09/05(水) 09:40:09.05ID:cB1vOB+w
>>772
構文的には正しいが、運用論的には疑問がある。
【解説】
「目がシパシパする」は構文的に正しいので、
「チンポがシコシコする」も構文的に間違っているとは
いえない。「麺がシコシコしている」は運用論的に
正しいが、語彙的に「シコシコする」が一般的な
用法に含まれているか、には疑問の余地がある。
0726デフォルトの名無しさん垢版2018/09/05(水) 12:24:18.47ID:cB1vOB+w
>>721
> あんたの考えてることが他人に説明できないなら
説明して理解できる奴が日本中探しても おそらく十人以下だ(笑)
> 歴史的英雄に自分を重ねて
ゼンメルワイスは説が入れられず不遇のうちに生涯を終えた。
看護師でもゼンメルワイスの名前を知らない奴が多い。
> 人工知能学会でも自然言語処理学会でもいいから論文を出せ
記述文法をやってる奴がそもそもいない。
> 日本でダメなら国際会議で訴えろ
膠着語の記述文法は欧米人に理解できるとも思わん。

そんなわけで実装して製品化を試みたが、
ある会社は会社が分裂してプロジェクトが頓挫、
ある会社は業績が悪化してプロジェクトから撤退、
ある会社は不正経理のせいで他の会社に乗っ取られて
プロジェクトが消滅、
ある会社は資金がショートしてチーム解散、
ある会社は別プロジェクトが大手の企画と
バッティングして経営難になり、チームのメンバーが
逃走、
その他もろもろあって、「呪われたシステム」と
謂われている。
0727デフォルトの名無しさん垢版2018/09/06(木) 04:51:25.22ID:8UoLzWRo
n バイトの文字列に対して、 n バイト以下のコードから
なる単語辞書を用いて、「すべての部分文字列に対する
辞書引き(これを、直積検索:ダイレクト・プロダクション
検索、または全件検索という)」を行なうことを考える。
このとき、最悪の場合でも n^2 + n の手間しかからない
アルゴリズムが存在する。
もちろん、バイト単位で考えれば 256 分木で表現すれば
いいのだが、それをやるとデータがやたらに大きくなる
(スペースファクターが悪い)ので、これを圧縮して
(木の末端部はスパースなので、重ならないように格納
する工夫の余地がある)一次元配列に押しこむことを考える。
有名なものとしては Google が使っているダブル配列法が
あるが、その原形であるトリプル配列法のほうが、マルチ
バイト文字を考えると、かえってスペースファクターが
向上するケースがあることがわかっている。
0728デフォルトの名無しさん垢版2018/09/06(木) 05:08:43.23ID:8UoLzWRo
一次元配列の要素は、
バイアス、アドレス、データ識別子である。
ここで、添字0を起点としよう。バイアスとアドレスは
添字であるとする。(なお、以下の方法にはバリエーションが
あるが、ここではもっとも素朴な例を示す)
ある添字 X が、文字列のどこか(たとえば、元文字列のどこか
にある “ab”)のどこかを指しているとする。
そのとき、次の文字 c が続く文字列 “abc” が辞書にあるか
どうかを調べるとき、X+c 要素のバイアスが c に等しいかを
見る。これは、X+c が X を指しているということなので、
データ識別子の先に語彙データが存在する(もちろん “abcd” が
辞書にあって "abc" がないこともあるので、そこはチェックが
必要だ)。さらに、その先を探すためには、要素 X+c のアドレス
部を見る。その値がアドレスで無意味だったら、その先に続く
文字列は辞書にない、ということになる。
0729デフォルトの名無しさん垢版2018/09/06(木) 06:02:39.83ID:8UoLzWRo
辞書引きは一応片付いたことにして、次は形態素解析だ。
語彙の部分には、品詞の分類というものがある。ただ、
これがなかなかの難物なのだ。
たとえば日本人なら、日本語の動詞をそのまんま
書いて「動詞」と書いておけば辞書として役に立つ。
ただ、外国人やコンピュータ様は動詞の語幹部分を
別々の形態素として辞書登録しておいて、辞書引きが
終わった段階でパーツを組み立てて「これはどういう
品詞のナニナニ形だ」と提示しなければならない。
するってぇと、たとえば「書かされたがらなかった」
はどうなるかというと「動詞・書k+使役・as+
受動・aれ+欲求・た+表出・が+否定・なk+
過去または完了・aった」と、別々の品詞として
辞書登録しておかなければならなくなる。
「こんなんやっとれるかぁ!」と怒りだす奴が
いそうだが、これは辞書を「形態素(=名前のない
形態素)」の辞書と「品詞(=名前のある形態素)」に
分けて、前者は「開始点の文法属性+マッチング文字列+
終点の文法属性」として管理し、後者は「品詞+辞書登録形」
で辞書かしておいて、適当なツールで「開始点の文法属性+
マッチング文字列+終点の文法属性」に変換してやる(もちろん、
マッチングに不必要な活用語尾は取り去る)という操作を
行なうわけだ。
これによって、解析開始点から「解析開始点の属性」→
「開始点属性」→「マッチング文字列」→「終点属性」ときて、
ここから次々と「終点属性」を「開始点属性」とみて
探索を行なってゆけば、自動的に形態素解析が行なえてしまう、
ということになる。
なお、単なる「かな漢字変換」レベルの処理だったら、
これだけで市販の IME が吹っ飛ぶくらいの威力のある
変換システムができあがる。もちろん、候補の優先度とかいった
塩梅は必要ではあるのだが。
0730デフォルトの名無しさん垢版2018/09/06(木) 07:09:53.36ID:8UoLzWRo
この処理系の実装にあたっては、再帰を使って
木探索(ツリー・リトリーブ)で書くのが簡単だが、
それでは面白みに欠ける。
「どの点のどの開始属性から探索する」という
タスクを何らかのデータ構造(C なら構造体、
Java ならオブジェクト)の形で表現しておいて、
データプール(コンテナ)に放り込み、
一個取り出しては探索処理を行なって、
次の探索店をまたデータプールに突っ込む、
ということをする。
これがスタックだと深さ優先探索、
これがキューだと幅優先探索になるので、
プッシュとポップを工夫するだけで、
探索戦略を切り替えることができる。
こういう手法を「チャート法」といい、
構文解析(形態素解析ではなく、だ)の
分野ではよく知られた手法だ。

なお、この手法、ビットマップ上の
領域の塗りつぶしや迷路探索にも
使える。横溝正史の『八つ墓村』に、
金田一耕助がチャート法を使って
巨大洞穴を探索する場面が出てくる。
0731デフォルトの名無しさん垢版2018/09/06(木) 09:11:04.07ID:8UoLzWRo
>>729 の話は、要するに「文法属性の始めと終わりを
マッチング文字列で橋渡しする」ことで文法定義を
しちゃって、チャート法の解析エンジンだけで処理を
片づけるという、無精ったらしいことをしているわけだ。
このとき、「マッチング文字列がヌルストリングのとき、
うっかり循環参照かなんかを作りこんじゃったら
無限ループに陥っちゃうだろうが!」という
話になる。
文法そのものがそんなに大袈裟なものじゃない(二千行あれば、
充分書ける)ので、あんまり気にしなくていいのだが、
それでもチェックは入れておいたほうがいい。
0732デフォルトの名無しさん垢版2018/09/06(木) 09:16:30.21ID:8UoLzWRo
>>731
これには二つの方策があって、
1)実行前に、スクリプトから実行形式にコンバートするときに、
チェックして対処する。
2)実行時に、同じ位置に同じ文法属性が来たら、そこでハネる。
のどっちか、という話になって、(1)は実行時のオーバーヘッドが
なく、(2)は実行時のチェックのためのオーバーヘッドが生じる。
これはどっちでもよさそうだが、どのみち「辞書と文法を区別しない」の
で、(1)で工夫はするとして、いちおう(2)の機能も組込んで
おくのが安全。
0733デフォルトの名無しさん垢版2018/09/06(木) 09:26:43.74ID:8UoLzWRo
>>732 については、一度、大騒ぎしたことがある。
「書いてる」は「書いている」の省略形なので、
「『いる』の語幹『い』の省略」と記述したら、
困ったことに「連用形の現在」が、語幹と一致する
「い」だったのだな。
「お持ち帰り」のように、連用形は連用形に接続するので、
「書いてる」が「書いて(ここに「い」が無限個省略されて
いる)る」と解析されて、いきなりスタックオーバーフロー(笑)。
さんざん解析に手間取ったあげく、「ている」「でいる」の
「てい」「でい」をそれぞれ形態素として登録して逃げた。
このあたり、「どう処理するのが本当か」という話はあるのだが、
>>1
> 言語学の話題などは他のスレッドでお願いします。
と言われているので、このスレでの議論は避けることにする。
0734デフォルトの名無しさん垢版2018/09/06(木) 12:35:12.17ID:8UoLzWRo
とりあえず、>>1
> このスレッドでは、「日本語の構文解析・談話理解・情報検索・
> 文章生成」などの技術に関する理論と(おもに)実装を扱います。
> あくまで、「アプリケーション・プログラミング」の
> 技術的な面に重点をおきたい
というコトになっているんだが、よく見れば「形態素解析」と
いうのは「自然言語処理スレッド」からは排除されているんだよな。

そのあたりに関する、スレ民の意見は伺いたいと思う。
0736デフォルトの名無しさん垢版2018/09/06(木) 16:16:39.52ID:8UoLzWRo
>>735
ありがとう。
実装は任せた。
ソースコードは
無償で提供する。

「束(そく。Latteice)から束への建艦」が、
一意に成立するかどうかが疑問だったのと、
それが、その程度効率的なのかについて、
充分なデータが揃っていなかったのだ。
どっかの大学(を含む研究機関)で、
マジメに検証してくれれば、
ありがたいと思う。
0737デフォルトの名無しさん垢版2018/09/06(木) 16:25:51.53ID:8UoLzWRo
>>736
×「束(そく。Latteice)から束への建艦」が、
〇「束(そく。Lattice)から束への変換」が、

HyperLisp とかいった、ちょっと古い処理系を
知ってるんなら、説明も楽なんだけど、
有限束から説明すると、半順序構造とか、
いろいろ面倒臭い話があるので、
このスレではパスさせていただく。
0738デフォルトの名無しさん垢版2018/09/07(金) 09:04:25.36ID:9e6p+l40
形態素解析は隣接関係だけで
記述できるからいいのだが、
構文解析となると「係り受けの関係
(の非・交差則)」と「文法格の
一意性」っちゅーのがあるので、
処理がワンランク複雑になる。
そうなると冨田法みたいに
スタックが乱立する(スタックが
分岐するので、「カクタス・スタック」、
直訳すると「サボテンスタック」という)
ので非常にややこしく、プログラムを
書くのがややこしい。
BNF で記述して LALR 法かなんか使って
コードに落としこもうとしても、日本語は
省略が多いうえに語順が不定なんで
うまくいかない。
しかたがないので、「なんか分かりやすいシェーマは
ないのか?」と考えたところ、二次元の表を使うことを
思いついた。そうなると、コンピュータ将棋のプログラムが
応用できそう(他の駒の利き筋を通過できないから、
実際はもっと簡単)な感じがしている。
0740Mr.Moto垢版2018/09/07(金) 13:54:16.41ID:9e6p+l40
>>739
トリップつけても忘れるんだよな (-_-!)
そもそも、アルゴリズムとかシステム・デザインとかに関する
知的所有権は保護されないし、企業に所属していると
「トレード・シークレット(業務上の秘密)」とか言われて
民事訴訟とか起こされても対抗する手段がない。
原告側(訴えた側)に対抗するには、被告側(訴えられた側)が
証拠を出して反証しないといかんのだが、証拠はたいてい原告側が
握っている。被告側が訴訟に勝てば訴訟費用は取り戻せる
建前にはなっているが、原告側が払ってくれるとは限らないし、
そもそもが「被告側に経済的な負担を与えるために、
金をかけてでも訴訟を起こす(これを SLAPP 訴訟という)」
場合もある。企業は「法人」といって人格権があるので、
企業が原告になることができる。で、倒産しちゃえば「原告が
死亡」したことになるので、けっきょく裁判はチャラになって
しまうので、「計画倒産と SLAPP 訴訟がワンセットで
襲ってくる」みたいなコトも往々にしてある。
で、日本の司法機関は、知的所有権にかかわる訴訟を、あまり
扱ったことがないので、最高裁まで争ってもマトモな判決が
出る可能性は乏しく(企業が個人を訴えた場合、「企業のほうに
理がある」と頭から決めつけるケースが多い。企業には顧問弁護士が
ついてくるが、個人が対抗して弁護士を雇おうとしても、そういう訴訟に
慣れた弁護士はなかなか見つからない)、途中で和解に持ちこもうとして
裁判官がゴネるケースが多々ある。
青色 LED の中村修二さんは、「けっきょく、裁判費用で結果的に
足が出た」とボヤいていらっしゃった。
0741Mr.Moto垢版2018/09/07(金) 14:01:02.08ID:9e6p+l40
そんなワケで、トリップは遠慮しとく。
おれに用があったら、アスキーの西さんとか、
おなじく出版技術部の TEX を維持してるチームとか、
インプレスの井芹さんとか、アップルの元「ことえり」の
チームとか、メタボール・アルゴリズムで有名な大村 皓一さんとか、
そのあたりの人に「JAI-Perser の開発者の
S さんという人に心当たりはありませんか?」と訊いて
もらえば、住所氏名電話番号メールアドレスくらいは
解るはずだ。
0742デフォルトの名無しさん垢版2018/09/07(金) 14:17:13.22ID:9e6p+l40
>>741
もっとも、西さんは井芹さんと塚本さんがアスキーを
退社してインプレスを立ち上げたために、ソフトウェア
開発部門が解散してしまったために VJE-β のチームが
解散したとか、井芹さんは会社を立ち上げたばかりで
企業体力がなかったので訴訟を避けたかったとか、
出版技術部はアスキーとインプレスの両方と
関連があったので JAIP プロジェクトとは距離を
置かざるを得なかったとか、「ことえり」チームは
ジョブスが不在だった時期で日本市場に力を入れる
余力がなかったとか、大村 皓一さんは もんたよしのり
とのコラボに関わったら芸能関係の その筋の方々と
モメて行方をくらましていたとか、いろいろと
薄らぐらい事情もあったので、逃げ出すかもしれんが。

いちばん捕まえやすいのは、農工大の小谷善行さんかな?
でも、パズル懇話会のときに、NHK−BS の『パズルへの招待』
の件で話しかけようとしたら、「所長の顔を見るなり逃げ腰に
なっていた」という話を聞いたこともあるしなぁ(笑)
0743Mr.Moto垢版2018/09/07(金) 17:57:59.51ID:9e6p+l40
板違い(本来はム板ではなくてマ板の話題)であり、
スレ汚しでもあり(日本語処理そのものとは、あまり関係がない)、
ひとり語りになってしまう(けっこう長い話なので)のだが、
勘弁してくれい。

時は一九八十年代半ば、まだ代表番号の末尾が「1」だった
時代(電話交換機が、電子交換機ではなく、クロスバー交換機
であり、ステップ・バイ・ステップ交換機が残っていて、
電話回線がトーン回線だった頃)に、現在のファクシミリみたいに
音声回線でデータ通信を行なっていた時代の話である。
通信速度は、300 bps とか 600 bps とか 1200 bps とか 2400 bps
とかだった時代である。
0744Mr.Moto垢版2018/09/07(金) 18:12:14.44ID:9e6p+l40
当時、「草の根 BBS」という「アコースティック・モデム+
音声回線」による電子掲示板が、ちょっとしたブームに
なっており、SONY からも BBS 電話が発売されたり、
アーサー・C・クラークの「二〇〇一年」の続編
にあたる「二〇一〇年」製作にあたって、原作者の
クラークと監督のピーター・ハイアムズがワープロを
使って交信していたり(『オデッセイ・ファイル
― アーサー・C・クラークのパソコン通信のすすめ』と
いう本になっている)していたので、うちの
所長は PC-98 とヘイズ規格の AT モデムを使って、
BBS のホストシステムを構築したそうだ。
0745Mr.Moto垢版2018/09/07(金) 18:18:47.66ID:9e6p+l40
MS-DOS はシングルタスクなので、回線が(不用意に)
切れたときの対処が難しい。しょうがないので
上のプログラムから下のプログラムを起動し、
回線が切れたら下のプログラムが落ちて上のプログラムに
制禦が戻る、という形になっていた。
そうしたら、所長の後輩の HASH くんが、「OS/9 は
マルチタスクですよ wwwww」と言って、FM-11/AD2+
と OS/9 を使って BBS のホストシステムを作ってしまった。
のちに、ANA かなんかが同じ構成で航空券の予約システムを
構築したらしいが、関連があるのかどうかは知らない。
0746Mr.Moto垢版2018/09/07(金) 18:25:49.48ID:9e6p+l40
時は移って大喪の礼の当日である。
世の中が静まり返っている休日だが、
同じころに「マンガの神様」である手塚治虫
さんも亡くなっていた。そこで、ネットで
知りあったHASH くんを交えたハッカー四人が
「手塚アニメ追悼上映会をしよう」というので、
HASH くん宅に集まった。
そのとき、『ToolBox 100 の定跡』の小池 邦人さんが
そこに加わっていた。
0747Mr.Moto垢版2018/09/07(金) 18:30:12.54ID:9e6p+l40
じつは、そのとき小池さんがそこにいたと
いうことを、所長はすっからかんに忘れて
おり、後にそれを小池さんに言われて大いに
狼狽した、という話を聞いている。
で、「Mac の ToolBox には、ISAM
(順編成索引つきファイル)が入っている」
という話があったらしい。その話は所長も
憶えていないという。
このあたりから、自然言語処理の話になる。
0748Mr.Moto垢版2018/09/07(金) 19:28:19.24ID:9e6p+l40
当時、Macintosh は高価だった。そんなわけで、
グァム島とかハワイとかに、観光ついでの
Mac 買い出しツアーとかがあった。
ところが、問題なのは、マニュアルが英語で
あることのである。電子データでそれなりの
情報は入ってくるのだが、困ったことに、
専門用語交じりなのである。
This is a Pen とか I have an apple. なら
分かるのだが、コンピュータ関係の専門用語は、
そこいらの辞書には載っていないのだ。
しかも、辞書を引くのはめんどくさい。
「コンピュータ関係の専門語だけでも
辞書引きをやってくれるような、
お手軽なシステムはないのか?」
という話になった。
0749Mr.Moto垢版2018/09/07(金) 19:33:45.67ID:9e6p+l40
「なんとかならんか?」
「簡単だよ。ISAM 載ってんだろ?」
「だって、ISAM は完全一致だろう?
語尾が変化したら一致しないんじゃないか?」
「変化しそうな部分を取っちゃってから
検索すればいい。坂井 利之先生の
『翻訳するコンピュタ ー 情報革命と
語学の壁に挑む』(講談社ブルーバックス)に
書いてある」
「だけど、一致しても、複数の候補がヒット
しちゃうだろう」
「大した数じゃねぇから、一個一個チェックすりゃあいい」
0750Mr.Moto垢版2018/09/07(金) 19:39:36.52ID:9e6p+l40
「…… だけど、末尾から語尾を削ったら
本体がなくなっちゃったらどうする?」
「ヌルストリングはキーにならないのか?」
「― なるな。じゃあ、そういうプログラム書けるか?」
「書こうか?」
というので、辞書引きツール “rStone” というツールがで
きた。最初は「ロゼッタ・ストーン」という名前にしたのだが、
なんか商標登録の関係で引っかかった、という。
0751Mr.Moto垢版2018/09/07(金) 19:44:14.38ID:9e6p+l40
rStone は、“BeerWare” として配布された。
「使って、気にいったらビール券を送ってこい」。
そうしたら、ユーザから、「正式に製品化して
サポートしてくれ」という話になった。
当時は知的所有権関係の法整備が進んでいなかったので、
しょうがないから、当時勤務していた企業から
製品としてリリースすることになった。
0752デフォルトの名無しさん垢版2018/09/07(金) 19:49:00.16ID:9e6p+l40
rStone は、売れた。
そうしたら、会社が「英和があるんなら、
和英が欲しくなるよな?」と言いだして、
たしか四か月くらいかけて、「日本語の
形態素解析システムを搭載した、日本語の
漢字かな交じり文/かな表記文両用の
辞書引きシステム」を開発した。
このあたりの話は面白いんだが、長くなるので省略。
あっちゃこっちゃに書いているので、たぶん
自然言語処理をやってる人間なら知ってると
思う。
0753Mr.Moto垢版2018/09/07(金) 19:54:11.64ID:9e6p+l40
この、「rStone 和英版」(rStone-JE)は、
C 言語で記述されていて、中身は再帰呼び出し
を使った木探索プログラムだった。
これが非常にめんどくさい。人工知能システムでいう
プロダクション・システムで、IF 〜 THEN 〜 ELSE が
延々と続く砂漠のようなコードであり、しかも相互に
影響しあっているので、メンテナンスが大変なんである。
そういうわけで、「こんなんやっとれるかぁ!」と
所長がキレた。
0754Mr.Moto垢版2018/09/07(金) 20:03:55.18ID:9e6p+l40
で、「文法記述用のスクリプト言語」
「プロダクション・システム駆動用の
チャート法エンジン」
「辞書管理用のツール群」
を統合したシステムをインプリメントした。

このあたりから、アスキーの VJE-Pen の
開発チームおよび出版技術部の TEX 維持チーム、
それにアップルコンピュータ・ジャパンの
「ことえり」開発チームとのコラボレーションが
始まった。

こっから先は、商売がらみのすったもんだの
話になるので、本スレの趣旨に合わない。
そんなわけで、この件はここで終わり。
辞書管理の労苦とか、形態素解析システムと
構文解析システムとの統合、みたいな技術的な
話は、興味があったら随時質問してくれ。
0756Mr.Moto垢版2018/09/08(土) 03:56:49.86ID:Hj3WpMqo
ここで、自然言語処理における
形態素解析システムについて、
あらためて考えよう。
「日本語の(構文文法未満の)文法は
{始点属性、マッチング文字列、終点属性}という
三つ組みデータで記述できて、チャート法によって
処理できる」ということが謂える。
で、ここから「日本語でなくても、同じことができる」
が謂える。
つまり、「同じシステムで、ローマ字かな変換も
できてしまう」。数学者の島内 剛一先生による
ローマ字かな変換は、そのまんま記述可能で、
あっさり動いた。
0757Mr.Moto垢版2018/09/08(土) 04:09:17.50ID:Hj3WpMqo
つぎに、「経路探索ができる」というのも指摘しておこう。
共立出版のコンピュータ・サイエンス専門誌『bit』の
『ナノピコ教室』に「十三階段への道」という問題が出た。
十三階段を上るのに、「一歩で一段」「一段抜かしをして、
一歩で二段」「二段抜かしをして、一歩で三段」の三通りの
やりかたがある場合に、「十三段を上がるのに、何通りの
やりかたがあるか、という問題である。
この問題は、要するに、“*”、“**”、“***” という単語が
あったとして、"*************" は何通りの表し方が
あるか、という問題に帰着する。「すもももももももものうち」
を「李(すもも)」「桃(もも)」「酢(す)」「藻(も)」
「も(助詞)」「の(助詞)」「内(うち)」で表すやりかたの
候補を全部挙げろ、と言ってるのと同じことなのだから。
0758Mr.Moto垢版2018/09/08(土) 04:15:51.99ID:Hj3WpMqo
「かな漢字変換システムは間に合っているし、
パズルにも興味がない」という人は多いだろう。
とはいえ、このスレは自然言語処理スレッドなのである。
そうすると、当然のように辞書は使ってるよな?
で、その辞書は たいていテキストの形で持ってるよな?
(中には「DBに入れてる」という人もいるだろうが、
出力することくらいあるだろうから同じだ)
そのとき、順番はどうなるか。単語とえば読みがなの順で
出力したいときに、どうやって整列させたらいいのか。
0759Mr.Moto垢版2018/09/08(土) 04:26:13.30ID:Hj3WpMqo
このとき、読みがなをキーにして単純に整列してしまうと、
うまくない。文字コードの大小で整列すると、普通の
紙の辞書の見出し語順にならない。
「蚊」「蛾」「梶田」「鹿島」が「か」「かしま」
「が」「かじた」の順になる。こうなると、データと
紙の辞書を突き合わせるのが非常にめんどくさい。
そうなると、「辞書順にソートするのに必要な比較関数」
(要するにコンパレータ)を書きゃあいいじゃねぇか、
という話になりそうだが、実際にやると大抵失敗する。
順序関係が循環して、整列が終わらなくなる。
じゃあ、どうするか、だ。
0761Mr.Moto垢版2018/09/08(土) 04:42:26.70ID:Hj3WpMqo
辞書を出版している出版社や、ビジネスソフト
(顧客名とかでソートすることだってあるだろう)を
開発している会社ではどうやっているのか、といえば、
「読みがなから、整列用のキー文字列を生成する」
という手法を用いている。このキー文字列で辞書順
整列ができてしまう。
このとき、生成する文字列はふたつ。AとBを
生成したとして、Aのあとに読み仮名のコードよりも
小さい文字をくっつけて、Bにくっつける。なお、
Shift-JIS と UNICODE では、かなと記号の
位置関係が違うので、注意すること。
で、この「整列用のキー」の生成に、やっぱり
先の形態素解析エンジンが使えてしまう。
JUMANだの茶筅だのといった
形態素解析システムを使っていても、この手の汎用の
ツールはひとつ持っておくと便利だ。
0762Mr.Moto垢版2018/09/08(土) 04:55:41.18ID:Hj3WpMqo
>>760
「その先」っていうと、
形態素解析の応用面(論文の内容の比較とか
著者の推定とか)とか実際の成果(今までに
どんな結果を出したか)とか?
でなかったら、そのベースになるシソーラスの
構築のしかたとか?
それとも構文解析とか意味表現とか?
いろいろあるけど、どっから始める?
「他のアプリケーションとの連携はどうする?」
とか言われると、「そこいらは相手先との関係を
どうするか」とかいった生臭い話も絡んできて
このスレの趣旨と外れちゃいそうだから
どこまで書けるかわからんが (^_^!)。
0763デフォルトの名無しさん垢版2018/09/08(土) 05:14:06.40ID:xpw/+eIi
>>762
釈迦に説法かもしれないけど大きく分けると解析は
形態素解析、構文解析、意味解析、文脈解析が四つで
そのうち形態素と構文は方法論が固まって来てるけど
意味と文脈の解析が難しいとよく言われているよね

そこで意味解析と文脈解析の方向性が知りたいな

あと解析の話は多いけど文生成の話が少ないので
単に逆の処理するだけでもないだろうし生成の話も
0764Mr.Moto垢版2018/09/08(土) 05:31:32.26ID:Hj3WpMqo
>>763
> 意味解析と文脈解析の方向性が知りたいな
了解した。たしかにそのあたりは急所だ。
まず、「文章」の基本要素は「文」だ、というのを
納得してもらおうと思う。
英語(英文法)だと「単文」「複文」という区別があって、
「動詞」が文の中核にある、というのが常識として
通用しているけれど、日本語(日本の国語教育)の場合、
その部分が強調されることって、あんまりないでしょ?
おそらく、それが英作文や英文和訳のときの大きな
壁になっていると思うんだ。
だけど、日本語においても(というか、おそらくは
世界中の言語で)、言語表現・意味における中核は
「文」あるいは「述語(動詞、形容詞、コピュラ)」
なんだと思う。
0765Mr.Moto垢版2018/09/08(土) 05:36:05.10ID:Hj3WpMqo
ちょっと余談になるけど、「カタストロフィ理論」で
有名な数学者のルネ・トムという人は、この「述語(verb)」
のことを「原始文章」と呼んでいて、そこからさらに踏み込んで
「初等カタストロフィ集合に “切断” という操作を行なうことで、
原始文章のタイプ分けができる」とまで言ってる。で、日本の
自然言語処理の草分けである長尾真先生が、論文のタイトルの
構文構造を型分けしていったら、やっぱり十いくつかの型に
分類できちゃった、ということを仰っている。
0766Mr.Moto垢版2018/09/08(土) 05:45:19.67ID:Hj3WpMqo
で、「文」というのは、化学における「原子」に
相当するものと考えると都合がいい(「文法」は
形のあるもんじゃないから、脳味噌を引っ搔き
まわしても出てこないので、「(実用的な意味で)
都合がいい」としか謂えない)。
この「文」の中には「述語」が一個だけあって、
この述語から見た「体言(「もの」というか「存在」というか)
の関係」というのが、「格(文法格)」だと考える。
たとえば、述語「食べる」は少なくとも「誰が」と「何を」と
いう格を “要求” する。
0767Mr.Moto垢版2018/09/08(土) 05:51:21.34ID:Hj3WpMqo
この、「述語が要求する格」は複数あるわけだが、
それぞれの格の対象は、それぞれ1つしかない。
難しくいうと、「述語は格を一意に要求する」。
「私はラーメンを餃子を食べた」は「何を」が二個あるから
文法的に正しくなくて、「私は “ラーメンと餃子” を食べた」は
「何を≡{ラーメン&餃子}」だから文法的に正しい、とかいった
話になる。
0768Mr.Moto垢版2018/09/08(土) 05:56:27.08ID:Hj3WpMqo
複数の文が、格を付与された体言を共有することで、
結合することがある。これは化学でいう共有結合
みたいなもので、その結果として「分子」にあたる
「複文」ができる。
「俺が頼んだラーメンを食った奴は誰だ?」は、
「俺」が主語である述語「頼む」と「誰か」が主語である
述語「食う」が、体言「ラーメン」を介して結合したものと
考えられる。
0769Mr.Moto垢版2018/09/08(土) 06:08:51.61ID:Hj3WpMqo
こうしてできた文(単文あるいは複文)を
接続詞によって繋げてできたものが「文章」で
あり、「文がどのように繋げられているか」
が「文脈」になる。
「ラーメンは食べるが、餃子は食べない」は
「ラーメンは食べる。しかし餃子は食べない」と
同義であり、その関連を示すのが「が」「しかし」
であるという解釈である。
日本語には「のに」「ので」「にもかかわらず」
「けれども」など、いろいろな「接続助詞」「接続語」
があるが、文単位の形態素解析ができれば、与えられた
コーパスデータから、自動的に抽出できる。
同時に、接続助詞や接続語が出てきたら、そこで文が
区切られているので、述語と格の関係はそこで切れて
いるとみなせる。
ただし、この場合後の文には省略がある場合が多いので、
その部分を補う必要がある。
「僕はタケノコは食べられるが、シイタケは食べられない」は
「僕はタケノコは食べられるが、(僕は)シイタケは
食べられない」の省略表現だと考えないと、構文解析処理が
と文脈解析処理がこんがらかって、ややこしい話になる。
0770Mr.Moto垢版2018/09/08(土) 06:22:14.14ID:Hj3WpMqo
>>763
> 文生成の話
文生成の場合は、
「〔引き続く動詞が要求する格を持った体言列(助詞つき)〕
+〔動詞(連体形)〕〔まだ使ってない格を持った体言〕」
の形で接続してゆけば文(単文または複文)が生成できて、
〔前置詞〕+〔文〕+〔終助詞〕とするか、
〔前置詞〕+〔文〕+〔接続助詞〕+〔文〕…… と
するとかして(同時に前置詞のかわりに接続詞を
使うとかして)、文を生成してゆくと、一応の文生成はできる。
ただし、時刻とか場所とか方法とかといった「格を持たない体言」
(これを、個人的に「相」と呼んでいる)とか、「さっぱり」「めっきり」
のような連用修飾詞(動詞・形容詞の連用形もここに含めちゃっていい)
とかも適宜織り交ぜると、より「それっぽい」文章が生成できる。
0771Mr.Moto垢版2018/09/08(土) 06:30:31.50ID:Hj3WpMqo
>>770
日暮しマシンに向かい、頭に思いつく文生成プログラムを
夢中になって書き作り動作させれば、怪しうこそ もの
狂おしくなって、「馬鹿だ。こいつ馬鹿だ」とマシンを指さして
ゲラゲラ笑うプログラマこそ哀れなり。
橋田浩一さんとか松原仁さんとか筒井康隆さんとかは、
こういうの好きなんだよな。
0772Mr.Moto垢版2018/09/08(土) 07:42:41.71ID:Hj3WpMqo
これは自然言語処理というより国語学や
言語学に類する話題なのでスレチなのだが、
日本語処理の応用に関わってくるのでコメ
しておく。
たとえば「激しい雨」と「激しく降る雨」と
「豪雨」は同義だが、「降る」という述語が
出てくる場合と出てこない場合があるということを
どう解釈するか、という話がある。述語があると
ないでは、データ構造のレベルで違う、という
話になるからだ。
また「両国橋を渡る」「隅田川を渡る」「広小路から
向こう両国に渡る」は物理的な解釈としては同一
なので同義であるとみなせる(こういう立場を
外延主義という)が、「それって本当に“意味”って
謂えるのか?」という指摘が坂井寿秀先生などに
よって指摘されている。つまり、「明けの明星」も
「宵の明星」も実体(外延)としては「金星」なの
だから、「明けの明星は金星である」と「金星は明けの
明星である」と同義(単なるトートロジー)という話に
なるわけだが、そうすると「明けの明星は宵の明星
である」もまた同義ということになり、「それって
変じゃねぇか?」ってな話になる。
0773Mr.Moto垢版2018/09/08(土) 07:48:22.76ID:Hj3WpMqo
坂井先生は、「外延的な形容詞」というものが
あるのではないか、という指摘もなさっている。
「その馬は白い」「馬は哺乳動物である」から
「その哺乳動物は白い」を推論するのは妥当である。
ところが「その鼠は大きい」から「その鼠は
大きい哺乳動物である」を推論するのは妥当ではないし、
「その象は小さい」から「その象は小さい哺乳動物である」を
推論するのも妥当ではない。
したがって、「白い」と「大きい」は、別種類の形容詞と
考えざるをえない、という指摘である。
0774Mr.Moto垢版2018/09/08(土) 08:07:40.34ID:Hj3WpMqo
で、こういう基本的な部分をうっちゃったまま、
適当なコーパスをありもののライブラリで
形態素解析し、その結果を
ありものの統計処理パッケージでいじくって、
自然言語処理がどうのこうのとか
日本語処理がどうのこうのとか
偉そうに言っている自称・研究者を見ると
顔面を二三発張ってやるのも功徳では
ないだろうかと思う、と所長に言ったら、
「手が汚れるし、怪我をされても面倒だから、
尻でも蹴飛ばしてやったほうがいい」と
真顔で言われた。
0775Mr.Moto垢版2018/09/08(土) 08:48:33.23ID:Hj3WpMqo
鬱憤が溜まっているので剣呑な話になってしまった。すまんm(_ _)m

>>773 の形容詞の区分についてだが、おそらく形容詞
のみならず連体修飾詞全般にいえるのは、連体修飾詞には
「集合から部分集合を切り取る」という作用があるのでは
ないか、ということだ。すなわち、「大きい」は、いま目の前に
ある対象としての集合から、「大きいものの集合」を切り取る作用が
あるのではないか、ということだ。
鼠集合から切り取られた集合と、哺乳動物から切り取られた集合は
異なっているので、「大きい鼠は、必ずしも大きい哺乳動物だとは
謂えない」。
また、その「切り取る」操作が、「切り取られる対象」によって
規定されるということも指摘しておきたい。
「赤いミカンは赤い」し「赤いリンゴは赤い」のだが、
赤いミカンは蜜柑色だし、赤いリンゴは普通に赤い。
この場合、「未熟な⇔完熟した」という評価の軸との
関連において評価する必要がある。
0776Mr.Moto垢版2018/09/08(土) 08:57:47.30ID:Hj3WpMqo
「もの」という言葉が出たついでに言っておくと、
ここでいう「もの」は“individual”、すなわち「不可分なもの。
個人、個体、個物」を意味する。れっきとした哲学用語だ。
ただし、これは「物理的な存在」ではなく、「概念」を
指していて、しかも「具体的な意味」「内包的な意味」を
持たない。その意味で、individual は「意味を引っ掛ける釘」の
ようなもので、「こっちの釘とあっちの釘は、どこがどう違うと
言われても説明できない。ただ、引っかかっている意味が違うし、
比較によって区別できる」ものである。
同じような性質をもった存在として、Codd のデータベース理論における
データベース・キーというものがある。
0777Mr.Moto垢版2018/09/08(土) 09:11:20.12ID:Hj3WpMqo
individual の訳語としては、「もの」が使われることが
ままある。馬場あき子『鬼の研究』によれば、「鬼」
には「もの」の訓があるという。意味としては「物
狂おしい」「もののけ」の「もの」に相当する。
そんなわけで、自然言語処理の研究者の間では、「仮にこっちの
“もの”を『白うるり』とします。で、こっちの“もの”を
『ももんがぁ』とします」「その場合、二つの存在の関係と
『ひょうすべ』と『ぬらりひょん』の関係が相同であるとすると、
その意味の差を求めるためには、どの程度の計算量が見込まれるか、
という話になりますよね?」みたいな議論が真顔で行われる、
ということになる。
0778Mr.Moto垢版2018/09/08(土) 09:19:35.34ID:Hj3WpMqo
>>777
このあたりの議論は、すでにルイス・キャロルが
『論理ゲーム』(『不思議の国の論理学』に収録)の
中でおこなっている。「念を押すが、筆者は前提が
“事実”であると保証してはいない。だいいち、
筆者はドラゴンを見たことはない。(中略)われわれの
義務はただ、前提が“論理的に結論につながるかどうか”を
理解することのみであり、したがって、かりに前提が真
ならば結論もまた真だということになるだろう」。
0779デフォルトの名無しさん垢版2018/09/08(土) 15:30:36.82ID:zV65OeMj
日本語の細かい文法ルールにお詳しいみたいだけど、「そもそも日本語に文法などあるのか?」と思わざるを得ない
10〜20代の若い連中がTwitterで書き散らしてるような文章はそれ自体「新しい言語現象(文法)」であって、仮に「これが正しい日本語文法でござい」とルールベースのエンジンを作り上げたところで、どんどん出てくる新しい文法には無力だと思うわけだが。
そこについてどう考えているの? 日がな一日Twitterを監視して新しいルールを追加し続けるのか? それってあんたが >>753 で書いた「こんなんやっとれるかぁ!」的な作業と何が違うんだ?

それがわかったからこそ、個別のルールに固執することはやめて、みんな「形態素解析の結果をありものの統計処理パッケージでいじく」るようになったんでしょ。
そのほうが精度も高いし。
0780Mr.Moto垢版2018/09/08(土) 15:45:22.51ID:Hj3WpMqo
>>779
> どんどん出てくる新しい文法には無力だと思うわけだが。
日本語は、古事記・日本書紀の時代から千年以上使われており、
しかも南北に長いので、沖縄首里方言と標準語の間には、
英語とドイツ語くらいの差(だいたい千五百年くらい)の
距離がある。薩摩弁と津軽弁もそのくらいの差があり、
平安時代の文芸と、現在の東京弁もそのくらいの距離がある。

だけど、それは全部ひっくるめて「日本語」なんだよ。

で、日本語を日本語たらしめているのは、「日本語の文法」なんだ。
だから、「およそ日本語であるならば、時代だろうが地域だろうが、
全部ひっくるめて処理してやろーじゃねぇか!」っつーんで開発
されたのが JAI-Parser なんだ。
千年ちょっとの些末なバリエーションなんぞは、
スクリプトと辞書で吸収できるんだよ。ふん。
0781Mr.Moto垢版2018/09/08(土) 16:17:16.96ID:Hj3WpMqo
コンピュータ・サイエンス誌『bit』(共立出版)、
一九九二年十二月号、p.52
『汎用日本語解析系の試作 ― 形態素解析コンパイラ・コンパイラの
試作をめぐって』を読んでくれたまえ。
「よろしい、何とかしましょう。それも、個別にではなく全部まとめて
面倒をみましょう。かな漢字変換も、漢字かな交じり文の解析も、
現代文も文語も方言も、ひっくるめて処理してみせようではありませんか。」
と、大見得を切っちゃった(つーか、実装しちゃった)んで、現在の
ようなコトになっとるわけだ。
当時のシステムはフツーの C 言語で実装されていたので、
メモリリークやらワイルドポインタの都合で動作が不安定
だった(Mac の C は、文字列がハンドル表現だったので、
なんとか実アプリとして安定動作してた)のだが、
二十一世紀に入ってから(山之内製薬と藤沢薬品工業が
合併して、アステラス製薬になるちょっと前ごろ) Java に
移植したらサーバ上で安定動作するところまで持ってゆけた。
0782Maria垢版2018/09/08(土) 16:29:21.50ID:Hj3WpMqo
なお、日本語の文法には、三回ほど大激震が走って
いるのが確認されています。
一回めは、上代特殊仮名遣が用いられなくなって、
母音の数が減っちゃったこと。
二回めは、動詞の末尾音として使われていた h 音が
消失して、新たに a・o・u 音が採用されたために、
動詞の活用と指標音の対応が崩れちゃったこと。
三回めは、動詞・形容詞の終止形が廃れてしまって、
「連体形の終止用法」が定着しちゃったこと。
一回めの変化は、大野 晋先生のお師匠さんである
橋本進吉先生によって発見されました。
で、JAI-Parser を使って二回めと三回めの変化を発見・
検証したのは、うちらだょ〜ん。
0783Mb垢版2018/09/08(土) 16:38:04.08ID:Hj3WpMqo
>>779
今カラデモ遲クナイカラ原隊ヘ歸レ
オ前達ノ父母兄弟ハ國賊トナルノデ皆泣イテオルゾ
0784デフォルトの名無しさん垢版2018/09/08(土) 18:39:54.70ID:RrQSE86D
八重山
0785Mb垢版2018/09/08(土) 20:02:57.01ID:Hj3WpMqo
>>484
> 八重山
そっちは 5.15
こっちは 2.26
0787763垢版2018/09/09(日) 06:27:48.80ID:O317ycPa
>>769
御説拝聴したので私の所見も述べるよ

>「文がどのように繋げられているか」が「文脈」になる
自然言語(日本語)の「文脈」には
引用のように言語処理の文脈で使われる
「文の組み合わせ」の意味のほかに
「文章外の情報」がある

>構文解析処理がと文脈解析処理がこんがらかって、ややこしい話になる
ただ本当は、この文章外の情報も取り込んだ上で
解析する必要があるのだと私は思う
人間は自然にそうしてるから

しかしソレをやり出すと人間の常識には際限がないので
フレーム問題のようなものに突き当たって
頓挫してしまったのが昔のAIブーム(の挫折)だと捉えている

そしてそれを打開するには新しい流行の機械学習と結びつけて
自動的に人間の知識を学習させて
人間が自然に持っている常識を身につけさせる必要があると私は考える
0788763垢版2018/09/09(日) 06:36:07.29ID:O317ycPa
>>770
>文を生成してゆくと、一応の文生成はできる
>適宜織り交ぜると、より「それっぽい」文章が生成できる

文章解析の意味解析と文脈解析の難しさは
文章生成にも必ず出てくるはず

文法通りに生成するだけで
意味は「それっぽい」だけの文章というのに
私はすごく不満を抱いている

>>771
つまるところ現在の大半の文生成とは
意味が分からないままランダムに言葉を組み合わせる
人工無能のレベルにあって
それを人間があえて意味を解釈する面白さはあるにせよ
やはり人工知能としてはもの足りない

人工知能としての自然言語処理を目指すのであれば
まず表現すべき意味や文脈もしくは意図を持っていて
それに沿った表現を組み立てていくべきだと私は考える

しかし意味や文脈にはさっきと同じフレーム問題のような
袋小路が待ち受けているのでやはり機械学習の
ブレイクスルーなど何か画期的な解決の糸口は必要だろう
0789デフォルトの名無しさん垢版2018/09/09(日) 06:53:27.52ID:SSGV4TJO
構文解析をやっていると、「やっぱり文法や形態素解析の知識は
必要だな」と思う。
「なぜ」が連用修飾詞であるとか、「ません」が連体修飾詞で
あるとかいった視点がないと、構文解析の結果が交差してしまって、
支離滅裂になる。
0790Mr.Moto垢版2018/09/09(日) 07:21:35.69ID:SSGV4TJO
>>787
すまん (^_^!) そういう意味での「文脈」に
ついては、その処理に至る以前に
超えなきゃいけない壁があって前に進めない。
言語はそもそも時系列の発話なり表記なりが
ベースになっているので、「通信」としての
性格がある。したがって、「速度」と「信頼性」の
両方に配慮する必要がある。
大野晋先生が『日本語の文法を考える』で述べて
いらっしゃるように「未知のことだけを伝えれば足りる」
ので、そこに「省略」が生まれる。ただ、その前提として
「相手にとって何が既知で、何が未知か」ということを
「理解」していなくてはいけない。そのため「省略」と
「理解」は不可分なので、扱いが難しい。
0791Mr.Moto垢版2018/09/09(日) 07:31:45.01ID:SSGV4TJO
それに対して、「精度」を上げることはそれほど難しくなく、
語彙的な対応によって対処できる。
看護師が「清拭(せいしょく)」を「せいしき」と言うのは
生理的食塩水(生食:ナマショクではなくセイショク)と
間違えないためだ、という。
また、早稲田大学の竹本先生は能の作者推定に取り組んで
いらっしゃったが、「枕詞」の選び方に作者の個性が
出るとおっしゃっていた。「あしびきの」⇒「長い」、
「たらちねの」⇒「母」のように、「前振りをすることで、
意味を取りちがえないようにする」というのが枕詞の
機能だ。
ただ、「速度」と「精度」の間にはトレードオフの
関係があるので、そこにも困難がある。
0792Mr.Moto垢版2018/09/09(日) 07:48:52.92ID:SSGV4TJO
これとは別に、「制禦」「意図」という
視点がある。なぜシステム間で通信が
行なわれるのかというと、話者システムが
聞き手システムを、情報を伝えることで
制禦したいという意図があるからだ。
その制禦のための通信プロトコルが
文法だということになる。
この意図のありかたも、「学ぶ」
「命令する」「交渉する」といろいろ
あるので、それをどう扱うか、という
課題もある。
0793Mr.Moto垢版2018/09/09(日) 08:06:26.35ID:SSGV4TJO
そんなわけで、
>>788
> 意味や文脈にはさっきと同じフレーム問題のような
> 袋小路が待ち受けているのでやはり機械学習の
> ブレイクスルーなど何か画期的な解決の糸口は必要だろう
に関しては、意味表現が整備されてから、意味データベースを
構築する際には重要になると思う。
ただ、それ以前に「人間のモデル化」が壁として立ちふさがって
いると考えている。
当面の目標は、「漫才ができるシステム」だな。

『アンドロイドは電子漫才のオチで笑えるか?』
0794Maria垢版2018/09/09(日) 08:14:33.32ID:SSGV4TJO
>>789 でも述べられていますが、
形態素解析から構文解析に至る過程で、
「語順と省略」に関する問題があります。
ただ、この点に関して、自然言語処理
(日本語処理)の研究者は、ほとんど注意を
払っていません。たとえば、
「象は鼻が長い」は、「象は長い鼻の動物だ」と
同義である、とわれわれは考えていますが、「鼻」
強調された結果として語順が変わり、「動物だ」が
省略され、「象は動物の一種である」という「常識」が
要求されています。
にもかかわらず、形態素レベルの「象は」「鼻が」「長い」に
関してしか議論されていないのが、自然言語処理の停滞の
大きな原因だとわれわれは考えています。
0795Mr.Moto垢版2018/09/09(日) 08:35:14.42ID:SSGV4TJO
>>793
「ゾウムシの鼻が長いのに、コクゾウムシの鼻が
長くないのはなぜか?」
「ゾウムシは『象虫』ですが、コクゾウムシは
『穀蔵虫』だからです」
「なるほど」
「なお、ゾウムシは『ゾウのように鼻が長い』のではなく、
『長い口吻が象の鼻のようだ』から、ゾウムシと呼ばれます。
熱帯魚のエレファントノーズも同様です」
「ありがとう。」
これくらいのシステムであれば、現在の技術で充分に
可能だと思うんだが。
ついでながら、文語文は記述精度が高いので、いわゆる
標準語よりも生成が楽だ。その意味では、コンピュータとの
インタフェースには、「けいはんな方言」(京都弁でも
大阪弁でも奈良弁でもない、中途半端なエセ関西弁)が
向いていそうに思う。
0796Maria垢版2018/09/09(日) 10:49:17.38ID:SSGV4TJO
たとえばの話、「義務教育」というのは、
「子供が教育を受けなければならない」という
“子供に対しての”義務ではなくて、保護者が「(子供を単純労働者として
搾取するのではなく)子供に(国政を預かる選挙民と
しての)教育を施さなければならない」という
”保護者に対しての”義務であり、それはすでに「大日本帝国憲法」において
普通選挙制の採用という形で明記されているんですが、
そこいらの話は、自然言語処理の「自称・研究者」は
あらかたスルーしてます。

それでも国から予算もらって研究できるんだから、
いい暮らししてらっしゃいますね(笑)
0797デフォルトの名無しさん垢版2018/09/09(日) 11:00:00.30ID:SSGV4TJO
ところで
0798Mb垢版2018/09/09(日) 11:02:04.96ID:SSGV4TJO
ところで >>507 以前の連中は何をしているんだ。
まともに喧嘩売ってこい。
0799Mb垢版2018/09/09(日) 11:03:07.70ID:SSGV4TJO
>>797 は誤爆だ。すまぬ。
0800Mb垢版2018/09/09(日) 11:15:47.85ID:SSGV4TJO
>>779
> 「そもそも日本語に文法などあるのか?」と思わざるを得ない
とか言ってる奴がまだ生存してるんだなぁ ……
「日本語は非・論理的だ」みたいなことを言ってるやつも
いたし、「日本語を廃止してフランス語を国語として採用しよう」
とか、「かな文字の使用をやめてローマ字表記にしよう」とか、
昔はいろいろあったらしい。漢字も、連合軍が「廃止したいけど、
いきなり廃止しちゃうと不便だろうから、とりあえず、
しばらくの間は使っていいよ」というので「当用漢字」と
いうのが生まれたわけだし。
ここは自然言語処理に関するスレで、いちおう日本語処理が
このところの話題になっている(せいぜい七月の上旬からだ)
のだから、素直に「このあたりに疑義がある。答えろ」くらいの
ことは言っていいと思うんだが、どうだろう。
0801デフォルトの名無しさん垢版2018/09/09(日) 15:11:46.35ID:SSGV4TJO
そういえば、
助詞「が」の用法について、大野晋先生に
「とりたて詞の『が』と、所属の『が』」を
ごっちゃにして喧嘩売ってた奴がいたけと
思うんだけど、その後どうなったんだろうかな?
つーか、誰だっけ? 誰か知ってるヒトいる?
「鼻が長い」の「が」と、「我が家」の「が」は、
同表記だけど意味が違う、というのを納得できなくて
大野晋先生に延々絡んでたヒトがいたと思うんだが、
だれか名前を憶えていないか?
0803デフォルトの名無しさん垢版2018/09/09(日) 16:39:12.45ID:SSGV4TJO
>>802
おれは そんな安い真似はしない。
名詞の結合の「と」と文の順接の「と」を
ごっちゃにしたりはしない。

たしか『文藝春秋』みたいな厚い月刊誌で
やってたように思うんだが、ネット検索では
引っかからないんだよ。
0804デフォルトの名無しさん垢版2018/09/09(日) 21:49:22.25ID:v6sgqCEe
『その日は朝から夜だった!』(嘉門達夫)

○その日は朝から夜まで仕事だった
✕その日は朝から夜だった
0805デフォルトの名無しさん垢版2018/09/09(日) 21:53:40.10ID:v6sgqCEe
【新聞配達店で面接したこと】
店長『では明日、朝の三時からということで。』
俺『朝の三時ってまだ深夜では?』
店長『あなた帰っていいです!』
0806デフォルトの名無しさん垢版2018/09/10(月) 05:14:44.10ID:YCqssu0J
>>805
むしろ
> あなた帰っていいです
の解析のほうが意味的には難しそうに思う。
〇 さっさと帰れ
× あなたは帰ることを許可されています
0807デフォルトの名無しさん垢版2018/09/10(月) 05:43:52.77ID:YCqssu0J
あとは「ありえない」「できない」も、
発話者の意図によって意味が違ってくるうえに、
しばしば責任問題みたいな社会的行動に
かかわってくるので、「どういう意図で言って
いるのか」を明確にしてほしいと思うが、
「そこを明確にしちゃうと不都合なことになる」と
いう話者の意図が反映されていたりするから
始末におえない。
0808デフォルトの名無しさん垢版2018/09/10(月) 06:04:08.54ID:YCqssu0J
いわゆる「うなぎ文」も、「誰に向かって
言っているのか」が、解釈に影響する。
客が二人連れの場合、
「僕は、うなぎだ」は
客⇒客:「僕(の注文)は、うなぎだ」
客⇒店員:上記の意味以外に、「僕は
うなぎ(を註文する客)だ」
という解釈がありうる。
この場合の「文脈」としては、
「どちらの客に、注文の決定権があるのか?」
「どちらが支払をするか?」がある。
0809デフォルトの名無しさん垢版2018/09/10(月) 06:11:28.55ID:YCqssu0J
上司「僕は玉子丼だ」部下「僕はうなぎで」
とか、寿司屋で
上司「僕は玉子で」部下「トロをお願いします」
とかいうのは、「正しい解釈」というのが難しい。
上司「おまえ、空気読めよ」
部下「いや、玉子がお好きなんだなぁ、と」
上司「普通はせいぜい同じ値段のものを頼むんだよ!」
部下「僕、玉子アレルギーなんです」
みたいなのをコンピュータは理解できるか、
という課題はあろうと思う。
0810デフォルトの名無しさん垢版2018/09/10(月) 07:43:50.83ID:YCqssu0J
>>804
「AとB」は「AとBと」と同義。
「AからB」が「AからBまで」を意味する
こともあるが、「右から左」は、また別の
解釈があり、「後ろから前から」は
「後ろから前」とは略さない。
形態素解析は、省略のパターンまで含めて
行なう必要がある。
0811デフォルトの名無しさん垢版2018/09/10(月) 11:10:01.71ID:wQh8RVrU
たしかに
上島、押すなよ
は有名
0812デフォルトの名無しさん垢版2018/09/10(月) 11:58:12.07ID:YCqssu0J
>>811
「後ろから前から」が「後ろから前」と
略されないのは、「後ろからも前からも」の
省略だと考える(というか、形態素解析の
候補として上位ルーチンに上げる)と、
構文解析が行ないやすいと思う。
0813Mr.Moto垢版2018/09/10(月) 12:25:00.10ID:YCqssu0J
文生成に関していうと、
応答をどうするかという意味論にも
無視できない部分がある。
「××していいですか?」
に対しては、
「どうぞ。」
「いちいち訊かんでよろしい」
「やってみなはれ」
「やめといた方がいいとは思うが、あえて止めようとも
思わない」
「やめとけ。」
「ふざけるな! おまえは何を考えてるんだ!」
等々、いろいろな応答があると思うんだが、
それが どのような判断や意図に基づいているか
ということには、議論の余地がある。
0814デフォルトの名無しさん垢版2018/09/10(月) 14:38:07.23ID:0Z7boaOr
>>800
そういう意味で言ってるんじゃないことくらいアンタにもわかってるだろうに。
「正しい日本語文法」というものを頑張って発見したとしても、それは演繹的ではありえないということ。
生きてる人間によってどんどん新しい日本語文法が作られていくのだから、それを観察して後追いでルールを追加・修正・削除していくしかないんだよ。

> スクリプトと辞書で吸収できるんだよ。ふん。
スクリプトと辞書を延々と手作業で修正し続けなければならないことは否定しないんだな。しかも、そのスクリプトやらは、ルールベースのエキスパートシステムみたいに、
ルールの追加に専門知識が必要で、以前のルールとバッティングし、いずれ破綻するわけだろう。

だから反論として聞きたいのは、統計的自然言語処理と比べて何が勝っているのか、ルールを追加修正し続けるコストは許容できるレベルなのか、
後段の高レベルな自然言語処理タスク(意味理解など)に応用した際にどう性能が変わってくるのか、ということだよ。
0815Mb垢版2018/09/10(月) 15:03:13.98ID:YCqssu0J
>>814
> そういう意味で言ってるんじゃないことくらい
> アンタにもわかってるだろうに。
もちろん分かっているとも(笑)
うちらがやっているのは「記述文法」であって、
「規範文法」に対してどうのこうの、とか文句を
つける気はまったくないんだが、現在の中学校の
国語教育で教えられている、いわゆる「学校文法」
っつーのに異義を申し立てているだけだ。

ただし、「規範文法」としては、文語文法はよくできている
(なにせ、千年以上、日本語のスタンダードとして
機能していたのだからね)と思うので、「文語&舊字體」
を貫くというのは、少なくとも方向性としては
間違っていないと思っている。
0816Maria垢版2018/09/10(月) 15:10:27.98ID:YCqssu0J
>>814
> 生きてる人間によってどんどん新しい日本語文法が作られていくのだから、
> それを観察して後追いでルールを追加・修正・削除していくしかないんだよ。
だって、それ言ったら方言とかはスクリプトとして吸収できないはずじゃん。
原則が変わってないから、些末な部分(語彙とかスクリプトとか)で
吸収できちゃうから言ってるわけで、だからこそ沖縄の各島方言や、
伊豆諸島の各島方言とかを、ちゃんと保存しとこうと思ってるのよね、
うちらは(そのあたりの系統関係とか、遷移関係とかには、興味を
持っています)。
0817Maria垢版2018/09/10(月) 15:14:18.78ID:YCqssu0J
> だから反論として聞きたいのは、統計的自然言語処理と比べて
> 何が勝っているのか、ルールを追加修正し続けるコストは
> 許容できるレベルなのか、
えー? やってみると簡単だよ?
むしろ、統計的自然言語処理のほうが、よっぽど
大変なんじゃない?
どこの大学の、どこの研究室か言ってくださったら、
こっちから行っちゃうけど。
0818Mb垢版2018/09/10(月) 15:17:29.09ID:YCqssu0J
> 後段の高レベルな自然言語処理タスク(意味理解など)に応用した際に
> どう性能が変わってくるのか、ということだよ。
そんなこと言ったって、「高レベルな自然言語処理タスク(意味理解など)」
が実装されてないじゃん。「どう性能が変わってくるのか」とか言われたって、
「誰が評価するんだ (wwwww」ってな話にならんか?
0819Mr.Moto垢版2018/09/10(月) 15:25:02.82ID:YCqssu0J
ちょっとスレの趣旨とは外れてコメしとくけど、
うちのマリ坊(Maria)は、自然言語処理業界では
「Maria 様」と崇め奉られていたので(とは言いつつ
かなりゲスな奴だが)、「こんな初歩的な質問をしても
いいのだろうか?」とかいった気苦労は、するだけ
無駄だ。
疑問があったら全部ぶつけろ。それで納得するかどうかは、
その後の話だ。
0820デフォルトの名無しさん垢版2018/09/10(月) 16:02:42.45ID:0Z7boaOr
> 「どう性能が変わってくるのか」とか言われたって、「誰が評価するんだ (wwwww」ってな話にならんか?
既存のベンチマークに適用してペーパー書いて言語処理学会なり人工知能学会なりの研究会で発表すればいい。
0821Maria垢版2018/09/10(月) 16:30:37.14ID:YCqssu0J
>>820
> 既存のベンチマーク
そもそも、形態素解析における「標準的な解析結果」と
いうものが現状のところ存在していなくて、
「標準的な構文解析システム」というものが存在していなくて、
「じゃあ、何をもって正解とするの?」っていう判断基準が
なくって、それで「ペーパー書いて言語処理学会なり人工知能学会なりの
研究会で発表」しろって言われてもねぇ。

高橋秀俊先生は、電気通信学会から独立して、情報処理学会を
立ち上げたんですが、当時「裏切者」と呼ばれたそうです。
その後、「学会に出てくる奴が、背広ネクタイばっかりになってる」
というので、日本ソフトウェア科学会を立ち上げて、やっぱり
「裏切者」と呼ばれたそうです。
で、その後、認知心理学会が立ち上がったんですが ……
「既存の学会とか、既存の理論とか、既存のベンチマークとかがダメだ」
っていう話をしているときに、そういう話を持ってきますか。

「おまえは、ひとこと余計だ」と、所長に叱られたので、
本日はこれまで。
0822デフォルトの名無しさん垢版2018/09/10(月) 20:18:10.94ID:0Z7boaOr
>>821
違う違う。形態素解析の「標準的な解析結果」なんか誰も求めてないの。
形態素解析は目的じゃなくて手段なんだから、後段の応用的な自然言語処理のタスクの性能にどれくらい寄与するかを示せって言ってるの。

https://github.com/google/sentencepiece/blob/master/doc/experiments.md
例えば上のページでは、各種トークナイザ及び形態素解析器を使って応用的なタスクのベンチマークをやってその性能を示しているわけだけど、
そこにあなたのシステムを導入したときに、他のトークナイザより性能が高かったらみんな認めるでしょってこと。
0823デフォルトの名無しさん垢版2018/09/11(火) 05:02:43.14ID:XLdqU0cd
英文を読み解く以前に知るべき現代社会の常識
https://bookmeter.com/books/1235800

文法的には、反対の賛成=賛成の反対。しかしながらそういう言い方は『常識的には』されない。
0824デフォルトの名無しさん垢版2018/09/11(火) 05:44:15.24ID:XLdqU0cd
ところで人工知能にわれわれ人間世界の『常識』『風習』を教え込むことは可能ですか?

まず、『エマ』については、絵作りの場合、資料本のほか、ドラマの『シャーロック・ホームズの
冒険など時代考証のしっかりした映像資料を見て、イギリス人的な考え方、イギリス人にとって
のツボを理解していくそうです。絵作り以外では、
本や文字資料から知識を入れた後、画像資料のビジュアルに当てはめていくとのこと。
次に『乙嫁語り』。絵に関しては、当時の写真やドキュメンタリー番組などを参考にしているそうです。
あと、中央アジア関係の学会や中近東文化センター、民族学博物館(吹田市の「みんぱく」?)などの研究所
にある図書室で棚を調べまくり、いい本があればタイトルを控え、オンライン書店から注文。
https://ameblo.jp/karasu-otoko-shokai/entry-11210732430.html

自然言語というのは人々の日常生活に密接に関連しており、その背景知識が無いと解読しにくいはずだ。
例えば『かわいがる』というのも、保育園と相撲部屋では全く違う意味に使われるはずだ。
0825Maria垢版2018/09/11(火) 08:40:31.85ID:E7Dai500
>>824
> ところで人工知能にわれわれ人間世界の『常識』『風習』を
> 教え込むことは可能ですか?
「まず音声入出力機能を備えたロボットを作るところから
始めないと無理なんじゃない?」というのが、いまのところの
予想です。で、そのためには、筋肉に相当するアクチュエータから
開発してかないとダメだと思っています。
> 例えば『かわいがる』というのも、
> 哺育園と相撲部屋では全く違う意味に使われるはずだ。
じつは「〜がる」というのは「表出」を意味するので、
「かわいい」というメッセージを行動で表現するという
点では「かわいがる」には一般的な意味があります。
これは、「形容詞には、暗黙の主語としての話者が
存在する」ということで、「彼は悲しい」とは
言わず、「彼は悲しんでいる」「悲しそうだ」になり、
「彼は寂しい」ではなく「彼は寂しがっている」
「寂しそうだ」になります。
その先のニュアンスの部分で、運用論的な話が
出てくるんじゃないかな。
0826Maria垢版2018/09/11(火) 09:00:32.51ID:E7Dai500
>>822
> 形態素解析は目的じゃなくて手段なんだから、
> 後段の応用的な自然言語処理のタスクの性能に
> どれくらい寄与するかを示せって言ってるの。
> そこにあなたのシステムを導入したときに、
> 他のトークナイザより性能が高かったら
> みんな認めるでしょってこと。
他のトーカナイザは出力がシリアルでしょ?
こちらは「かな漢字変換における、候補選択前の、
構造を持ったデータ」が出力なんですよ。
ですから、「入れない」がイレナイなのか
ハイレナイなのかは、「使うほうが選んでね。
選択に重みづけをしたいんだったら、必要なデータは
乗っけてあげるから」という形なんです。
で、JAI-Perser はチャート法を使っているので、
候補探索自体の実行順序も決まっていなくて、
「探索戦略の部分も、そっちの都合に合わせますけど、
どうします?」っていう話があるわけです。
現在のプロダクション・ルールの適用順位はかなり
こなれているので、「最長一致で深さ優先探索で
最初に文末まで解析が成功したものを出力する」で
よければ、とりあえず土俵には上がれると思います。
0827Maria垢版2018/09/11(火) 09:09:50.12ID:E7Dai500
>>823
「危ないですから」は、連体形「危ない」の直後に
用言「です」が来ているので、厳密にいうと、文法的には
正しくありません。
とはいえ、文法的に正しい「危ないのですから」
「危のうございますから」は、常識的には使いません。
そんなわけで、「危ないですから」⇒「危ないので」
「危険ですから」「危険ですので」と言い換えるのが
望ましいんですが …… それってコンピュータに
指摘されても嬉しくないと思うんだけどなぁ。
あたしらは日本語処理をやってるので
「そうか、なるほど」と思うだけですけど。
0828Maria垢版2018/09/11(火) 09:13:40.94ID:E7Dai500
>>824
森薫さんは『乙嫁語り』しか読んだことないんですよ。
『エマ』は まんが喫茶で探してみます。
0829Maria垢版2018/09/11(火) 09:27:51.46ID:E7Dai500
あ、そうそう。 >>826 のチャート法うんぬんの話ですけど、
>>814
> ルールの追加に専門知識が必要で、以前のルールと
> バッティングし、いずれ破綻するわけだろう。
に関していうと、候補として出てくるだけで、バッティングは
しません。探索順序に関しても、疑似マルチで動かしていれば
順序が変わるでしょうが、クラウドで実行したら、それすら
関係のない話になります。
「専門知識が必要」というのは、「記述文法の知識」以上の
ものは必要ありません。もっとも、記述文法をマジメにやっている
ヒトは、日本国内にも十人いるかどうか(笑)
そういう意味では、「実用化される前に、まず専門家を育成しよう」
という話にはなるわけですが。
0831Mb垢版2018/09/11(火) 09:49:53.59ID:E7Dai500
>>830
あんたが中身のある投稿をしてくれたら、
連投にならずに済むんだがな。
投稿できるようなネタがないなら
黙っといたほうが不興を買わずにすむぞ。
0832デフォルトの名無しさん垢版2018/09/11(火) 12:37:12.53ID:nzfI9if7
ゴミネタ連投されても迷惑
0833デフォルトの名無しさん垢版2018/09/11(火) 14:25:30.42ID:pwo3DQbp
埋めるのが目的だろうから
運営に通報でもしない限りは
このまま続くだろうね
0835Maria垢版2018/09/11(火) 15:20:55.45ID:E7Dai500
>>834
そもそもチャート法というのは、
構文解析の手法として用いられていた
ものであって、それが形態素解析に
対しても威力を発する、という話なのよ。
で、「形態素解析レベルの文法は、
スクリプトとして外に出せる」っていう話を
しているわけ。
そのときに、「省略」の話が出てくるんで、
「そのあたりの問題は、スクリプトの記述によって
かなりの部分、回避できる」っていう話をして
いるんですけど、何か問題でも?

黙って引っ込んでると、叩かれるよぉ?
なんか言い返しなよね。
0836Maria垢版2018/09/11(火) 15:24:58.85ID:E7Dai500
>>832
「豚の前に、真珠を投げてはなりません。
それを足で踏みにじり、向き直ってあなたがたを
引き裂くでしょうから。」
0837Maria垢版2018/09/11(火) 15:26:04.44ID:E7Dai500
>>833
> 運営に通報でもしない限りは
通報すればいいんじゃない?
0838Mr.Moto垢版2018/09/11(火) 15:35:18.33ID:E7Dai500
ROM ってる真面目な自然言語処理の研究者に告ぐ。
ザコネタでいいから絡んどけ。
なんかしら研究の種にはなるぞ?
0839デフォルトの名無しさん垢版2018/09/11(火) 15:52:16.29ID:W6mUR8R6
>>835
806-809みたいにウダウダと解釈を垂れたりとりたて詞がどうのこうの書いてるのをスレチと言ってるの。
0840Maria垢版2018/09/11(火) 15:57:15.72ID:E7Dai500
>>809
格の一意性が成立するという前提を置かないと、
データ構造も決まらないし、
構文解析のロジックも決定できないって言ってるの。

ちょっとは自然言語処理システムを触ってからいらっしゃい。
0841デフォルトの名無しさん垢版2018/09/11(火) 16:03:53.59ID:3CpNQap1
> 格の一意性が成立するという前提を置かないと
アンタ、現代の自然言語処理から完全に取り残されてるよ
0842Mb垢版2018/09/11(火) 17:10:15.07ID:E7Dai500
>>841
小松左京さんの『日本沈没』で、
「『造山活動東進説』とか言ってると、
冷飯を食わされるぞ」という話があったが、
「CG(汎文法)とか言ってると、冷飯を
食わされるぞ」とかいう話がマジである。

「現代の自然言語処理」って、どこにあるんだ?

「国が、どこに予算を出しているのか」っていう
話は、また別な話だぞ?

貴様、誰だ。所属と姓名を名宣(なの)れ。

「たれか」って誰何を三回したら、射殺しても
(「しゃさつしても」だ。「いころしても」ではない)
軍法上認められるんだぞ?
0843Maria垢版2018/09/11(火) 17:34:34.73ID:E7Dai500
「そこで、自然言語処理システムを実際に扱って学んだ者は皆、
素直な心を持って吉原の高級ソープに、童貞を捨てにいった
賢い人に似ている。
本番行為を行わなくても、
知識と自信と満足とを持ち帰ったからである。
自然言語処理システムの理論を聞くだけで実際に操作した
ことのない者は皆、安い風俗に童貞を捨てにいった愚かな人に似ている。
本番前に勃起せず、手で擦っても立たず、本番行為に至らなかったからである。
イエスがこれらの言葉を語り終えられると、
群衆はその教えに非常に驚いた。マルクス主義フェミニストの
ようにではなく、風俗の現場の人間として
お教えになったからである。

日本語処理システムに、実際に触ってから
出直してらっしゃいね?
0844デフォルトの名無しさん垢版2018/09/11(火) 20:25:40.66ID:uQlqoJNZ
>>843
そういう狂った言い回しをしているから、誰も相手にしたくない
昔はそれなりに研究をやっていたようだが、いまはただの老害
0845Mr.Moto垢版2018/09/11(火) 20:48:57.08ID:E7Dai500
>>844
> 昔はそれなりに研究をやっていたようだが
研究なんかしてねぇんだよ。
開発と実装をしてるうちに、
後から従いてきた知識でしかねぇんだよ。
だから、「実際に やってみろ」って言ってんだよ。

で、開発の現場に戻ってくるぞ、って言ってんだよ。

おまいら自然言語処理をやってる奴は、これから
ケツ叩かれて全力疾走させられるぞ?って
警告してんだよ。

マジレスできねぇ奴は、この先相手にされねぇぞ?
0846デフォルトの名無しさん垢版2018/09/11(火) 20:53:19.25ID:uQlqoJNZ
>>845
ああ、だから馬鹿な発言連発してるんだな
言っとくけど、このスレを覗いているのはプログラミングできる人がほとんどだと思うよ?
0847Maria垢版2018/09/11(火) 21:30:00.69ID:E7Dai500
>>846
まぁ、誰に言ってんのかわかんないけど、
システムも組めない(つーか、業務に堪えられる
コードも書けない)奴が「自然言語処理」とか
言ってる時点で「ちゃんちゃらおかしい」と
思うのよねー。

Java プログラムのコーディングで勝負したかったら、
プログラム技術板のそれなりのスレッド(「Java の宿題
ここで答えます」とかね)で、ガチで勝負して下さっても
結構ですのよ?
0848デフォルトの名無しさん垢版2018/09/11(火) 21:55:28.59ID:Pzm7b9dm
外野から失礼します。
共起についてどう思われますか?
無いと自然言語処理の応用ができない気がして質問してみました。
大雑把に、共起は自然言語処理にどう関わりそうか、それとも要らないか程度でも話題になればと思います。
0849Maria垢版2018/09/11(火) 22:48:51.67ID:E7Dai500
>>848
「共起」という概念で括れるかどうかは分かりませんが、
日本語においては、「係り結び」というものが、古くから存在します。
「係る」「受ける」の対応において、範囲を示すという意味では、
括弧に相当する役割があり、構文解析においては
効率化に結びつくという点で、通信という意味では、
合理的なのではないでしょうか。
「こそ」が来たら「〜め」が来るのを待つとか、
「ぞ」が来たら「なむ」が来るのを待つとかいった、
制禦の上での合理性があると思います。
0850デフォルトの名無しさん垢版2018/09/12(水) 08:28:10.94ID:pUOFOCFc
>>848
>共起は自然言語処理にどう関わりそうか

共起1(反対)縦と横、黒と白、光と闇
共起2(属性)青赤黄緑、1234、ABCD
共起3(時代)信長と安土城、零戦と原爆、キン肉マンとファミコン
共起4(公式)解と係数、質量と体積、サインとコサイン

他にどんな『共起関係』を思いつけるだろうか?
0851デフォルトの名無しさん垢版2018/09/12(水) 08:44:46.22ID:pUOFOCFc
>共起3(時代)信長と安土城、零戦と原爆、キン肉マンとファミコン

『時代』については曖昧なところもある(原爆投下された頃は零戦なんて時代遅れ)ので、
信号機のような『赤』(正)『青』(否)『黄色』(曖昧)を。
0852デフォルトの名無しさん垢版2018/09/12(水) 09:06:15.80ID:pUOFOCFc
>>504
>冒険者の広場では提案広場・あしあと伝言板にて言論規制がしかれている。

・思いつく予防策
1.利用しない、なにも書かない
予防策と言っていいのかわかりませんが、私は冒険者の広場は極力利用しないようにしています
自分にそのつもりがなくても、相手の解釈次第で悪意のある文章だと思われてしまうことがありうるからです。

【訂正後】提案広場、落ち着いて!広場BANに要注意!
http://pan1946.blog.jp/archives/2426203.html
0853Maria垢版2018/09/12(水) 10:06:19.28ID:H3XsJJBV
>>851
そういう意味での共起関係は、必ずしも一次元ではなく、
もうちょっと複雑な関係になっているようです。
赤・青・白・黒は、それ自体が形容詞の語幹になります
(「赤い」「青い」「白い」「黒い」)。
また、「赤(明るい)⇔黒(蒙(くら))」
「白(明白。はっきりした)⇔青(=淡い)」
「赤(熟した。本来の性質が表に現れている)
⇔青(未熟な。本来の性質が表に現れていない)」
のような例があります。
0854Mb垢版2018/09/12(水) 10:11:39.83ID:H3XsJJBV
>>852
「おまえ、アホちゃうか?」は笑って済ませられるけど、
「あなたは、ちえおくれではありませんか?」だと
血の雨が降りかねん (-_-!)
関西人に「アホ」はいいけど「バカ」は禁忌、みたいな
地方性もある。
そうなると、「あほらしい」はOKだが「馬鹿馬鹿しい」
だと「誰が馬鹿だ!」と喧嘩になりかねん。
0855Maria垢版2018/09/12(水) 10:20:37.36ID:H3XsJJBV
>>850
分子構造)オルソ、メタ、パラ
原子数)モノ、ジ、トリ、テトラ、ペンタ、ヘキサ …

事務処理の基本はソートとマージとサーチ
ツーといえばカー、CAR といえば CDR
0856Maria垢版2018/09/12(水) 10:25:13.94ID:H3XsJJBV
ちょっと軌道修正しておくと、
・シソーラスを作る
・出現頻度の相関を求めておく
あたりが、自然言語処理における定跡、
くらいの話になると思う。
0857Mr.Moto垢版2018/09/12(水) 10:33:58.65ID:H3XsJJBV
共起5 (ライバル)ソッピース・キャメルとフォッカー三葉、
スピットファイアとメッサーシュミット、砂漠の狐とラットパトロール、
ロンメルとパットン、竜と虎
0858Maria垢版2018/09/12(水) 12:36:34.33ID:H3XsJJBV
>>857
あのさぁ、いちおう加減は考えといてくんない?
このスレにミリタリー・マニアはそんなに
いないと思うからさぁ(まぁ、航空宇宙工学科だと
デフォなんだけどさ)。
>>852 関連だけど、「犯罪者の個人名を
晒してはいけない」っていうサイトで、「今田勇子」とか
「草加二郎」とかいったネタでサイトのオーナーを
引っ掛けて笑ってた あんたの過去は、忘れてないからねっ!
0859Maria垢版2018/09/12(水) 21:24:29.80ID:H3XsJJBV
そういえば、悪口というのは辞書に載りにくく、
しかもなかなか廃れない、という問題があります。
辞書作成担当者は、そのあたりにご注意を。
「昼行燈」(役に立ってない)
「天保銭」(ちょっと足りない)
「瞬間湯沸かし機」(すぐ熱くなる)
「蛍光灯」(応答が遅い)
なとが例になります。

英語圏では、
“Mr.Moto”(小賢しい日本人)
というのがあります。
0860デフォルトの名無しさん垢版2018/09/13(木) 01:00:18.18ID:LigmLEis
>>31
>数学モデルとシミュレーションにより、実践と理論の結合が図れるのです。

龍が如く極のマップ。東京・神室町の飲食店、販売店、プレイスポット、要所の場所や地名を地図にまとめてます。
https://dswiipspwikips3.jp/yakuza-kiwami/cheats-data/map-kamurochou.html

近くのコンビニでおにぎりを買った(コンビニの中に居る)
近くのコンビニでタクシーに乗った(コンビニの外に居る)

シミュレーターを動かしてみれば一目瞭然だ。
0861デフォルトの名無しさん垢版2018/09/13(木) 01:14:54.52ID:LigmLEis
一次元(数直線)
二次元(平面座標)
三次元(空間座標)
四次元(ドラえもん)

『0』『1 』『2 』『3』は別扱いにしたいところ。指数関数や対数関数や確率統計などもそう。
0862デフォルトの名無しさん垢版2018/09/13(木) 01:25:22.72ID:LigmLEis
>>456
そういうのは人間だって一度に全文翻訳出来るわけではなく、ジグソーパズルのように、
断片的にでもとりあえずわかるところから解読していくみたいなやり方を。
0863デフォルトの名無しさん垢版2018/09/13(木) 03:09:57.93ID:x/k+qk9X
>>862
>ジグソーパズルのように、断片的にでもとりあえずわかるところから解読していく

(4)全体の構成と設計
 四番目のステップは「全体の構成と設計」です。
 犯罪捜査でいえば犯行動機と犯行プロセスの全貌を推理して答を見出すことです。
歴史捜査では「真実の復元」と名付けましたが、ジグソーパズルでいえば、いくつかのピースの組み合わ
された塊を全体枠の適切な位置に順次はめ込んでいき、全体図を完成させる作業です。
http://www.issj.net/mm/mm0508/mm0508-5-ln.html
0864デフォルトの名無しさん垢版2018/09/13(木) 03:21:14.97ID:x/k+qk9X
>>456
>各操作で、(「記号○と×のいずれかを」「表示させる操作」を「k回繰り返す」。)

この問題文の意味する『操作』とは、具体的に何をどうすることなのかを考察する人工知能が必要。
初見で理解できなくても、後の文からいろいろ類推しかつ検証していくこと。
0865787垢版2018/09/13(木) 04:41:44.40ID:8GqTf0bs
>>790-793
>超えなきゃいけない壁があって前に進めない
でもIBMのワトソンなんかは一枚壁を越えたと思う
もちろん自然言語理解にはまだ何枚も壁があるけど

>「省略」と「理解」は不可分なので、扱いが難しい
>「制禦」「意図」という視点がある
従来の研究の枠組ではたしかに難しいんだけど
ただ細かい文法をつつき回すだけじゃなくて
ワトソンなんかはある程度の質問文の
意味や意図の理解をしているように思える

そして意味や文脈を理解しないと
ワトソンのような対話システムの実現は難しい
0866787垢版2018/09/13(木) 04:54:02.32ID:8GqTf0bs
>>795
>これくらいのシステムであれば、
>現在の技術で充分に可能だと思うんだが
どうかなあ……?

もちろんその例文だけなら可能だし
辞書的な知識だけで上手く行きそうな雰囲気を醸し出してるけど

「ゾウは鼻が長いのに、キリンは首が長いのはなぜか?」
という問いに答えるには進化論について
かなり理解していないと的外れな回答をすることになる

データベースにある範囲だけで回答するなら可能だけど
対話システムは人工無能的なボロが出やすいから
もっと意味理解を進めないと現在の段階ではそれすら難しいと思う

文法をつつき回すだけではダメで
文法に回収できない意味や意図を理解することが
試されているのが今の自然言語処理のステージなんだと思う
0867787垢版2018/09/13(木) 05:03:56.38ID:8GqTf0bs
>>813
そういう応答の多様性については
人工無能は確率的に遷移するだけだけど
そういう適当な処理ではダメで
応答の前提になる意味と意図が形成されている必要がある

たとえばみんなで鍋を食べていて
「激辛唐辛子をジャンジャン入れていいか?」
と言われたら人間なら辛くなるから「嫌だ」と言う

つまり「〜していいですか?」に対して
「どうぞ」か「やめて」かは
人間は自分の都合に応じて判断をしているのであり
人工知能ならその都合を再現するのが本筋だろう
文法だけでは適切に返せない

しかしそれはつまり相手が「〜した」ことで何が起こるのかを
予測する必要がありどれだけ常識を教えれば足りるのか不明で
例のフレーム問題が起こってしまう

鍋に唐辛子を入れたら辛くなるとか洗剤を入れたら食べられないとか
人間の常識は無限にあるので承知の通り過去のAIブームは頓挫した

でも今はもうたんにフレーム問題を避けるのではなく
機械学習とかで少しは切り崩せないか
挑戦する段階に差し掛かっていると思う
0868787垢版2018/09/13(木) 05:17:28.24ID:8GqTf0bs
>>814
>ルールベースのエキスパートシステムみたいに
>ルールの追加に専門知識が必要で
>以前のルールとバッティングし、いずれ破綻するわけだろう

横レスだが承知の通りこれがかつてのAIブームの挫折の原因だね
組み合わせ爆発が起こって人力で辞書なりDBなり作ると
開発費が高くなり過ぎて実現できないと

そして今は機械学習によってその壁を部分的にでも
乗り越えられるのではないかとAIブームが再燃し
自然言語分野では統計的自然言語処理に注目が集まってる

つまり私(たち)の疑問は
連投している人は何か憤慨しているようだけど
文法をつつき回すかつてのやり方が壁に当たってるわけで
今の主流から外れてきたそのやり方の正当性なりを示さないまま
ただ細かい文法知識を披露されても心に響かないということ
0869787垢版2018/09/13(木) 05:20:21.09ID:8GqTf0bs
いろいろ書いたけど一番言いたいことを要約すると
自然言語処理はAIの冬の教訓から
「文法をつつき回すだけでは無理」だという大前提があるわけで
今の時代に自然言語処理を研究または開発する者は
それとどう向き合うかが問われている
0870Maria垢版2018/09/13(木) 06:49:13.71ID:7E5J/vlY
>>869
文法は下手につつくと祟るからねぇ(笑)
ただ、文法(規範文法じゃなくて記述文法)は
自然言語処理の基礎になるものだから、
そこをしっかりと固めておかないと、
何をやっても砂上の楼閣になっちゃうのよね。
現在の日本語処理は、軟弱地盤の上に
手抜き工事の躯体が乗ってるようなものだから、
なんかの拍子に倒壊しそうな気がする。
0871Maria垢版2018/09/13(木) 07:02:23.02ID:7E5J/vlY
中学生のころに教わった規範文法のせいで、
国文法が嫌いになっちゃうヒトは多いようですが、
あれは橋本文法が悪いんじゃなくて
「いわゆる学校文法」がお粗末だったせいなので、
文語文法から勉強して、国語学者からの学校文法批判とかを
じっくり検討してみると、現在の自然言語処理の
基礎が意外に脆弱なことが理解できると思います。

なお、組合せ論的な爆発というのは、実用レベルでは
ほとんど起きません。「入れない」がイレナイかハイレナイか、
「行った」がイッタかオコナッタか、「文書」がブンショか
モンジョか、とかいった程度です。
「書かされたがらなかった」とかでも、そんなにややこしい
ことにはなりませんよ? 「すもももももももものうち」
「うらにわにはにわにわにはにわにわとりがいる」とかも、
解析にかけてみると、意外に複雑にはなりませんし。
0872Maria垢版2018/09/13(木) 07:06:42.59ID:7E5J/vlY
そんなわけで、
「AIブームが再燃し、自然言語分野では
統計的自然言語処理に注目が集まってる」
というより、「文法から逃げ回っている研究者が
AIブームに乗じて統計的自然言語処理に逃げ込んでいる」
だけなんじゃないかなぁ。
0873デフォルトの名無しさん垢版2018/09/13(木) 07:15:05.67ID:x/k+qk9X
自然科学の基礎研究に『学力』『経済力』『肩書き』は不要。その動かぬ証拠はこうだ!

ガウク大統領は、次のように強調しているー
「1945年5月8日、我々は解放された。我々を解放したのは、ソ連の諸民族の代表者達だったが、そればかりではない。
それゆえ、我々は、感謝と尊敬の念を示さなくてはならない。戦後ドイツが、ベルリンの壁により長い間分断されたという
事実でさえも、そうした気持ちに影響を与えるべきではない。一部の観測筋は疑っているようだが、私には、
ロシアにもロシア人に対しても問題はない。」
http://jp.sputniknews.com/europe/20150502/284616.html

ドイツ人が泣いて感謝するロシアの自然科学能力は、こうして養われたものである!

我らがネステロフは、全てのギアボックスを簡単に直してしまったよ。ある時、
イギリス人の技術者がネステロフのところに来て、「あなたはどこの大学で技術を学んだのですか?」
と聞いたことがある。ネステロフのやつは「コルホーズ大学さ」なんて答えておったな。
http://www.geocities.co.jp/SilkRoad/5870/loza1.html

ソ連人民の素朴な知見>>>>>>>(越えられない壁)>>>>大学教授博士
0874デフォルトの名無しさん垢版2018/09/13(木) 07:47:07.43ID:x/k+qk9X
全ての学問は『形式』であり、それは一定の社会秩序を維持するための『方便』なのである。
全共闘やらオウムやらで無秩序に暴れるくらいなら、とりあえず勉強でもしてろ就活でもしてろという程度。

>あなたはどこの大学で技術を学んだのですか?

他人の評価だけで生きてるみたいなお偉方は、所詮マニュアル通りのことしか出来ない。
自然科学の新分野を開拓するには、決して○○博士号などという肩書きに拘るべきではない。
0875デフォルトの名無しさん垢版2018/09/13(木) 08:31:06.66ID:X8s8xxNR
>>136
>>871
イラストでも文章でも、まずバラバラに分割して(点と線と文字)、しかる後に組み合わせを検証するとか。
0876Maria垢版2018/09/13(木) 08:40:34.16ID:7E5J/vlY
>>874
大学行っても役に立つことを教えてもらえるとは
限らないんだよね。
「私の経験でも、大学の国文学科での三年間に、
ついに文法の講義はなかった」
大野晋『日本語の文法を考える』
だから、学校で文法を教えている先生が、
文法を教えられているとは限りません。
0877デフォルトの名無しさん垢版2018/09/13(木) 08:45:29.08ID:T3CvC5e1
>>867
>人間の常識は無限にあるので

『龍が如く』シリーズの神室町で、主人公に何が出来るかは無限なので、続編は未来永劫出されるだろう。
0878Maria垢版2018/09/13(木) 09:01:14.03ID:7E5J/vlY
>>875
そうそう。実際に、それだけで大雑把な形態素解析はできちゃうのよ。
まず、改行で区切れるでしょ?
次に、句読点で切れる …… はずなんだけど、「モーニング娘。」
とか「藤岡弘、」とかいった例外があるから要注意。
で、次に括弧の中身と外側を分けて、括弧の中が文なのか名詞など
のような文法上の役割を持っているかどうかを判断します。ここは
文法的な処理があるから、人間に任せないと精度が悪くなるので、
「括弧の入った文章は、機械的にやると精度が落ちるんで、
辞書作成のときくらいにしか使えない」と思ってください。
次に、長尾真先生がおっしゃっていた方法があって、
「文頭から見ていって、非漢字から漢字に替わるところで切ると、
だいたい文節で切れる」という経験則があります(なお、カタカナ
語については自分で考えてみてね)。例外は「う歯」「えん罪」
「すい星」「ら致」や、接頭語の「お」「ご」。
ここまでで、文節レベルの形態素解析は済んだようなものです。
で、文節に分けたら、形容詞句・動詞句・接続句・修飾句その他に
分けて、活用や接続規則を個別に処理してゆきます。いちばん
簡単なのが形容詞で、しかも数百個しかありません。つぎに動詞で、
これは千五百個くらいあります。名詞句は名詞の数だけあるわけ
だから、地名・姓・名まで含めると、何十万という数になりましが、
地名の「紫波(しわ)」「日出(ひじ)」なんかを下手に登録すると、
かな漢字変換に使ったときに(はい。JAI-Parser は双方向です)、
ちょっとムカッとします。
0879Maria垢版2018/09/13(木) 09:12:22.19ID:7E5J/vlY
>>877
「Zipf の法則」というものがありましてですね、
「そこそこ実用的」くらいのところで妥協すると、
以外に多くないんですよ。
とくに、ジャンルを限定すれば、現在のパーソナル
コンピュータでも、わりと簡単に処理できるくらいの
規模になっちゃうと思います。
そのあたりで業務なり生活環境なりに投入して、
そこから先の「常識」は、使いながら付け足して
ゆく、というアプローチでけっこうなんとかなるだろう、と
思ってます。
0880デフォルトの名無しさん垢版2018/09/13(木) 09:48:19.34ID:HZBiSGJZ
正規表現を言語化できるようなとこ知りませんか?

/^ab/
これを入れると、

「abで始まる」
と変換されるようなサービスって無いでしょうか?
0881Maria垢版2018/09/13(木) 11:44:59.06ID:7E5J/vlY
>>880
そのくらいだったら Java で書けば早いんじゃない?
C 言語は文字列の扱いが大雑把(つーか、システム記述用
なので、可変長データを扱おうとすると、メモリリークとか
ワイルドポインタとか、ややこしいことになります)。
そうなると LISP なんだけど、LISP の処理系って、それほど
電算業界に普及してないのと GUI をサポートしていないのも
あって、LISP 勉強しても仕事で食ってけないのよ。
その点、Java はとりあえず飯の種になるし、バージョン 1.4
以降は正規表現もサポートしてるし、動的な記憶領域管理も
ちゃんと行なってて文字列の扱いも楽(ライブラリ関数も
けっこう充実してます)なので、とりあえず自分で
プログラム書いてみたら?
0882Maria垢版2018/09/13(木) 11:55:02.11ID:7E5J/vlY
>>880
正規表現を一からコーディングする、とかいった
根性があるんでしたら、
カーニハンとプロ―ジャー著/木村 泉 訳の
『ソフトウェア作法(Software Tools)』(共立出版)
あたりから入門するのが適切かと思います。
だけど、フツーのプログラミング言語で正規表現を
処理しようと思うと、けっこう面倒臭いんですよね。
ですから、うちらは途中に仮想言語と仮想マシンをかませた、
という事情があります。
0883Maria垢版2018/09/13(木) 12:03:48.10ID:7E5J/vlY
>>880
仮想言語と仮想マシンの実装については、
『BCPL : 言語とそのコンパイラ 』(共立出版)が
参考になります。
前段階としては、『やさしいコンパイラの作り方』
(同じく共立出版。中西正和先生がお書きになっています)
あたりを読んでおけば、そんなに難しくありませんよ。
もっとも、義務教育でプログラミング教育を受けている、
いまどきの中学生・高校生・大学生のような
ディジタルネイティブ世代とは、話が噛み合わない危惧も
ございますけど。
0884Maria垢版2018/09/13(木) 12:32:14.22ID:7E5J/vlY
そうそう。最近、「丼ぶり」という表記を見ると、
イラッとします。「丼」という字は、「井戸の中に
何かを放りこんだ音が、『どんぶり』と聞こえる」と
いうのが発祥だと云われているんですよね。
語源としては、韓国語の「湯鉢(スープ用の、深い皿。
タンブリ)」だと云われています。
ですから、「丼」の訓は「どんぶり」であって、「どん」では
ありません。日本語処理の観点では、「カツ丼」「天丼」
「親子丼」「玉子丼」「鉄火丼」「湘南丼」「深川丼」
「海鮮丼」などを登録したうえで、「丼」を「どん」と入力する
例を運用レベルで吸収するのが本来のありかただと思うんですが、
「丼ぶり」が一般化しちゃうと、処理がバッティングするんですよね。

日本語処理に興味のある方にお伺いします。こういうのって、
どう思います?
0885Maria垢版2018/09/13(木) 13:35:17.50ID:7E5J/vlY
>>873
ガウク大統領って、
・妻ゲアヒルド(ハンズィ)と子供が4人居るが妻とは現在も
正式には離婚していない
・一九九〇年から「ディー・ツァイト」紙のヘルガ・ヒルシュ記者と
同棲していた。
・一九九八年からは「ニュルンベルガーツァイトゥング」の
政治記者であったダニエラ・シャットと現在まで
十年以上にわたる交際を続けている。シャットは大統領夫人として
ガウクとベルリンで生活している。
というヒトですよね?
0886Mb垢版2018/09/13(木) 13:45:47.68ID:7E5J/vlY
>>871
> なお、組合せ論的な爆発というのは、実用レベルでは
> ほとんど起きません。
>>884
> 「丼」の訓は「どんぶり」であって、「どん」では
> ありません。
「丼ぶり」→(「丼」に「どんぶり」の訓を適用する)
→「丼ぶりぶり」→再帰的に変換規則を適用して、
「丼ぶりぶり」に変換→以下、「丼ぶりぶりぶりぶりぶり
ぶりぶり ……」
スタックオーバーフローを起こしてマシンがクラッシュ(笑)
やーいやーい。
0888Maria垢版2018/09/13(木) 15:24:50.49ID:7E5J/vlY
>>887
とりあえず、「バッカス・ナウア記法」あたりから
ググッてみるとよろしいんじゃないですか?
「言語化」というと、いろいろ難しい問題があると
思います。細井勉先生の、『数とことばの迷い道』
あたりをとっかかりにするのが、ひょっとしたら
正解かもしれません。
0889Maria垢版2018/09/13(木) 15:28:13.49ID:7E5J/vlY
>>886
てめぇ憶えてろよ
月夜の晩ばかりじゃねぇんだぞ
大川に蓋はできねぇぞ?
0891Maria垢版2018/09/13(木) 17:45:20.37ID:7E5J/vlY
>>890
「止(や)む」→「止(や)める」→
(命令形)「止(や)めろ」が正。
「帰る」→(命令形)「帰れ」は正。

ふーんだ。
0892デフォルトの名無しさん垢版2018/09/13(木) 18:01:35.68ID:l9KSlvFS
関西弁だと命令形は
帰り
0893Maria垢版2018/09/13(木) 18:21:00.84ID:7E5J/vlY
>>892
「帰り」は連用形かもしれない、とも思います。
「帰りなさいませ」の省略形としての「帰り」は、
京都あたりでは一般化している可能性は
あるのではないかと。
0894デフォルトの名無しさん垢版2018/09/13(木) 18:23:59.98ID:l9KSlvFS
はよ帰り
0895Maria垢版2018/09/13(木) 19:02:57.94ID:7E5J/vlY
>>894
はよ去(い)ね

「呉れる」の命令形は「呉れろ」のはずですが、
もっぱら「呉れ」が使われる(おそらくは、「呉れ給え」
の略だと思います)ように、「帰る」の命令形は
運用上避けられているのではないかと
思います。
0896869垢版2018/09/13(木) 21:38:58.32ID:8GqTf0bs
>>870
>>872
>「文法から逃げ回っている研究者が
> AIブームに乗じて統計的自然言語処理に逃げ込んでいる」

それはポジショントーク過ぎて
ぜんぜん賛同できないなあ……

機械翻訳でグーグルとかの統計ベースの翻訳が
従来のルールベースの翻訳に精度がかなり迫ってるし
単なる流行だけじゃなくてそういう実績があるから
統計ベースが主流になってきてるわけで現実を見ていない
0897869垢版2018/09/13(木) 21:40:18.64ID:8GqTf0bs
>>871
>組合せ論的な爆発というのは
>実用レベルではほとんど起きません

いやいや
形態素解析レベルの話ではなくてその先の話

フレーム問題が起きるのも
組み合わせ爆発があるからでしょう
0898869垢版2018/09/13(木) 21:45:40.10ID:8GqTf0bs
>>880
>正規表現を言語化

そういうソフトを見かけたことがないので
自分もしくは外注でソフトを制作する必要がありそうです

「abで始まる」とかだけなら
単純な置換でできる部分もあるけど
「abで始まり、cdで終わる」のように
場合分けである程度複雑な処理をするなら
インタプリタとかコンパイラの仕組みが必要になります

まあ本格的な自然言語処理に比べたら
初歩的なインタプリタなんかオモチャみたいなものですが
それでももしプログラマでない場合
もしくは初心者プログラマの場合かなり難しいでしょう

もしビジネスでどうしても必要なら
外部への発注も検討した方がいいかも
0899869垢版2018/09/13(木) 21:49:58.61ID:8GqTf0bs
>>898
補足

>「abで始まる」
>「abで始まり、cdで終わる」

この部分は何が言いたいかというと
この「始まる」「始まり」の活用をするだけでも
単純な文字列の一括置換ではすぐ壁につきあたってしまうので
そういう「場合分けである程度複雑な処理をするなら」
プログラムを組む必要があるというわけです

言語はある程度メジャーなら何でもいいです
Java、C#、Python、Ruby……など
0900デフォルトの名無しさん垢版2018/09/13(木) 21:57:16.41ID:10dKI03T
>>870
>文法(規範文法じゃなくて記述文法)は自然言語処理の基礎になるものだから、

そういう著作ってどんなものがあるのですか?

高校国語の「現代文の文法」で「接続助詞」は、とてもたくさんの種類があります。
全部を覚えきるのは大変なので、主にテストに出やすい「接続助詞」について、説明していきます。
https://nanapi.jp/ja/98144
0901デフォルトの名無しさん垢版2018/09/14(金) 01:36:36.88ID:jnI/w9ND
>>872
>「文法から逃げ回っている研究者がAIブームに乗じて統計的自然言語処理に逃げ込んでいる」

文法的には『反対の賛成』=『賛成の反対』で正しいが、普段の我々はそういう言い方はしない。

5、結論
  以上の結果より導き出される京大英語で8割を超すための対策は、「ネイティブ英語とは何か」
を定義づけして学ぶことに尽きるだろう。
  たとえば、「この料理はまずい」という英作文なら受験生に多いのが
 This dish tastes poor.
しかし、これは評価されない。なぜなら、英語として正しくてもマナー違反。英検英語なら否定文にして、
This dish isn't good. これでマナーは改善された。
  しかし、ネイティブなら I don't like this dish. と言うだろう。本当に不味い場合は、
Yuck! と叫ぶ。そういう違いだ。
 問題は、
「受験英語の参考書や問題集で取り上げられている構文や表現が現実に使われている英語と違う」
  という事実。それを指導している教師や講師も、外国生活がなく50年前の表現を気づかずに指導して
いること。そのために、校内テストや模試で高得点や上位の順位をとっても落ちてしまうこと。
https://storys.jp/story/18159

京大英語は最新のネイティブ英語を強く意識しており、古くさい受験英語は通じ難い。
0902デフォルトの名無しさん垢版2018/09/14(金) 01:43:51.96ID:jnI/w9ND
>>456
>>31
数学モデルは可能な限り『関数』として予め用意しておき、『文脈』に応じて『選択』する。
0903デフォルトの名無しさん垢版2018/09/14(金) 01:46:13.68ID:fXySkelb
yuck deculture!!!
0904デフォルトの名無しさん垢版2018/09/14(金) 03:34:47.05ID:jnI/w9ND
>>721
>こんなとこで自慰をするのは無様で恥知らずとしか言いようがない

匿名5ちゃんねるで何が『恥』なの? こっちたは肩書き関係無いよ?
0905Maria垢版2018/09/14(金) 05:14:00.78ID:BVvdIn+z
>>896
> 統計ベースが主流になってきてるわけで現実を見ていない
そう見えるのはマシンが速くなってメモリが大きくなって
出現頻度情報と単語間の相関データの利用が進んできて
いるせいでしょう。
基本的な手法は、かれこれ四半世紀は大して進んでいませんよ。
0906Maria垢版2018/09/14(金) 05:19:18.43ID:BVvdIn+z
>>897
可能世界仮説とかを持ってくると
あっという間に爆発するので、
そこは知識表現のところから
見直すしかないんじゃないかと思ってます。
定理の自動証明系なんかも、最近は
実用なレベルで使用されていますし。
0907Maria垢版2018/09/14(金) 05:34:40.35ID:BVvdIn+z
>>900
現状、自然言語処理業界でスタンダードとされているのは、
益岡 隆志/田窪 行則『基礎日本語文法・改訂版』。
ただし、これをそのまんま持ってきて実装しても、
十分な精度は出ないと思う。
文語文法だけど、
鈴木康之著/佐伯梅友監修『日本語文法の基礎』が、
學校文法への批判も含めて、わかりやすい本です。

うちらが作った資料やら辞書やらプログラムやら
文法データがご入用なら、
「BackLog プリンプトン322」で引っかかる
『BackLog』というサイトのフォームからメールを
いただければ、お送りいたします。
0908Maria垢版2018/09/14(金) 06:37:42.37ID:BVvdIn+z
>>900
リンク先の内容に関して、「が」や「と」や「も」には、
多少の注意が必要です。
とりたて詞の「が」と逆説の接続助詞「が」を
間違える人はあまりいませんが、「のが」が
省略されて「が」になることがあります
ex.「ここで遭ったが百年目」。
並列の「と」(「天と地と」)と因果関係の
「と」(「林檎を齧ると歯茎から血がでませんか?」)。
後者は接続詞「すると」と機能は同じ。
助詞「も」(「瑠璃も玻璃も磨けば光る」)と
接続助詞「も」(「そうは言っても」)。
まぁ、前に来る動詞の活用でだいたい判断
できますけどね。
0909Maria垢版2018/09/14(金) 06:41:27.82ID:BVvdIn+z
>>900
活用体系に関する詳細な分析については、
寺村秀夫『日本語のシンタクスと意味 II』
0910Maria垢版2018/09/14(金) 06:46:52.18ID:BVvdIn+z
おっと、途中で送信しちゃったい。

第4章の「活用」をご覧ください。
「なぜ、『連体形』と『終止形』は形が
同じなのか?」「なぜ、未然形と連用形は
形が二つあるのか?」「『仮定形』は『已然形』と
呼ぶのが正しくはないか?」みたいな
議論があり、これを読んでから
益岡 隆志/田窪 行則『基礎日本語文法・改訂版』
を読むと、けっこううんざりします。
0911Maria垢版2018/09/14(金) 07:09:11.41ID:BVvdIn+z
>>911
うちらが使っている活用体系は、
寺村秀夫『日本語のシンタクスと意味 II』だと
松下文法に近いかな?
まず、現代語では「終止形」を立てません。いわゆる
「終止形」は省略による連体形の終止用法とみます。
ただし、文語だと動詞にも形容詞にも終止形があるので、
そこは配慮しましょう。
連体形と連用形は、「現在」と「過去または完了」に
分けて、合わせて四通りとして扱います。このとき、
「た」「だ」「て」「で」は活用語尾に含めるのが
本来のありかたですが、「ちゃった」「じゃった」の
処理との関連で、若干の工夫が必要です。
「仮定形」は「已然形」に名称変更。仮定を表すのは、
「ならば」です。「柿食えば鐘が鳴るなり法隆寺」は、
「柿を食ったら(仮定)鐘が鳴る」ではなく、
「柿を食ったら(已然)鐘が鳴った」です。
0912デフォルトの名無しさん垢版2018/09/14(金) 07:09:30.48ID:jnI/w9ND
>>908
>ex.「ここで遭ったが百年目」

そういうのはレアなケースということで、『統計的機械翻訳』もまだ捨てたものではないと思う。
0913デフォルトの名無しさん垢版2018/09/14(金) 07:20:46.26ID:jnI/w9ND
>>897
>フレーム問題が起きるのも
>組み合わせ爆発があるからでしょう

5ちゃんねらー百万人を動員して、百万通りの『日記』(200字以上400字以内)を書かせればいい。
そうすれば彼女にフラれたとか会社クビになっただとか、大半はありきたりな日常だとわかるはずだ。
ウンコが出なくて肛門に力を入れすぎて脱腸してしまったなんてごく稀な出来事は無視でいい。
0914デフォルトの名無しさん垢版2018/09/14(金) 07:23:55.35ID:jnI/w9ND
>>897
>フレーム問題が起きるのも
>組み合わせ爆発があるからでしょう

龍が如くの神室町でのサブイベントを一万通り追加すればいい。
0915Mr.Moto垢版2018/09/14(金) 08:13:31.90ID:BVvdIn+z
>>912
べつに統計的な手法を機械翻訳に適用するなとかは
言ってない。むしろ必要だと思っている。
「おはよう」「こんにちは」「こんばんは」
「ごきげんいかが」「どういたしまして」なんかは、
パターンで検出してパターンで答えるのが定跡だし。
とくにコンピュータの記憶容量は、そこいらの人間をはるかに
超えている(コンピュータに辞書を何冊も突っ込むことは
できるが、普通の人間は辞書を丸暗記しない)ので、
定型文に関しては、機械翻訳はすでに人間を超えていると
言っていい。
「ここで遭ったが百年目」とくれば「盲亀の浮木優曇華の、
花の咲きたる心地して(中略)いざ尋常に勝負勝ぉぉお負っ!」
くらいのことは、コンピュータには簡単。
ただ、あんまり口うるさいと、ユーザには不評。
「泰山鳴動して鼠一匹」「あれはローマの諺なので
『大山』が正解」
「高根の花」「正しくは『高嶺の花』。『富士の高嶺』と
同様」
とか言ってると「うるせぇな!」ということになる。
0916Mr.Moto垢版2018/09/14(金) 08:37:07.48ID:BVvdIn+z
>>913
そこは業務上の要求とかと相談して、
適宜切り分けるのが順当だろうな。
医療用の問診システムだったら、
「放っとくと治っちゃうような病気」
と「レアケースだけど重篤化する危険性のある
病気」を切り分けて、検査を奨めるとかいった
要求はあるはずだ。
> ウンコが出なくて肛門に力を入れすぎて
> 脱腸してしまった
みたいな例は無視できるかもしれないが、
便秘で高熱が出て浣腸や便摘しないと生命に
危険があるようなケースはないでもないらしい。
0917Maria垢版2018/09/14(金) 08:53:38.40ID:BVvdIn+z
実用性とはあんまり関係がなさそうだけど、
地口とか洒落とかを検出する(あるいは生成する)、
というのは あっても面白いかもしれない。
「感謝感激雨あられ」(元は「乱射乱撃雨あられ」)や、
「残り物には福がある」(「甘いものには福がある」
→「余り物には福がある」→「残り物には福がある」と
変化)みたいな例は、それほどレアな表現では
ないと思いますし。
0918Maria垢版2018/09/14(金) 09:05:39.59ID:BVvdIn+z
>>899
多分にうちらの趣味が入ってますが、
順当なのは Java だと思います。
文字列を処理するのに、いちいち領域の
確保とか開放とか考えなくてすむし、
文字コードに関する処理も言語仕様で
吸収してくれていますから。
「文字列操作が重いんじゃないか?」という
心配はあると思いますが、StringBuffer を
使えばそれほど遅くないだろうし、
「クロウラーと組み合わせて、ネット上の
日本語テキストデータを端から喰う」みたいな
巨大処理でなければ、昨今のパーソナルコンピュータは
高性能なので、さほど気にならないかと存じます
(昔、C でやったときは回線が遅かったので、
実用上の問題はありませんでしたが。むしろ
集めた語彙データを整理するのが手間でした)。
0919デフォルトの名無しさん垢版2018/09/14(金) 09:50:17.88ID:x/9f0NBW
>>456
>コンピューターの画面に、

パソコンに、

>表示させる

キーボード操作とコマンドラインとプログラミング言語で、

>操作をくり返し行う

『操作A』をk回行う。

文脈に応じて意味が全く変わる多義語を理解するための中間言語も用意しておきたい。
点は点でも『得点』なのか『座標点』なのか『要点』なのか、文脈による訳し分けを。
0920Mr.Moto垢版2018/09/14(金) 13:24:11.76ID:BVvdIn+z
>>919
そのあたりは[形態素解析 → 構文解析 → 意味解析]みたいな
ウォーターフォール・モデルを考えれば当然あだろうと
思うが、いまどきは人工知能がブームなんで、そのあたりは
適宜調整するくらいのことはできないだろうか。
0921Maria垢版2018/09/14(金) 15:34:41.55ID:BVvdIn+z
>>919
「コンピューターの画面」は、
「コンピューターのディスプレイ」と同義です。
「コンピューターのディスプレイ」に
「表示する」のは「ディスプレイする」と同義です。
「操作A」の結果は、そのつど異なっている
(少なくとも、「毎回同じである」とは限りません。
乱数要素や時刻などが関係してくる場合を排除
できないからです)と考えるのが妥当です。
そうなると、「パーソナルコンピュータに、
k回ぶんの 操作A の結果をディスプレイさせる」が
とりあえず妥当な表現ではないか、と思いますが、
いかがでしょうか。
0922Mb垢版2018/09/14(金) 15:48:17.75ID:BVvdIn+z
>>918
> StringBuffer を使えば
「StringBuilder のほうが、同期を取らないぶんだけ
速いだろう」と考える奴もいるだろうが、
自然言語処理は、なにしろ人手がかかる。
しょうがないので Web 上にシステムを構築するわけだが、
そうすると必然的にマルチスレッド/マルチプロセスに
なるので、安全性を考えると排他制御を考えるのが
順当なありかた。
まぁ、処理環境がデカかったら、プロセスごとに new して
個別に処理するのも手だろうが、辞書をデータベースに
置くと、登録・削除で どっちみち排他制御が絡んでくるから、
「運用に入ってから適当に考える」くらいの
心づもりでいる。
0923Maria垢版2018/09/14(金) 17:38:30.16ID:BVvdIn+z
>>895
そういえば、五段活用ナ行っていうのは、
「死ぬ」と「去ぬ」だけなんですよね。

これって、自然言語処理の立場でいうと、
「辞書的な処理で解決する(不規則活用と
同じ扱いをする)」のか、「アルゴリズムと
して、一般的な扱いをする(今後、五段活用
ナ行の動詞が、生まれてくる可能性がある)」
のか、そのあたりの方針はわりと重要な感じが
するんですけど、どうでしょう。
0924Maria垢版2018/09/14(金) 17:44:31.09ID:BVvdIn+z
>>721
独りでカイてると寂しいのよね。
だれか相手してくんない?
0925Maria垢版2018/09/14(金) 17:50:13.49ID:BVvdIn+z
あ、間違えた。
>>721 じゃなくて >>904 だった。
0926Mr.Moto垢版2018/09/14(金) 17:52:20.16ID:BVvdIn+z
だからマジスレでネタはやめろと何度言ったら (ry
0927デフォルトの名無しさん垢版2018/09/14(金) 22:58:21.94ID:Z/hoV2jq
>>921
>(少なくとも、「毎回同じである」とは限りません。

無限に解釈できるのかもしれないが、『その他』に指定しておくとか。
0928デフォルトの名無しさん垢版2018/09/14(金) 23:18:31.72ID:Z/hoV2jq
ニューラル翻訳では機械学習で中間言語を生成してしまうとのこと。やはり中間言語方式を採用していきたい。

>>915
>定型文に関しては、機械翻訳はすでに人間を超えていると言っていい。

定型的な言い回しは機械学習でいいが、

>>456
>各操作で、(「記号○と×のいずれかを」「表示させる操作」を「k回繰り返す」。)

厳密な情景描写に関しては、人手で丹念に背景知識と中間言語を補いたい。

>>824
>当時の写真やドキュメンタリー番組などを参考にしているそうです。

われわれ人間だってそうしているのだから。

>>901
>外国生活がなく50年前の表現を気づかずに指導していること

現実世界との接点が無いままの機械的暗記学習では限界がある。
0929デフォルトの名無しさん垢版2018/09/14(金) 23:26:45.19ID:Z/hoV2jq
中間言語方式とは、機械が苦手な多義語について、訳出例をいくつか挙げて、後から絞り込むやり方。
地名や個人名や専門用語は訳出が一つしかないので簡単だが、「その点」とかいうと、
点は点でも文脈によって訳出方法が変わるので、統計的機械翻訳では無理だ。
0930デフォルトの名無しさん垢版2018/09/14(金) 23:35:49.63ID:Z/hoV2jq
>>828
>>863
厳密かつ具体的な情景描写(シミュレーション)については、中間言語を人手で補う必要が生じる。

>>897
>フレーム問題が起きるのも
>組み合わせ爆発があるからでしょう

受験数学のフレームは非常に限られているが、英語に関してはネイティブ重視だと機械翻訳は苦しいかも。
0931デフォルトの名無しさん垢版2018/09/14(金) 23:50:51.08ID:Z/hoV2jq
>>921
> 「操作A」の結果は、そのつど異なっている
>(少なくとも、「毎回同じである」とは限りません。

『操作』と言った場合、何をどうするかについて、訳出の候補を挙げることさえも困難である。
『操作A』は具体的に何をどうするかのシミュレーターに落とし込むには、更なる第二中間言語が必要かも。

>>863
>四番目のステップは「全体の構成と設計」です。

更に高度な情報処理になるが、第二中間言語でプログラミング関数の何かに置き換えるとか。

>>921
>乱数要素や時刻などが関係してくる場合を排除できないからです

ライブラリ関数ならそれもこれも対応しているはずだ。
0932デフォルトの名無しさん垢版2018/09/14(金) 23:54:35.64ID:x/9f0NBW
>>931
>何をどうするかについて、訳出の候補を挙げることさえも困難である。

『無条件降伏』とは、具体的に何をどうすることなのだろうか?

 「無条件降伏」については、確立した定義があるとは承知しておらず、一般的に、「降伏」とは、戦闘行為をやめ、
敵の権力下に入ることを意味し、その際に条件付けのない場合には「無条件降伏」と称されることがあると承知しているが、
その意味するところは文脈等にもよるものであり、したがって、お尋ねの「「無条件降伏」論」について、一概にお答えすることは困難である。
http://www.sangiin.go.jp/japanese/joho1/kousei/syuisyo/180/touh/t180183.htm

『無条件降伏をしたのに、北方領土を返還しろ』とはどういう意味なのか?
0933デフォルトの名無しさん垢版2018/09/14(金) 23:58:08.54ID:fXySkelb
そもそもソ連には降伏もしてもないし
ソ連とは終戦もしてない

国際法どおり

まったく分かってないわ
そもそも文章がおかしい
0934デフォルトの名無しさん垢版2018/09/14(金) 23:58:48.25ID:x/9f0NBW
○小坂国務大臣 政府委員から補足させまするが、カイロ宣言の中には、その南樺太並びに千島という部分は
入っておらないことは御指摘の通りであります。ただ、これを受けてできたポツダム宣言の中において、連合国が
日本の所有する領域をきめるということになっておりまするので、連合国の主張に従って無条件降服をした日本の
立場として、南樺太並びに千島を放棄したということであります。
http://kokkai.ndl.go.jp/SENTAKU/syugiin/039/0514/03910110514008a.html

ソ聯領におもむく意図を以て、有効な旅券を所持せず従つて旅券に入国審査官から出国の
証印を受けないで、判示海岸から右B所有の漁船Aに同人と共に乗船して出航し、
同日夕刻頃ソ聯領下の国後島沖合一五〇米位の海域に到達したものであること原審
認定のとおりであつて、原審の事実認定に誤りは存しない。
http://www.courts.go.jp/hanrei/pdf/js_20100319120139890464.pdf

ちなみにナチスと結んで米英を攻撃した日本は「無条件降伏をしたのに、北方領土を返還しろ」と主張してるのに、
ナチスと結んでソ連を攻撃したフィンランドは「有条件降伏をしたからカレリアを返還しろ」とは言わない。
クリミアは住民投票の結果ロシア領土になったという主張と、北方四島は日本が無条件降伏した結果ロシア領土になったいう主張は、
どちらが正しくてどちらが間違いなのか、あるいは両方間違いなのか両方正しいのか。
0935デフォルトの名無しさん垢版2018/09/15(土) 00:01:00.95ID:KIanXBkQ
そもそもソ連はSFの中にいない
ソ連とは終戦もしてない
ソ連とは降伏もしてない

いまだにソ連とは平和条約すら結んでないからな
0936デフォルトの名無しさん垢版2018/09/15(土) 00:05:36.82ID:KIanXBkQ
南サハリン、千島列島は帰属未定地
国際法的には日本にもソ連にも帰属する根拠はない
しかし、コレは歴史的にみれば日本固有の領土であると主張できる

まちがいなく火事場泥棒の不法占拠

北方四島は国際法に照らしあわせれば
間違いなく日本固有の領土
日本に帰属する根拠はあっても
ソ連に帰属する根拠はない

まちがいなく火事場泥棒の不法占拠
0937デフォルトの名無しさん垢版2018/09/15(土) 00:13:23.66ID:iXfmCcY9
>>936
>北方四島は国際法に照らしあわせれば
>間違いなく日本固有の領土
>日本に帰属する根拠はあっても
>ソ連に帰属する根拠はない

  ソ聯領下の国後島
  ソ聯領下の国後島
  ソ聯領下の国後島
0938デフォルトの名無しさん垢版2018/09/15(土) 00:14:53.72ID:KIanXBkQ
ちなみにSF講和条約のメンツは
みな北方四島は、日本固有の領土だといってる
そして、南サハリン、千島列島がソ連の領土であることも承認してない

しかし、ソ連はSF講和条約のメンツですらないのに
SF講和条約を根拠にしてココはオレの領土だと主張している

しかしSF講和条約のメンツは、そんなことだれも認めてない
もうね頭おかしいワケ
0939Maria垢版2018/09/15(土) 09:10:22.91ID:i3vxjdYh
よそのサイトに書いたことですが、
>>930
「中間言語」として何を考えるか、については >>772
論じた「外延主義」に関する議論にかかわってくると
思います。「金星という天体」という “実在” がまさに
意味だ、と考えると、「竜」とか「文字」とか「数」とか
いった実在としての対応物を持たない概念には、「意味が
ない」ということになってしまいます。
そんなわけで、まず「データ構造ありき」と考えて、
いわゆる「自然言語処理」は逆問題である、と考える
立場があってもいいんじゃないでしょうか。
0940Maria垢版2018/09/15(土) 09:22:59.26ID:i3vxjdYh
>>931
コンピュータに「常識」を持たせてあげないと、
「〇と×のいずれかを」を「〇 xor × のいずれか一方を」
と解釈してくれなくて、「〇×」とか「×〇」とか
出力しちゃうかもしれないので、そこは考えどころですね。
「ケーキセットには紅茶またはコーヒーがつきます」「じゃ、
両方」という古典的なネタもあることですし。
0941Maria垢版2018/09/15(土) 15:36:31.88ID:i3vxjdYh
>>932
>『無条件降伏』とは、具体的に何をどうすることなのだろうか?
軍人が武装を解除して、軍の指揮下ではなく家庭に復すること。

誤った解釈が一般化しちゃうと、自然言語処理もますます
ややこしいことになるので、勘弁してほしいのよねー。

「弱冠」「助長」「破瓜」なんか、正しい意味で使われている
例を見たことがないし。

あと、「蚊帳の外」って、エッチな意味だから、下手に使うと
セクハラになるんだからねっ!
0942Maria垢版2018/09/15(土) 15:46:53.94ID:i3vxjdYh
>>930
> 英語に関してはネイティブ重視だと機械翻訳は苦しいかも。
「五本指」→英語圏では、指は四本。親指は別扱い。
「茶封筒」→英語圏では、イエローな封筒。
「足の指」→英語圏では、「つまさき」で一括。
「玉子焼き」→英語圏では、「フライドエッグ」。「焼く」には
ベークドとかグリルドとかいろいろあり。

そういう意味では、「機械翻訳」ということの意味を問い直す
作業が、機械翻訳が実用レベルに達した現代では、重要に
なってくると思います。
0943Maria垢版2018/09/15(土) 15:53:02.33ID:i3vxjdYh
ところでさぁ、自然言語処理とか日本語処理とか、
日本国内の企業や研究機関で、けっこうやってると
思うのよね。
だったら、正面切って喧嘩売りに来てくれない?
でないと、こっちから押しかけちゃうよ?
0944デフォルトの名無しさん垢版2018/09/15(土) 17:07:36.67ID:JQEN5wSD
>>932
>その意味するところは文脈等にもよるものであり

前後の文脈を徹底的に調べ、かつ他の訳語を当てはめられるかを検証するシステム構築を。

>>931
> 第二中間言語でプログラミング関数の何かに置き換えるとか

抽象的な多義語を具体化してシミュレーションへ誘導する。『引数』と『戻り値』については、

>>26
>>123
>>277
>>282
>>457
のようなRFD研究を進めていきたい。
0945デフォルトの名無しさん垢版2018/09/15(土) 17:13:32.43ID:JQEN5wSD
>>282
>(x,y,z)=(主語,述語,目的語)で、出現頻度の多い順に並べる

リンゴを食べた
ミカンを食べた
ウンコを食べた

さて仲間外れはどれでしょう?
0946デフォルトの名無しさん垢版2018/09/15(土) 17:24:07.29ID:JQEN5wSD
>>282
>出現頻度の少ない組み合わせは、オリジナル表現か
>あるいはナンセンス文かのどちらか

極端に頻度の多い組み合わせと、京大頻度の低い組み合わせは、人力でフォローしていきたい。
前者に関してはライブラリ関数として人手で登録しておき、後者に関しては人手で検証する。

『雲の上を歩いてみようか』
『絵本の中から生まれ始めた物語の行方は』
『女性は子供を産む機械』

などどいうのは、人手で解析する必要が生じる。
0947デフォルトの名無しさん垢版2018/09/15(土) 17:27:41.60ID:JQEN5wSD
>>942
>「玉子焼き」→英語圏では、「フライドエッグ」。「焼く」には
>ベークドとかグリルドとかいろいろあり。

画像認識やシミュレーションとも合わせて、現実世界との接点を広げることが大切と思う。
0948Mb垢版2018/09/15(土) 17:40:17.83ID:i3vxjdYh
>>945
リンゴ
ミカンとウンコは落葉性の仁果類ではない
0949デフォルトの名無しさん垢版2018/09/15(土) 17:42:49.73ID:JQEN5wSD
>>934
>ソ聯領下の国後島

『日本領下の種子島』と比べてどうだ?
0950Maria垢版2018/09/15(土) 17:47:46.94ID:i3vxjdYh
>>947
厳密性の追求と実用性は、
トレードオフの面にも考慮というか
配慮するのが適切ではないでしょうか。
自動車と在来線と新幹線と航空機みたいな
選択肢もあるわけできし。
0951Maria垢版2018/09/15(土) 23:31:55.83ID:i3vxjdYh
そろそろ次スレを立ててもいいかと思ってるんですけど、
あたしが立てちゃっていいのかなぁ?

あと、初期スレとかからの積み残し案件とか、
いろいろあると思うんですけど、そのあたり、
ちゃんと答えておいたほうがいいのかな?
0952Maria垢版2018/09/16(日) 10:07:53.86ID:bnxHgENN
>>3
> 動的に解析する文法を変えたいときは、
> 実行時にパーサジェネレータや
> コンパイラを使わないといけないのか?
言語は「通じる」のが前提なので、既存の言語の
拡張(方言とかネットスラングとか)なのか、
別の体系の言語(英語とかスワヒリ語とか)なのかによって
アプローチは異なると思う。
0953デフォルトの名無しさん垢版2018/09/16(日) 10:15:30.84ID:bnxHgENN
>>4
> word2vec
> paragraph vector
どっちも多変量解析で相関係数出して
因子分解するわけだから、
シソーラス作ったり、「関連する論文を探せ」とか
いった用途には向いていると思う。
ただし、出現頻度が高い一般語と、
出現頻度が低い固有名なんかは、
ノイズになるだけなので、どこかで切り捨てを
行う必要があり、そこは機械学習じゃなくて
人間が行なう必要があると思われ。
0954デフォルトの名無しさん垢版2018/09/16(日) 10:21:25.65ID:bnxHgENN
>>6
n-gram 法は理屈がシンプルなわりにそこそこ
精度が出るから活字 OCR とかには向いてる。
ただ、「もう少し精度を上げたい」とか言われると
辞書を増やす以外に工夫の余地がないのが弱点。
0955デフォルトの名無しさん垢版2018/09/16(日) 10:41:30.32ID:bnxHgENN
>>32
(1) John,fired Dave,because he had too many absesces.(he=dave)
(1) John,fired Dave,because he had too many employees.(he=dave)

は、

(1) John, fired Dave, because he had too many absesces.(he=Dave)
(2) John, fired Dave, because he had too many employees.(he=John)

だろうな。
0956Maria垢版2018/09/16(日) 10:44:42.56ID:bnxHgENN
>>34
「は」は「係助詞」ではなく「とりたて詞」。
0957Maria垢版2018/09/16(日) 10:53:37.11ID:bnxHgENN
>>47
> 新聞とかのデータからから「名詞+助詞+動詞」の
> 組み合わせをひろってきたいんだけど、
> 構文解析する必要ありますか?
ありませんね。形態素解析で十分です。
「いや、もっと精度を上げたい」とかいうと、
また話はややこしくなりますが。
0958デフォルトの名無しさん垢版2018/09/16(日) 10:57:56.86ID:BKY25fNA
>>951
次スレは誰が立ててもいいと思います


>>1
あとスレのテンプレとかに
意見がある人がいたら言って欲しい

>人工無能や哲学的AI話、言語学の話題など
個人的にそれらの話題を外せっていうのは
どうなのかっていう気がする
かなり密接に関連してるし

「あくまで〜」以降は削ってもいいと思う
0959Maria垢版2018/09/16(日) 11:05:33.99ID:bnxHgENN
>>52
> もの凄く精度の高い解析
出現頻度に対する精度だったら一万五千語くらいの
辞書で 99% 以上は楽勝。
ただし「語彙に対する精度」とか言いだすと
地名や人名などの固有名が出てくるとアウト。
その場合は辞書を大きくするか、「辞書未登録+推定
品詞情報」の形で出力してOKかそうでないかを
判定する必要がある。
「ごまめ」を「未登録動詞『ごまむ』の命令形」とか
「くわい」を「未登形容詞『くわい』の連体形現在」とか
言われると困る、という話。
0960デフォルトの名無しさん垢版2018/09/16(日) 11:32:45.38ID:bnxHgENN
>>247
> 英語の論文読むのが苦痛でたまらない
> はやく翻訳装置つくってくれ
辞書引きだけなら簡単だが、
辞書をどこから持ってくるかが問題。
機械翻訳は、「この英文をどう訳すと
この日本語になるんだ?」みたいなことがある。
科学技術用の機械翻訳システムを使ったら、
“He is a boy.”が「ヘリウムは少年です。」と
訳されたという語り種(ぐさ)があった。
0961Maria垢版2018/09/16(日) 15:08:18.91ID:bnxHgENN
>>958
こんな感じでいいのかな?

このスレッドでは、おもに日本語の構文解析・談話理解・情報検索・
文章生成などの、実装と それに付帯する技術および理論について
扱いたいと思っています。

アプリケーション・プログラミングの技術的な面に重点をおきたいので、
学術的な話とか 人工無能とか哲学的AI話とか、言語学の話題などの、
“密接に関連していはいるものの、直接には結びつかない”分野については、
なるべく既存の他スレ、あるいは独立スレにおいて、個別に議論して
いただくよう お願いいたします。
(ただし、その関連性や評価に ついての ご意見や質問等を妨げるものでは
ありません)

以下、【前スレ】
(前スレ張ろうとしたら規制喰らっちゃったい)
0962Maria垢版2018/09/16(日) 15:13:57.57ID:bnxHgENN
>>961
> アプリケーション・プログラミングの技術的な面に重点をおきたいので、
は、
> アプリケーション・プログラミングの実用的・応用的な技術的側面に
重点をおきたいので、
のほうがいいのかしら。
あとは、
「『自然言語処理スレッド』
(//pc11.5ch.net/test/read.cgi/tech/1011988273/)」
が規制に引っかかるかどうかがキモだわね。
0963Maria垢版2018/09/16(日) 15:30:47.96ID:bnxHgENN
>>247
ISAM を使った辞書引きの手法については、
坂井 利之『翻訳するコンピュータ ― 情報革命と語学の壁に挑む』
(講談社ブルーバックス。一九六九年) に載ってます。
具体的な手法については、いま所内で探しているので、ちょっと
待っててねー。Macintosh 用だったら、その昔“rStone-EJ”っていう
アプリがあったんだけどね。
クリップボード経由でのインタフェースと、GUI に関していうと、
Java でも可能なんで、ちょっと面倒臭いけど可能ではあります。
だけど、どうしても辞書のメンテナンスが大変なんですよ。細かい
メンテナンス用のアプリとか作んなきゃなんないし。
なんか、困ってることがあったら言ってくださいねー!
実装のお手伝いくらいなら、できると思うので。
0964Mb垢版2018/09/16(日) 15:34:21.87ID:bnxHgENN
>>959
> 「くわい」を「未登形容詞『くわい』の連体形現在」とか
> 言われると困る
ふはははははは、若輩者め。「くわい」は「動詞『咥う』の
連用形現在」という解釈もあるのを忘れたかぁ!
0965Maria垢版2018/09/16(日) 17:09:08.48ID:bnxHgENN
「ヤマトめ ―― やりおったかヤマトめぇぇぇぇ!」
「総統がおかしくなられた ……」
(読み筋は、『宇宙戦艦ヤマト』)

… と、いうわけで、所長がおかしくなられたので、
我らが大森総研はワケがわかんないことになってます。

まず、JAI-Parser は、島内 剛一先生の「ローマ字かな変換」を
実行できるようになってます。で、「かな漢字変換」も
実行できます。さらに、旧 JAI-Parser は「二階建て」でして、
両方の処理ができたんですね。だけど、「そんなもん(候補の
確定)は人間がやればいいんじゃー」と、暴れていらっしゃいます。
以下、待て続報。
0966Maria垢版2018/09/16(日) 18:03:52.80ID:bnxHgENN
話は変わりますけど、弁護士会のエラいヒトに、
「弁護士の背任罪」について質問したところ、
「そんなことは絶対にありえません!」と
熱弁されていらっしゃいました。
その後、「実際にあったんですけど ……」と
申し上げたら、「『ありえない』というのは、
『ない』という意味ではなく、『あってはならない』
という意味なんですよ」と、なんかしら必死に弁明
していらっしゃいました。
「でも、『絶対に』というのは、『例外なく』という意味ですよね?」
「普通は、そういう意味じゃないんです!」
素数は、「1とそれ自身以外に約数を持たない自然数」のはずですが、
たとえば「6は例外」とかになっちゃうとしたら、自然言語処理って、
けっきょく無力ですよねぇ?
「0は素数」とか「1は素数」とか言われても、「それは例外」だったら、
べつに「256 は例外的に素数」って言われても、納得しなきゃ
いけないわけですから。
0967Maria垢版2018/09/16(日) 18:58:42.91ID:bnxHgENN
前にもたびたび話題になりましたけど、「中間言語」とか
「知識表現」とかいったモノは、ひょっとしたら
必要ないんじゃないの?みたいな話があります。
「文語で書いたモノがあれば、それはデータなんであって、
人間がどう解釈するかっていうのは、けっきょく人間の
都合じゃねぇの?」っていう立場です。
「春は、あけぼの」って言われたら、「平安時代に、清少納言と
呼ばれた人が、『春は、あけぼの』と書き残した」という事実が
あるだけで、「じゃあ、本当に平安時代の春はあけぼのだったのか?」
を確認しようはありません。「だったら平安時代に行ってこい」みたいな
話になるわけですし、文献以外に残っているものは、考古学的な
証拠しかないのですから。
現代社会においても、裁判においては調書と物証がすべてなワケだし、
それが捏造されてて冤罪だったりするかもしれません。
そんなワケで、「意味」については、人間に丸投げしちゃって
いいんじゃないでしょうか。
0968Mb垢版2018/09/16(日) 19:35:22.85ID:bnxHgENN
だいたい、「1+1は2である」けれど、
「1+1は3にも4にもなる」とか言ってる
人類に、自然言語処理システムなんていう
危なっかしいモノを与えちゃダメなんじゃねぇか?
(筒井康隆さんの『アフリカの爆弾』とか
思い出すなぁ)
「マルクス=レーニン主義こそが真の科学であり、
それ以外の科学は、単なるイデオロギーに過ぎない」
とか真面目に信じてる独裁者がいて、社会を浄化するために
反体制勢力を AI で撲滅するシステムを構築したりしたら、
まるっきりジョージ・オーウェルの『1984』じゃねぇか。
0969958垢版2018/09/16(日) 20:22:53.60ID:BKY25fNA
>>961
>アプリケーション・プログラミングの技術的な面に重点をおきたいので〜
いや上以降(原文ではあくまで〜以降)をまるごと削除って意味
テンプレで話題をゴチャゴチャ制限するのって筋悪いと思う
0970デフォルトの名無しさん垢版2018/09/16(日) 21:25:42.42ID:SOVIz+sV
やまとは くにのまほろば たたなづく あをかき やまごもれる やまとし うるはし
0971デフォルトの名無しさん垢版2018/09/16(日) 21:57:31.23ID:ltjz3YFA
>>968
>「1+1は2である」

コンピューターシステムで一般的な二進法では 1+1は10。
0972デフォルトの名無しさん垢版2018/09/17(月) 04:38:41.79ID:rTQuL7Ni
なるほど。それでいいんなら、そっちの方が都合がいいや。
このところ、多少引っかかっていたことがあって、
「文法に関して、もうちょっと足下を固めておいたほうが
いいんじゃないだろうか?」と思いはじめていたので、
「後段は縛りがきついな」と思っていた。
>>971 みたいな話も、考えてみると、けっこう奥が深いし。
0973Mr.Moto垢版2018/09/17(月) 05:01:57.05ID:rTQuL7Ni
>>972
そもそもは、たまたま「ローマ字かな変換とかな漢字変換の
両方が、双方向で簡単にできる」というシステムを作っちゃった
のが発端なんだ。“sinai” が「市内」なのか「竹刀」なのか「親愛」
なのか「sin(ai)」の判別を、構文解析・意味解析・意味解析の
レベルまで保留しておこうとか、ずっと考えてたんだよね。
あるいは「ふたえにまげてくびにかけるじゅず」が「二重に曲げ
手首にかける数珠」なのか「二重に曲げて首にかける数珠」なのか。
「ここではきものをぬいでください」が「ここでは着物を脱いでください」
なのか「ここで履物を脱いでください」なのか。
あるいは、読みを「開く/閉じる」の問題。「話」は名詞だけど「話し」
と書くと動詞の連用形現在になるので、ニュアンスが変わっちゃうとか、
「持ち帰り」か「持帰り」か「持ちかえり」かとか、「書留」は「書留め」
でも「書き留め」でもないけど「書きとめる」は「書き止める」と
書くと「書きとどめる」になるとか、「出だし」は「出出し」と書かないとか、
「とにかく」か「兎に角」かとか「ください」か「下さい」かとか、
そういう「実用的な部分で引っかかるところ」というものに対して、
昨今の自然言語処理の研究者って向かい合ってないように思うんだよ。
「それは文法や文学の問題であって、科学技術の観点からいうと
些末な問題でしかない」と。このスレでも、文法に対する忌避反応と
いうのがあるだろう? だけど、「実用」「応用」を考えると、
それは切り捨てちゃいけないことだと思うんだけどね。
0974Maria垢版2018/09/17(月) 05:21:59.22ID:rTQuL7Ni
>>970
一九五九年に電気試験所で作られた翻訳機械の名前が「やまと」。
0975デフォルトの名無しさん垢版2018/09/17(月) 05:35:32.59ID:rTQuL7Ni
>>971
現代数学的な構成主義によれば、
「2+2=4」。
「1の “次の数” 」として2が定義され、
それを前提として加法が定義される。
この時点で「2+2=4」が導入され、
そこからさらに定義を延長することで、
「1+1=2」が帰結され、加法の
逆操作として減算を考えることで
負数を含めた整数が定義される。
これとは別に、加法のくり返しとしての
乗算が定義されるんだが、乗法の逆演算としての
除法を考えると「0」の扱いがややこしいことになり、
インドでは0が「悪魔の数字」と呼ばれることになる。

このあたりを掌握できる自然言語処理システムとか
考えだすと、あんまり実装っぽい話にならんで
AI 哲学みたいな話になっちゃうんだよなぁ。
0976デフォルトの名無しさん垢版2018/09/17(月) 07:13:46.68ID:C7pw6n1T
>>371
>25000×25000=626000000通りの「共起関係」、
>及び29種類の「属性」を、人力で分析してアノテーションコーパスを作成すべき!

『頻出』と『例外』を検出しておきたい。
0977デフォルトの名無しさん垢版2018/09/17(月) 07:24:42.74ID:C7pw6n1T
自然言語処理の知識はゼロなのでわからないです。面白いアイデアだと思うので、Twitterの自然言語処理が専門の方々に聞いてみては?
https://peing.net/ja/q/417c9e29-35de-4c95-8323-afd6a50fcbc7

コンピューターのための自然言語理解シミュレ
ーターというのは可能ですか?

例えば第二次大戦の推移について、言葉ではな
くて動画で理解する方法もあります。
言葉で説明するよりもマインクラフトのような
創作ゲーム表現に変えたほうが分かりやすいで
す。
けれども自分が読み漁った人工知能や自然言語
処理の本にはそうしたアプローチは見つからな
かったです。
言語はただの記号の羅列で機械は現実世界を全
く知らない。でもそういうことなら、
テレビゲームのような仮想世界をインプットし
て、自然言語で操作したらいいと思います。
というか自然言語入力でときめきメモリアルみ
たいなゲームをやってみたいてす。
0978デフォルトの名無しさん垢版2018/09/17(月) 07:27:25.16ID:C7pw6n1T
教育重視のシナリオの場合は、AI の脳が正しく正確なデータに基づいて学習することを確実にしつつも、
技術の成功と安全性のために はセンサー情報が不可欠です。AirSim を AI 実験、ディープ ラーニング、
強化学習用のためのツールとして改変させ続けることが、本研究プ ロジェクトにおける Microsoft の狙いです。
人工知能がエキサイティングに進化する時代に突入しました。ツールと技術が一 般化して不可能なことも
すぐに可能となるでしょう。アンリアル エンジンを使って多種多様な設計およびリサーチ業界全体で
AI 開発と教育 アプローチを可能にすることで、次世代の人工知能の進化において解き放たれる潜在的な進歩の
大きなレベルがあります。次世代に向けて人工 知能はとてつもなく大きな進歩が期待できます。

2018.4.13
バーチャル シミュレーションを活用してアンリアル エンジンで AI を教育する
https://www.unrealengine.com/ja/blog/ai-in-unreal-engine-learning-through-virtual-simulations
0979デフォルトの名無しさん垢版2018/09/17(月) 07:50:14.66ID:C7pw6n1T
>>940
>コンピュータに「常識」を持たせてあげないと、
>「〇と×のいずれかを」を「〇 xor × のいずれか一方を」
>と解釈してくれなくて、

コンピューターに『人間の常識』を教えるには、一つ一つ丹念にインプットするかシミュレーションしかない。
『AとBのいずれか』『AとBの両方』は、頻出概念として予め人力で登録しておく。
0980デフォルトの名無しさん垢版2018/09/17(月) 07:55:05.14ID:C7pw6n1T
>>459
>【数学の大学入試問題、被りすぎやろ(2017年入試)】

入試数学はパターンが非常に限られているので、丹念に人力インプットするだけでもいい。
2016年の東ロボのような時代遅れの統計的機械翻訳でも偏差値76.2を記録しまのだから。
0981デフォルトの名無しさん垢版2018/09/17(月) 07:58:55.56ID:C7pw6n1T
>>966
>「でも、『絶対に』というのは、『例外なく』という意味ですよね?」

例外は例外として、人力でインプットするしかないと思う。
0983デフォルトの名無しさん垢版2018/09/17(月) 08:22:21.34ID:rTQuL7Ni
新スレを立てようと思ったら、なんかのNGワードで
引っかかってんだが、どこで引っかかってんのか判らん。
(自然言語処理をやってる人間がなんてざまだ (-_-!))
とりあえず誰か

自然言語処理スレッド その5
このスレッドでは、おもに日本語の構文解析・談話理解・情報検索・
文章生成などの、実装とそれに付帯する技術および理論について
扱いたいと思っています。

で立てといてくれ。
0984デフォルトの名無しさん垢版2018/09/17(月) 08:38:07.68ID:C7pw6n1T
>>967
>人間がどう解釈するかっていうのは、けっきょく人間の都合じゃねぇの?

『1秒ごとに』という日本語もねーーーwww

y=9.8x(m/秒)の解釈が『1秒ごとに秒速9.8メートルずつ速度が上がる』というのは数学を持ち出すまで
もなく物理的におかしいでしょう。そんな奇妙な加速をしながら落下する玉を私は見たことがありません。
この本は中高生向けの本なのですが、読解力のある中高生はこの文章を読むと間違った知識を手に入れることになります。
なんとなく『1秒ごとに秒速9.8メートルずつ速度が上がる玉』が、どのような動きなのか気になったので
以下にプログラムを書いてみました。新井紀子教授の世界(Norico’s World)を私たちの世界
(Our World)と合わせてご覧ください。
https://mywarstory.tokyo/nerd-sanctuary/
0985デフォルトの名無しさん垢版2018/09/17(月) 08:50:41.35ID:rTQuL7Ni
>>977
古典的なところでは、積木の世界をターゲットにした
SHRDLUがある。とはいえ、自然言語処理が
人工知能のサブジャンルであるとしても、
自動車の自動運転技術とかが別にあるので
別々に開発して統合するというのも
ひとつの方法だと思う。

ゲームとしての面白さを追求するなら、
人工知能を搭載した軍艦と戦車と航空隊を
日本語で統制するとかいったシミュレーション・
ウォーゲームとかがいいんじゃないだろうか?
「アンノウンは警告に応答しない。依然高度を
下げつつ南下中。火器使用の許可を願う。送れ」
「火器の使用を許可する。送れ」
みたいなのはイケると思う。
「ばかもん。俺のケツを舐めろ」とか、
ぜってー誰かやりそうだが。
0986デフォルトの名無しさん垢版2018/09/17(月) 09:08:02.28ID:rTQuL7Ni
>>984
> y=9.8x(m/秒)の解釈が『1秒ごとに秒速9.8メートルづつ
> 速度が上がる』という
物理を齧った奴だったら、「v=gt (SI 単位系。g ≒ 9.80665 m/sec^2)」
と書いてほしいだろうし、一目見て「真空中の自由落下だろうけど、
どのくらいの規模と精度を考えてるんだろうか?」と考えるだろう。
コンピュータに物理学や力学のセンスを持たせるためにも、
「われわれ人間にとっての “自明性” の正体ってなんだろう?」という
点について掘り下げる必要があると思う。おれなんかは高機能自閉だから、
そういう意味では人生のうちの多くを「自分の行動を妨げる壁」としての
「自明性との闘い」に費やしているので、自然言語処理の研究者に
向いてるっちゃあ向いてると思っているが。
0987デフォルトの名無しさん垢版2018/09/17(月) 09:47:54.36ID:Ep0iz6P/
>>986
>そういう意味では人生のうちの多くを「自分の行動を妨げる壁」としての
>「自明性との闘い」に費やしているので、自然言語処理の研究者に
>向いてるっちゃあ向いてると思っているが。

けれども学会のお偉方というのは、僕らのような無名人の相手は殆どしない。

>>719
>それが学会で評価されると信じるのは、「いつか王子様が」
>みたいなファンタジーでしかない。

死期になったら辞世の句を添えて自費出版、評価されるのは死後でいい。
0988Mr.Moto垢版2018/09/17(月) 11:51:32.81ID:rTQuL7Ni
次スレ
『自然言語処理スレッド その5』
(ttps://mevius.5ch.net/test/read.cgi/tech/1537152490/)

>>983
「立った! クララが立った!」
0989Mr.Moto垢版2018/09/17(月) 12:02:40.21ID:rTQuL7Ni
>>987
そういえば、自然言語処理と(形態素解析レベルの)国文法の
両方の話ができる学会って、どっかにあるんだろうか。
自然言語処理関係の学会で国文法関連の話をすると、あからさまに
厭な顔をされる。
さりとて国文法関連の学会で自然言語処理関連の話をすると、
みなさん逃げ腰になる。

かといって、現代国語の文法を教えている中学校の教諭や、
文語文法を教えている高校の教諭は、「文法」と聞いただけで
面相と顔色が変わるので、教育関係(国語強意kとコンピュータ・
リテラシーとか)関連の学会からも歓迎されないらしい。

だれか、「こういう集まりがあるぞ?」という心当たりのある
方はいらっしゃらないか?

まぁ、おれみたいな強面のおっさんと顔を合わせたくない奴は
多いだろうが、Maria もいるこったし、「お前は出てくんな」と
言われたら、なるべく出てこないようにするが、どうか。
0990Mr.Moto垢版2018/09/17(月) 12:10:13.61ID:rTQuL7Ni
>>989
『言語処理学会』
http://www.anlp.jp/)って、
ぶっちゃけ どんな雰囲気なの?
だれか関係してる人っている?
0991Maria垢版2018/09/17(月) 12:19:11.59ID:rTQuL7Ni
つーか、『自然言語処理学会』っていうのがあるらしいんだけど、
『言語処理学会』と URL が一緒なのよね。
で、国語学に関しては、『計量国語学会』
(ttp://www.math-ling.org/)っていうのがあるらしいんだけど、
どんな雰囲気なの? だれか知ってる人っている?
0992デフォルトの名無しさん垢版2018/09/17(月) 12:22:43.11ID:rTQuL7Ni
>>987
> 死期になったら辞世の句を添えて自費出版、評価されるのは死後でいい。
おれが死ぬまで待ってたら、おれが死ぬまで待ってなきゃいけない
奴が出るだろうがよ。
おれも目の黒いうちに成果を見届けたいし、
視覚障害者・聴覚障害者の方々は、
一刻も早く対処してほしいと思ってるんだよ。
だろ?
0993デフォルトの名無しさん垢版2018/09/17(月) 12:36:42.80ID:rTQuL7Ni
>>987
> けれども学会のお偉方というのは、僕らのような
> 無名人の相手は殆どしない。
意外にそうでもない(まぁ、創価学会とかだと別かもしれんが)。
日本ソフトウェア科学会の総会に出たら、委任状が集まんなくて
「総会が成立しない」というので大騒動になったことがあって、
隣でニヤニヤしながら懇親会用のビールを飲んでいるオッサンが
いたので、よく見たら渕 一博先生だったことがある。
「ロジック・プログラミング・コンファレンス」の大会に行ったら、
隣で「痛たたたたた」と苦しんでいるジイサンがいたので、「大丈夫ですか?」
と訊いたら、「いや、今年の大雪で、大学の敷地内で転んで大腿骨を骨折
しまして」とおっしゃるので「元気なジジイだな」と思いつつも「何かあったら
おっしゃってくださいね」と言ったら、「私、こういう者です」という名刺を出されて
見たら一松 信先生 m(_ _)m
本当に偉いジジババは、生い先短いから、面白いネタに貪欲なんだと思う。
「ザコに構ってる暇がない」んであって、本当に面白いネタを持ってくか
どうかだと思う。
0994デフォルトの名無しさん垢版2018/09/17(月) 12:40:14.13ID:rTQuL7Ni
>>981
> 例外は例外として、人力でインプットするしかないと思う。
例外を認めたら論理が破綻するので、
「人力でインプットする」ことを認めちゃダメだと思う。
0995デフォルトの名無しさん垢版2018/09/17(月) 14:13:45.42ID:rTQuL7Ni
>>944
> 「人力でインプットする」ことを認めちゃダメだと思う。
つーか、「入力」と「インプット」は同義語なんで、
本来は「人力でインプットする」は冗語なのだ、と思う。

とはいえ、「情報」と「データ」の違いについて
理解していない人が多いので、「通じない言語は
言語としての意味があるのか?」という疑問を
感じた。
0996デフォルトの名無しさん垢版2018/09/17(月) 14:39:38.35ID:rTQuL7Ni
>>976
共起関係つーか連接関係については
某企業で科研費を貰っているというので
成果を上げないとヤヴァイ、というので
尻拭いで やったことがあるが、
担当者が相関表を読めなかったので
「ここに相関が出てるじゃねぇか (w」と
指摘したら取締役兼部長に嫌われて
首馘(くび)になった。

別の会社で、「論文どうしの相関に基いて、
類似した論文を検索したい」という要求が
(特に名を秘す、某)日本産婦人学会(仮名。
実在する学会等とは関係ありません)と
(特に名を秘す、某)日本脊椎脊髄病学会(仮名。
実在する学会等とは関係ありません)
から「なんとかならんか?」という話があって、
「共起関係に基づく相関について分析すると、
ありもののツールで構築すれば なんとかなりますけど、
シソーラスとか いろいろ作らなきゃいけないので、実工数
ベースで三百万円、エンドユーザを対象に一からアプリケーション
を作るのを商売でやるんだったら、千五百万円くらい貰わないと、
こっちがペイしません」と正直に答えた。

そうしたら、お客さんが「他所でも同じことを言われたが、
向こうは五千万と言ってた」と、ボソッと言ってたという。

その後の経緯については、おれは馘首になったので知らない。
0997デフォルトの名無しさん垢版2018/09/17(月) 14:49:32.06ID:rTQuL7Ni
>>966
> 「立った! クララが立った!」
どこかの動物園で、コビトカバの雌が生まれたので、
名前を公募したところ、ダントツ(「断然トップ」の略)で
「クララ」と命名されたという話がある。

そんなわけで、日本と日本語は、とうぶん大丈夫だと思っている。

「クララのカバッ!」
読み筋は、『アルプスの少女ハイジ』。
0998Maria垢版2018/09/17(月) 15:10:53.47ID:rTQuL7Ni
>>282
> (x,y,z)=(主語,述語,目的語)で、出現頻度の多い順に並べる、
> あるいは少ない順に並べる。高頻度のトリプルがやたら多いと
> いうことは、
> 逆に言えば他と似たり寄ったりでつまらないコンテンツである
> 可能性が高い。出現頻度の少ない組み合わせは、オリジナル表現か
> あるいはナンセンス文かのどちらか。
に関してコメントしておくと、これは
(v, s, o, c) =(述語、主格、目的格, 与格)
くらいにしておくのが順当だと思われます。
述語がないと文にならないし、
「れる・られる」が入ってくると、主語と目的語の
交替が起きたりします。
方向格とか到達格とかいうのが あるのか、という問題は
あると思うんですけど、とりあえず、「なくても困らないんじゃないか」
という意見はあります。
0999デフォルトの名無しさん垢版2018/09/17(月) 17:04:14.73ID:rTQuL7Ni
『言語処理学会』とか『計量国語学会』とか、
入会したほうがいいのかなぁ。
いちおう論文のネタになるような話は
いくつかあるんだが。
1000Maria垢版2018/09/17(月) 17:10:32.28ID:rTQuL7Ni
「四段活用 h 行音末尾動詞」は、
h 音の消失によって a/o/u 音が指標になったとか、
形態素解析は(本来は構文解析の手法として知られている)
チャート法で、かなりの精度で行えるとか、
五段活用 n 行音末尾動詞は、「死ぬ」「去(い)ぬ」
以外に見当たらないとか、
「来る」「する」以外に、「言う」「行く」および
「乞う/請う」「問う」という不規則活用動詞(変格
活用動詞)があるとか、いろいろあるんですけどね?
10011001垢版Over 1000Thread
このスレッドは1000を超えました。
新しいスレッドを立ててください。
life time: 1567日 11時間 30分 32秒
10021002垢版Over 1000Thread
5ちゃんねるの運営はプレミアム会員の皆さまに支えられています。
運営にご協力お願いいたします。


───────────────────
《プレミアム会員の主な特典》
★ 5ちゃんねる専用ブラウザからの広告除去
★ 5ちゃんねるの過去ログを取得
★ 書き込み規制の緩和
───────────────────

会員登録には個人情報は一切必要ありません。
月300円から匿名でご購入いただけます。

▼ プレミアム会員登録はこちら ▼
https://premium.5ch.net/

▼ 浪人ログインはこちら ▼
https://login.5ch.net/login.php
レス数が1000を超えています。これ以上書き込みはできません。

ニューススポーツなんでも実況