X

自然言語処理スレッド その4

レス数が1000を超えています。これ以上書き込みはできません。
1デフォルトの名無しさん
垢版 |
2014/06/03(火) 05:40:00.54ID:yefNLumx
前前スレ 自然言語処理スレッド その2
http://mimizun.com/log/2ch/tech/1173105287/
前スレ 自然言語処理スレッド その3
http://mimizun.com/log/2ch/tech/1235129481/

このスレッドでは、日本語の構文解析、談話理解、情報検索、
文章生成などの技術に関する理論と(おもに)実装を扱います。
あくまでアプリケーションプログラミングの技術的な面に重点をおきたいので、
学術的な話はアリですが、いわゆる人工無能や哲学的AI話、
言語学の話題などは他のスレッドでお願いします。
915Mr.Moto
垢版 |
2018/09/14(金) 08:13:31.90ID:BVvdIn+z
>>912
べつに統計的な手法を機械翻訳に適用するなとかは
言ってない。むしろ必要だと思っている。
「おはよう」「こんにちは」「こんばんは」
「ごきげんいかが」「どういたしまして」なんかは、
パターンで検出してパターンで答えるのが定跡だし。
とくにコンピュータの記憶容量は、そこいらの人間をはるかに
超えている(コンピュータに辞書を何冊も突っ込むことは
できるが、普通の人間は辞書を丸暗記しない)ので、
定型文に関しては、機械翻訳はすでに人間を超えていると
言っていい。
「ここで遭ったが百年目」とくれば「盲亀の浮木優曇華の、
花の咲きたる心地して(中略)いざ尋常に勝負勝ぉぉお負っ!」
くらいのことは、コンピュータには簡単。
ただ、あんまり口うるさいと、ユーザには不評。
「泰山鳴動して鼠一匹」「あれはローマの諺なので
『大山』が正解」
「高根の花」「正しくは『高嶺の花』。『富士の高嶺』と
同様」
とか言ってると「うるせぇな!」ということになる。
916Mr.Moto
垢版 |
2018/09/14(金) 08:37:07.48ID:BVvdIn+z
>>913
そこは業務上の要求とかと相談して、
適宜切り分けるのが順当だろうな。
医療用の問診システムだったら、
「放っとくと治っちゃうような病気」
と「レアケースだけど重篤化する危険性のある
病気」を切り分けて、検査を奨めるとかいった
要求はあるはずだ。
> ウンコが出なくて肛門に力を入れすぎて
> 脱腸してしまった
みたいな例は無視できるかもしれないが、
便秘で高熱が出て浣腸や便摘しないと生命に
危険があるようなケースはないでもないらしい。
917Maria
垢版 |
2018/09/14(金) 08:53:38.40ID:BVvdIn+z
実用性とはあんまり関係がなさそうだけど、
地口とか洒落とかを検出する(あるいは生成する)、
というのは あっても面白いかもしれない。
「感謝感激雨あられ」(元は「乱射乱撃雨あられ」)や、
「残り物には福がある」(「甘いものには福がある」
→「余り物には福がある」→「残り物には福がある」と
変化)みたいな例は、それほどレアな表現では
ないと思いますし。
918Maria
垢版 |
2018/09/14(金) 09:05:39.59ID:BVvdIn+z
>>899
多分にうちらの趣味が入ってますが、
順当なのは Java だと思います。
文字列を処理するのに、いちいち領域の
確保とか開放とか考えなくてすむし、
文字コードに関する処理も言語仕様で
吸収してくれていますから。
「文字列操作が重いんじゃないか?」という
心配はあると思いますが、StringBuffer を
使えばそれほど遅くないだろうし、
「クロウラーと組み合わせて、ネット上の
日本語テキストデータを端から喰う」みたいな
巨大処理でなければ、昨今のパーソナルコンピュータは
高性能なので、さほど気にならないかと存じます
(昔、C でやったときは回線が遅かったので、
実用上の問題はありませんでしたが。むしろ
集めた語彙データを整理するのが手間でした)。
919デフォルトの名無しさん
垢版 |
2018/09/14(金) 09:50:17.88ID:x/9f0NBW
>>456
>コンピューターの画面に、

パソコンに、

>表示させる

キーボード操作とコマンドラインとプログラミング言語で、

>操作をくり返し行う

『操作A』をk回行う。

文脈に応じて意味が全く変わる多義語を理解するための中間言語も用意しておきたい。
点は点でも『得点』なのか『座標点』なのか『要点』なのか、文脈による訳し分けを。
920Mr.Moto
垢版 |
2018/09/14(金) 13:24:11.76ID:BVvdIn+z
>>919
そのあたりは[形態素解析 → 構文解析 → 意味解析]みたいな
ウォーターフォール・モデルを考えれば当然あだろうと
思うが、いまどきは人工知能がブームなんで、そのあたりは
適宜調整するくらいのことはできないだろうか。
921Maria
垢版 |
2018/09/14(金) 15:34:41.55ID:BVvdIn+z
>>919
「コンピューターの画面」は、
「コンピューターのディスプレイ」と同義です。
「コンピューターのディスプレイ」に
「表示する」のは「ディスプレイする」と同義です。
「操作A」の結果は、そのつど異なっている
(少なくとも、「毎回同じである」とは限りません。
乱数要素や時刻などが関係してくる場合を排除
できないからです)と考えるのが妥当です。
そうなると、「パーソナルコンピュータに、
k回ぶんの 操作A の結果をディスプレイさせる」が
とりあえず妥当な表現ではないか、と思いますが、
いかがでしょうか。
922Mb
垢版 |
2018/09/14(金) 15:48:17.75ID:BVvdIn+z
>>918
> StringBuffer を使えば
「StringBuilder のほうが、同期を取らないぶんだけ
速いだろう」と考える奴もいるだろうが、
自然言語処理は、なにしろ人手がかかる。
しょうがないので Web 上にシステムを構築するわけだが、
そうすると必然的にマルチスレッド/マルチプロセスに
なるので、安全性を考えると排他制御を考えるのが
順当なありかた。
まぁ、処理環境がデカかったら、プロセスごとに new して
個別に処理するのも手だろうが、辞書をデータベースに
置くと、登録・削除で どっちみち排他制御が絡んでくるから、
「運用に入ってから適当に考える」くらいの
心づもりでいる。
923Maria
垢版 |
2018/09/14(金) 17:38:30.16ID:BVvdIn+z
>>895
そういえば、五段活用ナ行っていうのは、
「死ぬ」と「去ぬ」だけなんですよね。

これって、自然言語処理の立場でいうと、
「辞書的な処理で解決する(不規則活用と
同じ扱いをする)」のか、「アルゴリズムと
して、一般的な扱いをする(今後、五段活用
ナ行の動詞が、生まれてくる可能性がある)」
のか、そのあたりの方針はわりと重要な感じが
するんですけど、どうでしょう。
924Maria
垢版 |
2018/09/14(金) 17:44:31.09ID:BVvdIn+z
>>721
独りでカイてると寂しいのよね。
だれか相手してくんない?
925Maria
垢版 |
2018/09/14(金) 17:50:13.49ID:BVvdIn+z
あ、間違えた。
>>721 じゃなくて >>904 だった。
926Mr.Moto
垢版 |
2018/09/14(金) 17:52:20.16ID:BVvdIn+z
だからマジスレでネタはやめろと何度言ったら (ry
927デフォルトの名無しさん
垢版 |
2018/09/14(金) 22:58:21.94ID:Z/hoV2jq
>>921
>(少なくとも、「毎回同じである」とは限りません。

無限に解釈できるのかもしれないが、『その他』に指定しておくとか。
928デフォルトの名無しさん
垢版 |
2018/09/14(金) 23:18:31.72ID:Z/hoV2jq
ニューラル翻訳では機械学習で中間言語を生成してしまうとのこと。やはり中間言語方式を採用していきたい。

>>915
>定型文に関しては、機械翻訳はすでに人間を超えていると言っていい。

定型的な言い回しは機械学習でいいが、

>>456
>各操作で、(「記号○と×のいずれかを」「表示させる操作」を「k回繰り返す」。)

厳密な情景描写に関しては、人手で丹念に背景知識と中間言語を補いたい。

>>824
>当時の写真やドキュメンタリー番組などを参考にしているそうです。

われわれ人間だってそうしているのだから。

>>901
>外国生活がなく50年前の表現を気づかずに指導していること

現実世界との接点が無いままの機械的暗記学習では限界がある。
929デフォルトの名無しさん
垢版 |
2018/09/14(金) 23:26:45.19ID:Z/hoV2jq
中間言語方式とは、機械が苦手な多義語について、訳出例をいくつか挙げて、後から絞り込むやり方。
地名や個人名や専門用語は訳出が一つしかないので簡単だが、「その点」とかいうと、
点は点でも文脈によって訳出方法が変わるので、統計的機械翻訳では無理だ。
930デフォルトの名無しさん
垢版 |
2018/09/14(金) 23:35:49.63ID:Z/hoV2jq
>>828
>>863
厳密かつ具体的な情景描写(シミュレーション)については、中間言語を人手で補う必要が生じる。

>>897
>フレーム問題が起きるのも
>組み合わせ爆発があるからでしょう

受験数学のフレームは非常に限られているが、英語に関してはネイティブ重視だと機械翻訳は苦しいかも。
931デフォルトの名無しさん
垢版 |
2018/09/14(金) 23:50:51.08ID:Z/hoV2jq
>>921
> 「操作A」の結果は、そのつど異なっている
>(少なくとも、「毎回同じである」とは限りません。

『操作』と言った場合、何をどうするかについて、訳出の候補を挙げることさえも困難である。
『操作A』は具体的に何をどうするかのシミュレーターに落とし込むには、更なる第二中間言語が必要かも。

>>863
>四番目のステップは「全体の構成と設計」です。

更に高度な情報処理になるが、第二中間言語でプログラミング関数の何かに置き換えるとか。

>>921
>乱数要素や時刻などが関係してくる場合を排除できないからです

ライブラリ関数ならそれもこれも対応しているはずだ。
932デフォルトの名無しさん
垢版 |
2018/09/14(金) 23:54:35.64ID:x/9f0NBW
>>931
>何をどうするかについて、訳出の候補を挙げることさえも困難である。

『無条件降伏』とは、具体的に何をどうすることなのだろうか?

 「無条件降伏」については、確立した定義があるとは承知しておらず、一般的に、「降伏」とは、戦闘行為をやめ、
敵の権力下に入ることを意味し、その際に条件付けのない場合には「無条件降伏」と称されることがあると承知しているが、
その意味するところは文脈等にもよるものであり、したがって、お尋ねの「「無条件降伏」論」について、一概にお答えすることは困難である。
http://www.sangiin.go.jp/japanese/joho1/kousei/syuisyo/180/touh/t180183.htm

『無条件降伏をしたのに、北方領土を返還しろ』とはどういう意味なのか?
933デフォルトの名無しさん
垢版 |
2018/09/14(金) 23:58:08.54ID:fXySkelb
そもそもソ連には降伏もしてもないし
ソ連とは終戦もしてない

国際法どおり

まったく分かってないわ
そもそも文章がおかしい
934デフォルトの名無しさん
垢版 |
2018/09/14(金) 23:58:48.25ID:x/9f0NBW
○小坂国務大臣 政府委員から補足させまするが、カイロ宣言の中には、その南樺太並びに千島という部分は
入っておらないことは御指摘の通りであります。ただ、これを受けてできたポツダム宣言の中において、連合国が
日本の所有する領域をきめるということになっておりまするので、連合国の主張に従って無条件降服をした日本の
立場として、南樺太並びに千島を放棄したということであります。
http://kokkai.ndl.go.jp/SENTAKU/syugiin/039/0514/03910110514008a.html

ソ聯領におもむく意図を以て、有効な旅券を所持せず従つて旅券に入国審査官から出国の
証印を受けないで、判示海岸から右B所有の漁船Aに同人と共に乗船して出航し、
同日夕刻頃ソ聯領下の国後島沖合一五〇米位の海域に到達したものであること原審
認定のとおりであつて、原審の事実認定に誤りは存しない。
http://www.courts.go.jp/hanrei/pdf/js_20100319120139890464.pdf

ちなみにナチスと結んで米英を攻撃した日本は「無条件降伏をしたのに、北方領土を返還しろ」と主張してるのに、
ナチスと結んでソ連を攻撃したフィンランドは「有条件降伏をしたからカレリアを返還しろ」とは言わない。
クリミアは住民投票の結果ロシア領土になったという主張と、北方四島は日本が無条件降伏した結果ロシア領土になったいう主張は、
どちらが正しくてどちらが間違いなのか、あるいは両方間違いなのか両方正しいのか。
935デフォルトの名無しさん
垢版 |
2018/09/15(土) 00:01:00.95ID:KIanXBkQ
そもそもソ連はSFの中にいない
ソ連とは終戦もしてない
ソ連とは降伏もしてない

いまだにソ連とは平和条約すら結んでないからな
936デフォルトの名無しさん
垢版 |
2018/09/15(土) 00:05:36.82ID:KIanXBkQ
南サハリン、千島列島は帰属未定地
国際法的には日本にもソ連にも帰属する根拠はない
しかし、コレは歴史的にみれば日本固有の領土であると主張できる

まちがいなく火事場泥棒の不法占拠

北方四島は国際法に照らしあわせれば
間違いなく日本固有の領土
日本に帰属する根拠はあっても
ソ連に帰属する根拠はない

まちがいなく火事場泥棒の不法占拠
937デフォルトの名無しさん
垢版 |
2018/09/15(土) 00:13:23.66ID:iXfmCcY9
>>936
>北方四島は国際法に照らしあわせれば
>間違いなく日本固有の領土
>日本に帰属する根拠はあっても
>ソ連に帰属する根拠はない

  ソ聯領下の国後島
  ソ聯領下の国後島
  ソ聯領下の国後島
938デフォルトの名無しさん
垢版 |
2018/09/15(土) 00:14:53.72ID:KIanXBkQ
ちなみにSF講和条約のメンツは
みな北方四島は、日本固有の領土だといってる
そして、南サハリン、千島列島がソ連の領土であることも承認してない

しかし、ソ連はSF講和条約のメンツですらないのに
SF講和条約を根拠にしてココはオレの領土だと主張している

しかしSF講和条約のメンツは、そんなことだれも認めてない
もうね頭おかしいワケ
939Maria
垢版 |
2018/09/15(土) 09:10:22.91ID:i3vxjdYh
よそのサイトに書いたことですが、
>>930
「中間言語」として何を考えるか、については >>772
論じた「外延主義」に関する議論にかかわってくると
思います。「金星という天体」という “実在” がまさに
意味だ、と考えると、「竜」とか「文字」とか「数」とか
いった実在としての対応物を持たない概念には、「意味が
ない」ということになってしまいます。
そんなわけで、まず「データ構造ありき」と考えて、
いわゆる「自然言語処理」は逆問題である、と考える
立場があってもいいんじゃないでしょうか。
940Maria
垢版 |
2018/09/15(土) 09:22:59.26ID:i3vxjdYh
>>931
コンピュータに「常識」を持たせてあげないと、
「〇と×のいずれかを」を「〇 xor × のいずれか一方を」
と解釈してくれなくて、「〇×」とか「×〇」とか
出力しちゃうかもしれないので、そこは考えどころですね。
「ケーキセットには紅茶またはコーヒーがつきます」「じゃ、
両方」という古典的なネタもあることですし。
941Maria
垢版 |
2018/09/15(土) 15:36:31.88ID:i3vxjdYh
>>932
>『無条件降伏』とは、具体的に何をどうすることなのだろうか?
軍人が武装を解除して、軍の指揮下ではなく家庭に復すること。

誤った解釈が一般化しちゃうと、自然言語処理もますます
ややこしいことになるので、勘弁してほしいのよねー。

「弱冠」「助長」「破瓜」なんか、正しい意味で使われている
例を見たことがないし。

あと、「蚊帳の外」って、エッチな意味だから、下手に使うと
セクハラになるんだからねっ!
942Maria
垢版 |
2018/09/15(土) 15:46:53.94ID:i3vxjdYh
>>930
> 英語に関してはネイティブ重視だと機械翻訳は苦しいかも。
「五本指」→英語圏では、指は四本。親指は別扱い。
「茶封筒」→英語圏では、イエローな封筒。
「足の指」→英語圏では、「つまさき」で一括。
「玉子焼き」→英語圏では、「フライドエッグ」。「焼く」には
ベークドとかグリルドとかいろいろあり。

そういう意味では、「機械翻訳」ということの意味を問い直す
作業が、機械翻訳が実用レベルに達した現代では、重要に
なってくると思います。
943Maria
垢版 |
2018/09/15(土) 15:53:02.33ID:i3vxjdYh
ところでさぁ、自然言語処理とか日本語処理とか、
日本国内の企業や研究機関で、けっこうやってると
思うのよね。
だったら、正面切って喧嘩売りに来てくれない?
でないと、こっちから押しかけちゃうよ?
944デフォルトの名無しさん
垢版 |
2018/09/15(土) 17:07:36.67ID:JQEN5wSD
>>932
>その意味するところは文脈等にもよるものであり

前後の文脈を徹底的に調べ、かつ他の訳語を当てはめられるかを検証するシステム構築を。

>>931
> 第二中間言語でプログラミング関数の何かに置き換えるとか

抽象的な多義語を具体化してシミュレーションへ誘導する。『引数』と『戻り値』については、

>>26
>>123
>>277
>>282
>>457
のようなRFD研究を進めていきたい。
945デフォルトの名無しさん
垢版 |
2018/09/15(土) 17:13:32.43ID:JQEN5wSD
>>282
>(x,y,z)=(主語,述語,目的語)で、出現頻度の多い順に並べる

リンゴを食べた
ミカンを食べた
ウンコを食べた

さて仲間外れはどれでしょう?
946デフォルトの名無しさん
垢版 |
2018/09/15(土) 17:24:07.29ID:JQEN5wSD
>>282
>出現頻度の少ない組み合わせは、オリジナル表現か
>あるいはナンセンス文かのどちらか

極端に頻度の多い組み合わせと、京大頻度の低い組み合わせは、人力でフォローしていきたい。
前者に関してはライブラリ関数として人手で登録しておき、後者に関しては人手で検証する。

『雲の上を歩いてみようか』
『絵本の中から生まれ始めた物語の行方は』
『女性は子供を産む機械』

などどいうのは、人手で解析する必要が生じる。
947デフォルトの名無しさん
垢版 |
2018/09/15(土) 17:27:41.60ID:JQEN5wSD
>>942
>「玉子焼き」→英語圏では、「フライドエッグ」。「焼く」には
>ベークドとかグリルドとかいろいろあり。

画像認識やシミュレーションとも合わせて、現実世界との接点を広げることが大切と思う。
948Mb
垢版 |
2018/09/15(土) 17:40:17.83ID:i3vxjdYh
>>945
リンゴ
ミカンとウンコは落葉性の仁果類ではない
949デフォルトの名無しさん
垢版 |
2018/09/15(土) 17:42:49.73ID:JQEN5wSD
>>934
>ソ聯領下の国後島

『日本領下の種子島』と比べてどうだ?
950Maria
垢版 |
2018/09/15(土) 17:47:46.94ID:i3vxjdYh
>>947
厳密性の追求と実用性は、
トレードオフの面にも考慮というか
配慮するのが適切ではないでしょうか。
自動車と在来線と新幹線と航空機みたいな
選択肢もあるわけできし。
951Maria
垢版 |
2018/09/15(土) 23:31:55.83ID:i3vxjdYh
そろそろ次スレを立ててもいいかと思ってるんですけど、
あたしが立てちゃっていいのかなぁ?

あと、初期スレとかからの積み残し案件とか、
いろいろあると思うんですけど、そのあたり、
ちゃんと答えておいたほうがいいのかな?
952Maria
垢版 |
2018/09/16(日) 10:07:53.86ID:bnxHgENN
>>3
> 動的に解析する文法を変えたいときは、
> 実行時にパーサジェネレータや
> コンパイラを使わないといけないのか?
言語は「通じる」のが前提なので、既存の言語の
拡張(方言とかネットスラングとか)なのか、
別の体系の言語(英語とかスワヒリ語とか)なのかによって
アプローチは異なると思う。
2018/09/16(日) 10:15:30.84ID:bnxHgENN
>>4
> word2vec
> paragraph vector
どっちも多変量解析で相関係数出して
因子分解するわけだから、
シソーラス作ったり、「関連する論文を探せ」とか
いった用途には向いていると思う。
ただし、出現頻度が高い一般語と、
出現頻度が低い固有名なんかは、
ノイズになるだけなので、どこかで切り捨てを
行う必要があり、そこは機械学習じゃなくて
人間が行なう必要があると思われ。
2018/09/16(日) 10:21:25.65ID:bnxHgENN
>>6
n-gram 法は理屈がシンプルなわりにそこそこ
精度が出るから活字 OCR とかには向いてる。
ただ、「もう少し精度を上げたい」とか言われると
辞書を増やす以外に工夫の余地がないのが弱点。
2018/09/16(日) 10:41:30.32ID:bnxHgENN
>>32
(1) John,fired Dave,because he had too many absesces.(he=dave)
(1) John,fired Dave,because he had too many employees.(he=dave)

は、

(1) John, fired Dave, because he had too many absesces.(he=Dave)
(2) John, fired Dave, because he had too many employees.(he=John)

だろうな。
956Maria
垢版 |
2018/09/16(日) 10:44:42.56ID:bnxHgENN
>>34
「は」は「係助詞」ではなく「とりたて詞」。
957Maria
垢版 |
2018/09/16(日) 10:53:37.11ID:bnxHgENN
>>47
> 新聞とかのデータからから「名詞+助詞+動詞」の
> 組み合わせをひろってきたいんだけど、
> 構文解析する必要ありますか?
ありませんね。形態素解析で十分です。
「いや、もっと精度を上げたい」とかいうと、
また話はややこしくなりますが。
2018/09/16(日) 10:57:56.86ID:BKY25fNA
>>951
次スレは誰が立ててもいいと思います


>>1
あとスレのテンプレとかに
意見がある人がいたら言って欲しい

>人工無能や哲学的AI話、言語学の話題など
個人的にそれらの話題を外せっていうのは
どうなのかっていう気がする
かなり密接に関連してるし

「あくまで〜」以降は削ってもいいと思う
959Maria
垢版 |
2018/09/16(日) 11:05:33.99ID:bnxHgENN
>>52
> もの凄く精度の高い解析
出現頻度に対する精度だったら一万五千語くらいの
辞書で 99% 以上は楽勝。
ただし「語彙に対する精度」とか言いだすと
地名や人名などの固有名が出てくるとアウト。
その場合は辞書を大きくするか、「辞書未登録+推定
品詞情報」の形で出力してOKかそうでないかを
判定する必要がある。
「ごまめ」を「未登録動詞『ごまむ』の命令形」とか
「くわい」を「未登形容詞『くわい』の連体形現在」とか
言われると困る、という話。
2018/09/16(日) 11:32:45.38ID:bnxHgENN
>>247
> 英語の論文読むのが苦痛でたまらない
> はやく翻訳装置つくってくれ
辞書引きだけなら簡単だが、
辞書をどこから持ってくるかが問題。
機械翻訳は、「この英文をどう訳すと
この日本語になるんだ?」みたいなことがある。
科学技術用の機械翻訳システムを使ったら、
“He is a boy.”が「ヘリウムは少年です。」と
訳されたという語り種(ぐさ)があった。
961Maria
垢版 |
2018/09/16(日) 15:08:18.91ID:bnxHgENN
>>958
こんな感じでいいのかな?

このスレッドでは、おもに日本語の構文解析・談話理解・情報検索・
文章生成などの、実装と それに付帯する技術および理論について
扱いたいと思っています。

アプリケーション・プログラミングの技術的な面に重点をおきたいので、
学術的な話とか 人工無能とか哲学的AI話とか、言語学の話題などの、
“密接に関連していはいるものの、直接には結びつかない”分野については、
なるべく既存の他スレ、あるいは独立スレにおいて、個別に議論して
いただくよう お願いいたします。
(ただし、その関連性や評価に ついての ご意見や質問等を妨げるものでは
ありません)

以下、【前スレ】
(前スレ張ろうとしたら規制喰らっちゃったい)
962Maria
垢版 |
2018/09/16(日) 15:13:57.57ID:bnxHgENN
>>961
> アプリケーション・プログラミングの技術的な面に重点をおきたいので、
は、
> アプリケーション・プログラミングの実用的・応用的な技術的側面に
重点をおきたいので、
のほうがいいのかしら。
あとは、
「『自然言語処理スレッド』
(//pc11.5ch.net/test/read.cgi/tech/1011988273/)」
が規制に引っかかるかどうかがキモだわね。
963Maria
垢版 |
2018/09/16(日) 15:30:47.96ID:bnxHgENN
>>247
ISAM を使った辞書引きの手法については、
坂井 利之『翻訳するコンピュータ ― 情報革命と語学の壁に挑む』
(講談社ブルーバックス。一九六九年) に載ってます。
具体的な手法については、いま所内で探しているので、ちょっと
待っててねー。Macintosh 用だったら、その昔“rStone-EJ”っていう
アプリがあったんだけどね。
クリップボード経由でのインタフェースと、GUI に関していうと、
Java でも可能なんで、ちょっと面倒臭いけど可能ではあります。
だけど、どうしても辞書のメンテナンスが大変なんですよ。細かい
メンテナンス用のアプリとか作んなきゃなんないし。
なんか、困ってることがあったら言ってくださいねー!
実装のお手伝いくらいなら、できると思うので。
964Mb
垢版 |
2018/09/16(日) 15:34:21.87ID:bnxHgENN
>>959
> 「くわい」を「未登形容詞『くわい』の連体形現在」とか
> 言われると困る
ふはははははは、若輩者め。「くわい」は「動詞『咥う』の
連用形現在」という解釈もあるのを忘れたかぁ!
965Maria
垢版 |
2018/09/16(日) 17:09:08.48ID:bnxHgENN
「ヤマトめ ―― やりおったかヤマトめぇぇぇぇ!」
「総統がおかしくなられた ……」
(読み筋は、『宇宙戦艦ヤマト』)

… と、いうわけで、所長がおかしくなられたので、
我らが大森総研はワケがわかんないことになってます。

まず、JAI-Parser は、島内 剛一先生の「ローマ字かな変換」を
実行できるようになってます。で、「かな漢字変換」も
実行できます。さらに、旧 JAI-Parser は「二階建て」でして、
両方の処理ができたんですね。だけど、「そんなもん(候補の
確定)は人間がやればいいんじゃー」と、暴れていらっしゃいます。
以下、待て続報。
966Maria
垢版 |
2018/09/16(日) 18:03:52.80ID:bnxHgENN
話は変わりますけど、弁護士会のエラいヒトに、
「弁護士の背任罪」について質問したところ、
「そんなことは絶対にありえません!」と
熱弁されていらっしゃいました。
その後、「実際にあったんですけど ……」と
申し上げたら、「『ありえない』というのは、
『ない』という意味ではなく、『あってはならない』
という意味なんですよ」と、なんかしら必死に弁明
していらっしゃいました。
「でも、『絶対に』というのは、『例外なく』という意味ですよね?」
「普通は、そういう意味じゃないんです!」
素数は、「1とそれ自身以外に約数を持たない自然数」のはずですが、
たとえば「6は例外」とかになっちゃうとしたら、自然言語処理って、
けっきょく無力ですよねぇ?
「0は素数」とか「1は素数」とか言われても、「それは例外」だったら、
べつに「256 は例外的に素数」って言われても、納得しなきゃ
いけないわけですから。
967Maria
垢版 |
2018/09/16(日) 18:58:42.91ID:bnxHgENN
前にもたびたび話題になりましたけど、「中間言語」とか
「知識表現」とかいったモノは、ひょっとしたら
必要ないんじゃないの?みたいな話があります。
「文語で書いたモノがあれば、それはデータなんであって、
人間がどう解釈するかっていうのは、けっきょく人間の
都合じゃねぇの?」っていう立場です。
「春は、あけぼの」って言われたら、「平安時代に、清少納言と
呼ばれた人が、『春は、あけぼの』と書き残した」という事実が
あるだけで、「じゃあ、本当に平安時代の春はあけぼのだったのか?」
を確認しようはありません。「だったら平安時代に行ってこい」みたいな
話になるわけですし、文献以外に残っているものは、考古学的な
証拠しかないのですから。
現代社会においても、裁判においては調書と物証がすべてなワケだし、
それが捏造されてて冤罪だったりするかもしれません。
そんなワケで、「意味」については、人間に丸投げしちゃって
いいんじゃないでしょうか。
968Mb
垢版 |
2018/09/16(日) 19:35:22.85ID:bnxHgENN
だいたい、「1+1は2である」けれど、
「1+1は3にも4にもなる」とか言ってる
人類に、自然言語処理システムなんていう
危なっかしいモノを与えちゃダメなんじゃねぇか?
(筒井康隆さんの『アフリカの爆弾』とか
思い出すなぁ)
「マルクス=レーニン主義こそが真の科学であり、
それ以外の科学は、単なるイデオロギーに過ぎない」
とか真面目に信じてる独裁者がいて、社会を浄化するために
反体制勢力を AI で撲滅するシステムを構築したりしたら、
まるっきりジョージ・オーウェルの『1984』じゃねぇか。
969958
垢版 |
2018/09/16(日) 20:22:53.60ID:BKY25fNA
>>961
>アプリケーション・プログラミングの技術的な面に重点をおきたいので〜
いや上以降(原文ではあくまで〜以降)をまるごと削除って意味
テンプレで話題をゴチャゴチャ制限するのって筋悪いと思う
970デフォルトの名無しさん
垢版 |
2018/09/16(日) 21:25:42.42ID:SOVIz+sV
やまとは くにのまほろば たたなづく あをかき やまごもれる やまとし うるはし
971デフォルトの名無しさん
垢版 |
2018/09/16(日) 21:57:31.23ID:ltjz3YFA
>>968
>「1+1は2である」

コンピューターシステムで一般的な二進法では 1+1は10。
972デフォルトの名無しさん
垢版 |
2018/09/17(月) 04:38:41.79ID:rTQuL7Ni
なるほど。それでいいんなら、そっちの方が都合がいいや。
このところ、多少引っかかっていたことがあって、
「文法に関して、もうちょっと足下を固めておいたほうが
いいんじゃないだろうか?」と思いはじめていたので、
「後段は縛りがきついな」と思っていた。
>>971 みたいな話も、考えてみると、けっこう奥が深いし。
973Mr.Moto
垢版 |
2018/09/17(月) 05:01:57.05ID:rTQuL7Ni
>>972
そもそもは、たまたま「ローマ字かな変換とかな漢字変換の
両方が、双方向で簡単にできる」というシステムを作っちゃった
のが発端なんだ。“sinai” が「市内」なのか「竹刀」なのか「親愛」
なのか「sin(ai)」の判別を、構文解析・意味解析・意味解析の
レベルまで保留しておこうとか、ずっと考えてたんだよね。
あるいは「ふたえにまげてくびにかけるじゅず」が「二重に曲げ
手首にかける数珠」なのか「二重に曲げて首にかける数珠」なのか。
「ここではきものをぬいでください」が「ここでは着物を脱いでください」
なのか「ここで履物を脱いでください」なのか。
あるいは、読みを「開く/閉じる」の問題。「話」は名詞だけど「話し」
と書くと動詞の連用形現在になるので、ニュアンスが変わっちゃうとか、
「持ち帰り」か「持帰り」か「持ちかえり」かとか、「書留」は「書留め」
でも「書き留め」でもないけど「書きとめる」は「書き止める」と
書くと「書きとどめる」になるとか、「出だし」は「出出し」と書かないとか、
「とにかく」か「兎に角」かとか「ください」か「下さい」かとか、
そういう「実用的な部分で引っかかるところ」というものに対して、
昨今の自然言語処理の研究者って向かい合ってないように思うんだよ。
「それは文法や文学の問題であって、科学技術の観点からいうと
些末な問題でしかない」と。このスレでも、文法に対する忌避反応と
いうのがあるだろう? だけど、「実用」「応用」を考えると、
それは切り捨てちゃいけないことだと思うんだけどね。
974Maria
垢版 |
2018/09/17(月) 05:21:59.22ID:rTQuL7Ni
>>970
一九五九年に電気試験所で作られた翻訳機械の名前が「やまと」。
2018/09/17(月) 05:35:32.59ID:rTQuL7Ni
>>971
現代数学的な構成主義によれば、
「2+2=4」。
「1の “次の数” 」として2が定義され、
それを前提として加法が定義される。
この時点で「2+2=4」が導入され、
そこからさらに定義を延長することで、
「1+1=2」が帰結され、加法の
逆操作として減算を考えることで
負数を含めた整数が定義される。
これとは別に、加法のくり返しとしての
乗算が定義されるんだが、乗法の逆演算としての
除法を考えると「0」の扱いがややこしいことになり、
インドでは0が「悪魔の数字」と呼ばれることになる。

このあたりを掌握できる自然言語処理システムとか
考えだすと、あんまり実装っぽい話にならんで
AI 哲学みたいな話になっちゃうんだよなぁ。
976デフォルトの名無しさん
垢版 |
2018/09/17(月) 07:13:46.68ID:C7pw6n1T
>>371
>25000×25000=626000000通りの「共起関係」、
>及び29種類の「属性」を、人力で分析してアノテーションコーパスを作成すべき!

『頻出』と『例外』を検出しておきたい。
977デフォルトの名無しさん
垢版 |
2018/09/17(月) 07:24:42.74ID:C7pw6n1T
自然言語処理の知識はゼロなのでわからないです。面白いアイデアだと思うので、Twitterの自然言語処理が専門の方々に聞いてみては?
https://peing.net/ja/q/417c9e29-35de-4c95-8323-afd6a50fcbc7

コンピューターのための自然言語理解シミュレ
ーターというのは可能ですか?

例えば第二次大戦の推移について、言葉ではな
くて動画で理解する方法もあります。
言葉で説明するよりもマインクラフトのような
創作ゲーム表現に変えたほうが分かりやすいで
す。
けれども自分が読み漁った人工知能や自然言語
処理の本にはそうしたアプローチは見つからな
かったです。
言語はただの記号の羅列で機械は現実世界を全
く知らない。でもそういうことなら、
テレビゲームのような仮想世界をインプットし
て、自然言語で操作したらいいと思います。
というか自然言語入力でときめきメモリアルみ
たいなゲームをやってみたいてす。
978デフォルトの名無しさん
垢版 |
2018/09/17(月) 07:27:25.16ID:C7pw6n1T
教育重視のシナリオの場合は、AI の脳が正しく正確なデータに基づいて学習することを確実にしつつも、
技術の成功と安全性のために はセンサー情報が不可欠です。AirSim を AI 実験、ディープ ラーニング、
強化学習用のためのツールとして改変させ続けることが、本研究プ ロジェクトにおける Microsoft の狙いです。
人工知能がエキサイティングに進化する時代に突入しました。ツールと技術が一 般化して不可能なことも
すぐに可能となるでしょう。アンリアル エンジンを使って多種多様な設計およびリサーチ業界全体で
AI 開発と教育 アプローチを可能にすることで、次世代の人工知能の進化において解き放たれる潜在的な進歩の
大きなレベルがあります。次世代に向けて人工 知能はとてつもなく大きな進歩が期待できます。

2018.4.13
バーチャル シミュレーションを活用してアンリアル エンジンで AI を教育する
https://www.unrealengine.com/ja/blog/ai-in-unreal-engine-learning-through-virtual-simulations
979デフォルトの名無しさん
垢版 |
2018/09/17(月) 07:50:14.66ID:C7pw6n1T
>>940
>コンピュータに「常識」を持たせてあげないと、
>「〇と×のいずれかを」を「〇 xor × のいずれか一方を」
>と解釈してくれなくて、

コンピューターに『人間の常識』を教えるには、一つ一つ丹念にインプットするかシミュレーションしかない。
『AとBのいずれか』『AとBの両方』は、頻出概念として予め人力で登録しておく。
980デフォルトの名無しさん
垢版 |
2018/09/17(月) 07:55:05.14ID:C7pw6n1T
>>459
>【数学の大学入試問題、被りすぎやろ(2017年入試)】

入試数学はパターンが非常に限られているので、丹念に人力インプットするだけでもいい。
2016年の東ロボのような時代遅れの統計的機械翻訳でも偏差値76.2を記録しまのだから。
981デフォルトの名無しさん
垢版 |
2018/09/17(月) 07:58:55.56ID:C7pw6n1T
>>966
>「でも、『絶対に』というのは、『例外なく』という意味ですよね?」

例外は例外として、人力でインプットするしかないと思う。
982デフォルトの名無しさん
垢版 |
2018/09/17(月) 08:08:16.13ID:C7pw6n1T
国民的番組の笑いを生んだ『8時だョ!全員集合』の舞台セットデザイン
https://wired.jp/2017/02/25/the-drifters/#galleryimage_259267-1493_1

言語理解シミュレーションのための舞台セットも用意しておきたい!
2018/09/17(月) 08:22:21.34ID:rTQuL7Ni
新スレを立てようと思ったら、なんかのNGワードで
引っかかってんだが、どこで引っかかってんのか判らん。
(自然言語処理をやってる人間がなんてざまだ (-_-!))
とりあえず誰か

自然言語処理スレッド その5
このスレッドでは、おもに日本語の構文解析・談話理解・情報検索・
文章生成などの、実装とそれに付帯する技術および理論について
扱いたいと思っています。

で立てといてくれ。
984デフォルトの名無しさん
垢版 |
2018/09/17(月) 08:38:07.68ID:C7pw6n1T
>>967
>人間がどう解釈するかっていうのは、けっきょく人間の都合じゃねぇの?

『1秒ごとに』という日本語もねーーーwww

y=9.8x(m/秒)の解釈が『1秒ごとに秒速9.8メートルずつ速度が上がる』というのは数学を持ち出すまで
もなく物理的におかしいでしょう。そんな奇妙な加速をしながら落下する玉を私は見たことがありません。
この本は中高生向けの本なのですが、読解力のある中高生はこの文章を読むと間違った知識を手に入れることになります。
なんとなく『1秒ごとに秒速9.8メートルずつ速度が上がる玉』が、どのような動きなのか気になったので
以下にプログラムを書いてみました。新井紀子教授の世界(Norico’s World)を私たちの世界
(Our World)と合わせてご覧ください。
https://mywarstory.tokyo/nerd-sanctuary/
2018/09/17(月) 08:50:41.35ID:rTQuL7Ni
>>977
古典的なところでは、積木の世界をターゲットにした
SHRDLUがある。とはいえ、自然言語処理が
人工知能のサブジャンルであるとしても、
自動車の自動運転技術とかが別にあるので
別々に開発して統合するというのも
ひとつの方法だと思う。

ゲームとしての面白さを追求するなら、
人工知能を搭載した軍艦と戦車と航空隊を
日本語で統制するとかいったシミュレーション・
ウォーゲームとかがいいんじゃないだろうか?
「アンノウンは警告に応答しない。依然高度を
下げつつ南下中。火器使用の許可を願う。送れ」
「火器の使用を許可する。送れ」
みたいなのはイケると思う。
「ばかもん。俺のケツを舐めろ」とか、
ぜってー誰かやりそうだが。
2018/09/17(月) 09:08:02.28ID:rTQuL7Ni
>>984
> y=9.8x(m/秒)の解釈が『1秒ごとに秒速9.8メートルづつ
> 速度が上がる』という
物理を齧った奴だったら、「v=gt (SI 単位系。g ≒ 9.80665 m/sec^2)」
と書いてほしいだろうし、一目見て「真空中の自由落下だろうけど、
どのくらいの規模と精度を考えてるんだろうか?」と考えるだろう。
コンピュータに物理学や力学のセンスを持たせるためにも、
「われわれ人間にとっての “自明性” の正体ってなんだろう?」という
点について掘り下げる必要があると思う。おれなんかは高機能自閉だから、
そういう意味では人生のうちの多くを「自分の行動を妨げる壁」としての
「自明性との闘い」に費やしているので、自然言語処理の研究者に
向いてるっちゃあ向いてると思っているが。
987デフォルトの名無しさん
垢版 |
2018/09/17(月) 09:47:54.36ID:Ep0iz6P/
>>986
>そういう意味では人生のうちの多くを「自分の行動を妨げる壁」としての
>「自明性との闘い」に費やしているので、自然言語処理の研究者に
>向いてるっちゃあ向いてると思っているが。

けれども学会のお偉方というのは、僕らのような無名人の相手は殆どしない。

>>719
>それが学会で評価されると信じるのは、「いつか王子様が」
>みたいなファンタジーでしかない。

死期になったら辞世の句を添えて自費出版、評価されるのは死後でいい。
988Mr.Moto
垢版 |
2018/09/17(月) 11:51:32.81ID:rTQuL7Ni
次スレ
『自然言語処理スレッド その5』
(ttps://mevius.5ch.net/test/read.cgi/tech/1537152490/)

>>983
「立った! クララが立った!」
989Mr.Moto
垢版 |
2018/09/17(月) 12:02:40.21ID:rTQuL7Ni
>>987
そういえば、自然言語処理と(形態素解析レベルの)国文法の
両方の話ができる学会って、どっかにあるんだろうか。
自然言語処理関係の学会で国文法関連の話をすると、あからさまに
厭な顔をされる。
さりとて国文法関連の学会で自然言語処理関連の話をすると、
みなさん逃げ腰になる。

かといって、現代国語の文法を教えている中学校の教諭や、
文語文法を教えている高校の教諭は、「文法」と聞いただけで
面相と顔色が変わるので、教育関係(国語強意kとコンピュータ・
リテラシーとか)関連の学会からも歓迎されないらしい。

だれか、「こういう集まりがあるぞ?」という心当たりのある
方はいらっしゃらないか?

まぁ、おれみたいな強面のおっさんと顔を合わせたくない奴は
多いだろうが、Maria もいるこったし、「お前は出てくんな」と
言われたら、なるべく出てこないようにするが、どうか。
990Mr.Moto
垢版 |
2018/09/17(月) 12:10:13.61ID:rTQuL7Ni
>>989
『言語処理学会』
http://www.anlp.jp/)って、
ぶっちゃけ どんな雰囲気なの?
だれか関係してる人っている?
991Maria
垢版 |
2018/09/17(月) 12:19:11.59ID:rTQuL7Ni
つーか、『自然言語処理学会』っていうのがあるらしいんだけど、
『言語処理学会』と URL が一緒なのよね。
で、国語学に関しては、『計量国語学会』
(ttp://www.math-ling.org/)っていうのがあるらしいんだけど、
どんな雰囲気なの? だれか知ってる人っている?
2018/09/17(月) 12:22:43.11ID:rTQuL7Ni
>>987
> 死期になったら辞世の句を添えて自費出版、評価されるのは死後でいい。
おれが死ぬまで待ってたら、おれが死ぬまで待ってなきゃいけない
奴が出るだろうがよ。
おれも目の黒いうちに成果を見届けたいし、
視覚障害者・聴覚障害者の方々は、
一刻も早く対処してほしいと思ってるんだよ。
だろ?
2018/09/17(月) 12:36:42.80ID:rTQuL7Ni
>>987
> けれども学会のお偉方というのは、僕らのような
> 無名人の相手は殆どしない。
意外にそうでもない(まぁ、創価学会とかだと別かもしれんが)。
日本ソフトウェア科学会の総会に出たら、委任状が集まんなくて
「総会が成立しない」というので大騒動になったことがあって、
隣でニヤニヤしながら懇親会用のビールを飲んでいるオッサンが
いたので、よく見たら渕 一博先生だったことがある。
「ロジック・プログラミング・コンファレンス」の大会に行ったら、
隣で「痛たたたたた」と苦しんでいるジイサンがいたので、「大丈夫ですか?」
と訊いたら、「いや、今年の大雪で、大学の敷地内で転んで大腿骨を骨折
しまして」とおっしゃるので「元気なジジイだな」と思いつつも「何かあったら
おっしゃってくださいね」と言ったら、「私、こういう者です」という名刺を出されて
見たら一松 信先生 m(_ _)m
本当に偉いジジババは、生い先短いから、面白いネタに貪欲なんだと思う。
「ザコに構ってる暇がない」んであって、本当に面白いネタを持ってくか
どうかだと思う。
2018/09/17(月) 12:40:14.13ID:rTQuL7Ni
>>981
> 例外は例外として、人力でインプットするしかないと思う。
例外を認めたら論理が破綻するので、
「人力でインプットする」ことを認めちゃダメだと思う。
2018/09/17(月) 14:13:45.42ID:rTQuL7Ni
>>944
> 「人力でインプットする」ことを認めちゃダメだと思う。
つーか、「入力」と「インプット」は同義語なんで、
本来は「人力でインプットする」は冗語なのだ、と思う。

とはいえ、「情報」と「データ」の違いについて
理解していない人が多いので、「通じない言語は
言語としての意味があるのか?」という疑問を
感じた。
2018/09/17(月) 14:39:38.35ID:rTQuL7Ni
>>976
共起関係つーか連接関係については
某企業で科研費を貰っているというので
成果を上げないとヤヴァイ、というので
尻拭いで やったことがあるが、
担当者が相関表を読めなかったので
「ここに相関が出てるじゃねぇか (w」と
指摘したら取締役兼部長に嫌われて
首馘(くび)になった。

別の会社で、「論文どうしの相関に基いて、
類似した論文を検索したい」という要求が
(特に名を秘す、某)日本産婦人学会(仮名。
実在する学会等とは関係ありません)と
(特に名を秘す、某)日本脊椎脊髄病学会(仮名。
実在する学会等とは関係ありません)
から「なんとかならんか?」という話があって、
「共起関係に基づく相関について分析すると、
ありもののツールで構築すれば なんとかなりますけど、
シソーラスとか いろいろ作らなきゃいけないので、実工数
ベースで三百万円、エンドユーザを対象に一からアプリケーション
を作るのを商売でやるんだったら、千五百万円くらい貰わないと、
こっちがペイしません」と正直に答えた。

そうしたら、お客さんが「他所でも同じことを言われたが、
向こうは五千万と言ってた」と、ボソッと言ってたという。

その後の経緯については、おれは馘首になったので知らない。
2018/09/17(月) 14:49:32.06ID:rTQuL7Ni
>>966
> 「立った! クララが立った!」
どこかの動物園で、コビトカバの雌が生まれたので、
名前を公募したところ、ダントツ(「断然トップ」の略)で
「クララ」と命名されたという話がある。

そんなわけで、日本と日本語は、とうぶん大丈夫だと思っている。

「クララのカバッ!」
読み筋は、『アルプスの少女ハイジ』。
998Maria
垢版 |
2018/09/17(月) 15:10:53.47ID:rTQuL7Ni
>>282
> (x,y,z)=(主語,述語,目的語)で、出現頻度の多い順に並べる、
> あるいは少ない順に並べる。高頻度のトリプルがやたら多いと
> いうことは、
> 逆に言えば他と似たり寄ったりでつまらないコンテンツである
> 可能性が高い。出現頻度の少ない組み合わせは、オリジナル表現か
> あるいはナンセンス文かのどちらか。
に関してコメントしておくと、これは
(v, s, o, c) =(述語、主格、目的格, 与格)
くらいにしておくのが順当だと思われます。
述語がないと文にならないし、
「れる・られる」が入ってくると、主語と目的語の
交替が起きたりします。
方向格とか到達格とかいうのが あるのか、という問題は
あると思うんですけど、とりあえず、「なくても困らないんじゃないか」
という意見はあります。
2018/09/17(月) 17:04:14.73ID:rTQuL7Ni
『言語処理学会』とか『計量国語学会』とか、
入会したほうがいいのかなぁ。
いちおう論文のネタになるような話は
いくつかあるんだが。
1000Maria
垢版 |
2018/09/17(月) 17:10:32.28ID:rTQuL7Ni
「四段活用 h 行音末尾動詞」は、
h 音の消失によって a/o/u 音が指標になったとか、
形態素解析は(本来は構文解析の手法として知られている)
チャート法で、かなりの精度で行えるとか、
五段活用 n 行音末尾動詞は、「死ぬ」「去(い)ぬ」
以外に見当たらないとか、
「来る」「する」以外に、「言う」「行く」および
「乞う/請う」「問う」という不規則活用動詞(変格
活用動詞)があるとか、いろいろあるんですけどね?
10011001
垢版 |
Over 1000Thread
このスレッドは1000を超えました。
新しいスレッドを立ててください。
life time: 1567日 11時間 30分 32秒
レス数が1000を超えています。これ以上書き込みはできません。
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況