自然言語処理スレッド その4

レス数が950を超えています。1000を超えると書き込みができなくなります。
1デフォルトの名無しさん
垢版 |
2014/06/03(火) 05:40:00.54ID:yefNLumx
前前スレ 自然言語処理スレッド その2
http://mimizun.com/log/2ch/tech/1173105287/
前スレ 自然言語処理スレッド その3
http://mimizun.com/log/2ch/tech/1235129481/

このスレッドでは、日本語の構文解析、談話理解、情報検索、
文章生成などの技術に関する理論と(おもに)実装を扱います。
あくまでアプリケーションプログラミングの技術的な面に重点をおきたいので、
学術的な話はアリですが、いわゆる人工無能や哲学的AI話、
言語学の話題などは他のスレッドでお願いします。
878Maria
垢版 |
2018/09/13(木) 09:01:14.03ID:7E5J/vlY
>>875
そうそう。実際に、それだけで大雑把な形態素解析はできちゃうのよ。
まず、改行で区切れるでしょ?
次に、句読点で切れる …… はずなんだけど、「モーニング娘。」
とか「藤岡弘、」とかいった例外があるから要注意。
で、次に括弧の中身と外側を分けて、括弧の中が文なのか名詞など
のような文法上の役割を持っているかどうかを判断します。ここは
文法的な処理があるから、人間に任せないと精度が悪くなるので、
「括弧の入った文章は、機械的にやると精度が落ちるんで、
辞書作成のときくらいにしか使えない」と思ってください。
次に、長尾真先生がおっしゃっていた方法があって、
「文頭から見ていって、非漢字から漢字に替わるところで切ると、
だいたい文節で切れる」という経験則があります(なお、カタカナ
語については自分で考えてみてね)。例外は「う歯」「えん罪」
「すい星」「ら致」や、接頭語の「お」「ご」。
ここまでで、文節レベルの形態素解析は済んだようなものです。
で、文節に分けたら、形容詞句・動詞句・接続句・修飾句その他に
分けて、活用や接続規則を個別に処理してゆきます。いちばん
簡単なのが形容詞で、しかも数百個しかありません。つぎに動詞で、
これは千五百個くらいあります。名詞句は名詞の数だけあるわけ
だから、地名・姓・名まで含めると、何十万という数になりましが、
地名の「紫波(しわ)」「日出(ひじ)」なんかを下手に登録すると、
かな漢字変換に使ったときに(はい。JAI-Parser は双方向です)、
ちょっとムカッとします。
879Maria
垢版 |
2018/09/13(木) 09:12:22.19ID:7E5J/vlY
>>877
「Zipf の法則」というものがありましてですね、
「そこそこ実用的」くらいのところで妥協すると、
以外に多くないんですよ。
とくに、ジャンルを限定すれば、現在のパーソナル
コンピュータでも、わりと簡単に処理できるくらいの
規模になっちゃうと思います。
そのあたりで業務なり生活環境なりに投入して、
そこから先の「常識」は、使いながら付け足して
ゆく、というアプローチでけっこうなんとかなるだろう、と
思ってます。
880デフォルトの名無しさん
垢版 |
2018/09/13(木) 09:48:19.34ID:HZBiSGJZ
正規表現を言語化できるようなとこ知りませんか?

/^ab/
これを入れると、

「abで始まる」
と変換されるようなサービスって無いでしょうか?
881Maria
垢版 |
2018/09/13(木) 11:44:59.06ID:7E5J/vlY
>>880
そのくらいだったら Java で書けば早いんじゃない?
C 言語は文字列の扱いが大雑把(つーか、システム記述用
なので、可変長データを扱おうとすると、メモリリークとか
ワイルドポインタとか、ややこしいことになります)。
そうなると LISP なんだけど、LISP の処理系って、それほど
電算業界に普及してないのと GUI をサポートしていないのも
あって、LISP 勉強しても仕事で食ってけないのよ。
その点、Java はとりあえず飯の種になるし、バージョン 1.4
以降は正規表現もサポートしてるし、動的な記憶領域管理も
ちゃんと行なってて文字列の扱いも楽(ライブラリ関数も
けっこう充実してます)なので、とりあえず自分で
プログラム書いてみたら?
882Maria
垢版 |
2018/09/13(木) 11:55:02.11ID:7E5J/vlY
>>880
正規表現を一からコーディングする、とかいった
根性があるんでしたら、
カーニハンとプロ―ジャー著/木村 泉 訳の
『ソフトウェア作法(Software Tools)』(共立出版)
あたりから入門するのが適切かと思います。
だけど、フツーのプログラミング言語で正規表現を
処理しようと思うと、けっこう面倒臭いんですよね。
ですから、うちらは途中に仮想言語と仮想マシンをかませた、
という事情があります。
883Maria
垢版 |
2018/09/13(木) 12:03:48.10ID:7E5J/vlY
>>880
仮想言語と仮想マシンの実装については、
『BCPL : 言語とそのコンパイラ 』(共立出版)が
参考になります。
前段階としては、『やさしいコンパイラの作り方』
(同じく共立出版。中西正和先生がお書きになっています)
あたりを読んでおけば、そんなに難しくありませんよ。
もっとも、義務教育でプログラミング教育を受けている、
いまどきの中学生・高校生・大学生のような
ディジタルネイティブ世代とは、話が噛み合わない危惧も
ございますけど。
884Maria
垢版 |
2018/09/13(木) 12:32:14.22ID:7E5J/vlY
そうそう。最近、「丼ぶり」という表記を見ると、
イラッとします。「丼」という字は、「井戸の中に
何かを放りこんだ音が、『どんぶり』と聞こえる」と
いうのが発祥だと云われているんですよね。
語源としては、韓国語の「湯鉢(スープ用の、深い皿。
タンブリ)」だと云われています。
ですから、「丼」の訓は「どんぶり」であって、「どん」では
ありません。日本語処理の観点では、「カツ丼」「天丼」
「親子丼」「玉子丼」「鉄火丼」「湘南丼」「深川丼」
「海鮮丼」などを登録したうえで、「丼」を「どん」と入力する
例を運用レベルで吸収するのが本来のありかただと思うんですが、
「丼ぶり」が一般化しちゃうと、処理がバッティングするんですよね。

日本語処理に興味のある方にお伺いします。こういうのって、
どう思います?
885Maria
垢版 |
2018/09/13(木) 13:35:17.50ID:7E5J/vlY
>>873
ガウク大統領って、
・妻ゲアヒルド(ハンズィ)と子供が4人居るが妻とは現在も
正式には離婚していない
・一九九〇年から「ディー・ツァイト」紙のヘルガ・ヒルシュ記者と
同棲していた。
・一九九八年からは「ニュルンベルガーツァイトゥング」の
政治記者であったダニエラ・シャットと現在まで
十年以上にわたる交際を続けている。シャットは大統領夫人として
ガウクとベルリンで生活している。
というヒトですよね?
886Mb
垢版 |
2018/09/13(木) 13:45:47.68ID:7E5J/vlY
>>871
> なお、組合せ論的な爆発というのは、実用レベルでは
> ほとんど起きません。
>>884
> 「丼」の訓は「どんぶり」であって、「どん」では
> ありません。
「丼ぶり」→(「丼」に「どんぶり」の訓を適用する)
→「丼ぶりぶり」→再帰的に変換規則を適用して、
「丼ぶりぶり」に変換→以下、「丼ぶりぶりぶりぶりぶり
ぶりぶり ……」
スタックオーバーフローを起こしてマシンがクラッシュ(笑)
やーいやーい。
2018/09/13(木) 15:16:18.24ID:qwTTf/gn
>>880
視覚化してくれるサイトならいくつもあるけど言語化となると思い付かない
888Maria
垢版 |
2018/09/13(木) 15:24:50.49ID:7E5J/vlY
>>887
とりあえず、「バッカス・ナウア記法」あたりから
ググッてみるとよろしいんじゃないですか?
「言語化」というと、いろいろ難しい問題があると
思います。細井勉先生の、『数とことばの迷い道』
あたりをとっかかりにするのが、ひょっとしたら
正解かもしれません。
889Maria
垢版 |
2018/09/13(木) 15:28:13.49ID:7E5J/vlY
>>886
てめぇ憶えてろよ
月夜の晩ばかりじゃねぇんだぞ
大川に蓋はできねぇぞ?
890Mr.Moto
垢版 |
2018/09/13(木) 15:31:16.86ID:7E5J/vlY
>>886 >>889
マジスレでネタはやめれ
891Maria
垢版 |
2018/09/13(木) 17:45:20.37ID:7E5J/vlY
>>890
「止(や)む」→「止(や)める」→
(命令形)「止(や)めろ」が正。
「帰る」→(命令形)「帰れ」は正。

ふーんだ。
892デフォルトの名無しさん
垢版 |
2018/09/13(木) 18:01:35.68ID:l9KSlvFS
関西弁だと命令形は
帰り
893Maria
垢版 |
2018/09/13(木) 18:21:00.84ID:7E5J/vlY
>>892
「帰り」は連用形かもしれない、とも思います。
「帰りなさいませ」の省略形としての「帰り」は、
京都あたりでは一般化している可能性は
あるのではないかと。
894デフォルトの名無しさん
垢版 |
2018/09/13(木) 18:23:59.98ID:l9KSlvFS
はよ帰り
895Maria
垢版 |
2018/09/13(木) 19:02:57.94ID:7E5J/vlY
>>894
はよ去(い)ね

「呉れる」の命令形は「呉れろ」のはずですが、
もっぱら「呉れ」が使われる(おそらくは、「呉れ給え」
の略だと思います)ように、「帰る」の命令形は
運用上避けられているのではないかと
思います。
896869
垢版 |
2018/09/13(木) 21:38:58.32ID:8GqTf0bs
>>870
>>872
>「文法から逃げ回っている研究者が
> AIブームに乗じて統計的自然言語処理に逃げ込んでいる」

それはポジショントーク過ぎて
ぜんぜん賛同できないなあ……

機械翻訳でグーグルとかの統計ベースの翻訳が
従来のルールベースの翻訳に精度がかなり迫ってるし
単なる流行だけじゃなくてそういう実績があるから
統計ベースが主流になってきてるわけで現実を見ていない
897869
垢版 |
2018/09/13(木) 21:40:18.64ID:8GqTf0bs
>>871
>組合せ論的な爆発というのは
>実用レベルではほとんど起きません

いやいや
形態素解析レベルの話ではなくてその先の話

フレーム問題が起きるのも
組み合わせ爆発があるからでしょう
898869
垢版 |
2018/09/13(木) 21:45:40.10ID:8GqTf0bs
>>880
>正規表現を言語化

そういうソフトを見かけたことがないので
自分もしくは外注でソフトを制作する必要がありそうです

「abで始まる」とかだけなら
単純な置換でできる部分もあるけど
「abで始まり、cdで終わる」のように
場合分けである程度複雑な処理をするなら
インタプリタとかコンパイラの仕組みが必要になります

まあ本格的な自然言語処理に比べたら
初歩的なインタプリタなんかオモチャみたいなものですが
それでももしプログラマでない場合
もしくは初心者プログラマの場合かなり難しいでしょう

もしビジネスでどうしても必要なら
外部への発注も検討した方がいいかも
899869
垢版 |
2018/09/13(木) 21:49:58.61ID:8GqTf0bs
>>898
補足

>「abで始まる」
>「abで始まり、cdで終わる」

この部分は何が言いたいかというと
この「始まる」「始まり」の活用をするだけでも
単純な文字列の一括置換ではすぐ壁につきあたってしまうので
そういう「場合分けである程度複雑な処理をするなら」
プログラムを組む必要があるというわけです

言語はある程度メジャーなら何でもいいです
Java、C#、Python、Ruby……など
900デフォルトの名無しさん
垢版 |
2018/09/13(木) 21:57:16.41ID:10dKI03T
>>870
>文法(規範文法じゃなくて記述文法)は自然言語処理の基礎になるものだから、

そういう著作ってどんなものがあるのですか?

高校国語の「現代文の文法」で「接続助詞」は、とてもたくさんの種類があります。
全部を覚えきるのは大変なので、主にテストに出やすい「接続助詞」について、説明していきます。
https://nanapi.jp/ja/98144
901デフォルトの名無しさん
垢版 |
2018/09/14(金) 01:36:36.88ID:jnI/w9ND
>>872
>「文法から逃げ回っている研究者がAIブームに乗じて統計的自然言語処理に逃げ込んでいる」

文法的には『反対の賛成』=『賛成の反対』で正しいが、普段の我々はそういう言い方はしない。

5、結論
  以上の結果より導き出される京大英語で8割を超すための対策は、「ネイティブ英語とは何か」
を定義づけして学ぶことに尽きるだろう。
  たとえば、「この料理はまずい」という英作文なら受験生に多いのが
 This dish tastes poor.
しかし、これは評価されない。なぜなら、英語として正しくてもマナー違反。英検英語なら否定文にして、
This dish isn't good. これでマナーは改善された。
  しかし、ネイティブなら I don't like this dish. と言うだろう。本当に不味い場合は、
Yuck! と叫ぶ。そういう違いだ。
 問題は、
「受験英語の参考書や問題集で取り上げられている構文や表現が現実に使われている英語と違う」
  という事実。それを指導している教師や講師も、外国生活がなく50年前の表現を気づかずに指導して
いること。そのために、校内テストや模試で高得点や上位の順位をとっても落ちてしまうこと。
https://storys.jp/story/18159

京大英語は最新のネイティブ英語を強く意識しており、古くさい受験英語は通じ難い。
902デフォルトの名無しさん
垢版 |
2018/09/14(金) 01:43:51.96ID:jnI/w9ND
>>456
>>31
数学モデルは可能な限り『関数』として予め用意しておき、『文脈』に応じて『選択』する。
903デフォルトの名無しさん
垢版 |
2018/09/14(金) 01:46:13.68ID:fXySkelb
yuck deculture!!!
904デフォルトの名無しさん
垢版 |
2018/09/14(金) 03:34:47.05ID:jnI/w9ND
>>721
>こんなとこで自慰をするのは無様で恥知らずとしか言いようがない

匿名5ちゃんねるで何が『恥』なの? こっちたは肩書き関係無いよ?
905Maria
垢版 |
2018/09/14(金) 05:14:00.78ID:BVvdIn+z
>>896
> 統計ベースが主流になってきてるわけで現実を見ていない
そう見えるのはマシンが速くなってメモリが大きくなって
出現頻度情報と単語間の相関データの利用が進んできて
いるせいでしょう。
基本的な手法は、かれこれ四半世紀は大して進んでいませんよ。
906Maria
垢版 |
2018/09/14(金) 05:19:18.43ID:BVvdIn+z
>>897
可能世界仮説とかを持ってくると
あっという間に爆発するので、
そこは知識表現のところから
見直すしかないんじゃないかと思ってます。
定理の自動証明系なんかも、最近は
実用なレベルで使用されていますし。
907Maria
垢版 |
2018/09/14(金) 05:34:40.35ID:BVvdIn+z
>>900
現状、自然言語処理業界でスタンダードとされているのは、
益岡 隆志/田窪 行則『基礎日本語文法・改訂版』。
ただし、これをそのまんま持ってきて実装しても、
十分な精度は出ないと思う。
文語文法だけど、
鈴木康之著/佐伯梅友監修『日本語文法の基礎』が、
學校文法への批判も含めて、わかりやすい本です。

うちらが作った資料やら辞書やらプログラムやら
文法データがご入用なら、
「BackLog プリンプトン322」で引っかかる
『BackLog』というサイトのフォームからメールを
いただければ、お送りいたします。
908Maria
垢版 |
2018/09/14(金) 06:37:42.37ID:BVvdIn+z
>>900
リンク先の内容に関して、「が」や「と」や「も」には、
多少の注意が必要です。
とりたて詞の「が」と逆説の接続助詞「が」を
間違える人はあまりいませんが、「のが」が
省略されて「が」になることがあります
ex.「ここで遭ったが百年目」。
並列の「と」(「天と地と」)と因果関係の
「と」(「林檎を齧ると歯茎から血がでませんか?」)。
後者は接続詞「すると」と機能は同じ。
助詞「も」(「瑠璃も玻璃も磨けば光る」)と
接続助詞「も」(「そうは言っても」)。
まぁ、前に来る動詞の活用でだいたい判断
できますけどね。
909Maria
垢版 |
2018/09/14(金) 06:41:27.82ID:BVvdIn+z
>>900
活用体系に関する詳細な分析については、
寺村秀夫『日本語のシンタクスと意味 II』
910Maria
垢版 |
2018/09/14(金) 06:46:52.18ID:BVvdIn+z
おっと、途中で送信しちゃったい。

第4章の「活用」をご覧ください。
「なぜ、『連体形』と『終止形』は形が
同じなのか?」「なぜ、未然形と連用形は
形が二つあるのか?」「『仮定形』は『已然形』と
呼ぶのが正しくはないか?」みたいな
議論があり、これを読んでから
益岡 隆志/田窪 行則『基礎日本語文法・改訂版』
を読むと、けっこううんざりします。
911Maria
垢版 |
2018/09/14(金) 07:09:11.41ID:BVvdIn+z
>>911
うちらが使っている活用体系は、
寺村秀夫『日本語のシンタクスと意味 II』だと
松下文法に近いかな?
まず、現代語では「終止形」を立てません。いわゆる
「終止形」は省略による連体形の終止用法とみます。
ただし、文語だと動詞にも形容詞にも終止形があるので、
そこは配慮しましょう。
連体形と連用形は、「現在」と「過去または完了」に
分けて、合わせて四通りとして扱います。このとき、
「た」「だ」「て」「で」は活用語尾に含めるのが
本来のありかたですが、「ちゃった」「じゃった」の
処理との関連で、若干の工夫が必要です。
「仮定形」は「已然形」に名称変更。仮定を表すのは、
「ならば」です。「柿食えば鐘が鳴るなり法隆寺」は、
「柿を食ったら(仮定)鐘が鳴る」ではなく、
「柿を食ったら(已然)鐘が鳴った」です。
912デフォルトの名無しさん
垢版 |
2018/09/14(金) 07:09:30.48ID:jnI/w9ND
>>908
>ex.「ここで遭ったが百年目」

そういうのはレアなケースということで、『統計的機械翻訳』もまだ捨てたものではないと思う。
913デフォルトの名無しさん
垢版 |
2018/09/14(金) 07:20:46.26ID:jnI/w9ND
>>897
>フレーム問題が起きるのも
>組み合わせ爆発があるからでしょう

5ちゃんねらー百万人を動員して、百万通りの『日記』(200字以上400字以内)を書かせればいい。
そうすれば彼女にフラれたとか会社クビになっただとか、大半はありきたりな日常だとわかるはずだ。
ウンコが出なくて肛門に力を入れすぎて脱腸してしまったなんてごく稀な出来事は無視でいい。
914デフォルトの名無しさん
垢版 |
2018/09/14(金) 07:23:55.35ID:jnI/w9ND
>>897
>フレーム問題が起きるのも
>組み合わせ爆発があるからでしょう

龍が如くの神室町でのサブイベントを一万通り追加すればいい。
915Mr.Moto
垢版 |
2018/09/14(金) 08:13:31.90ID:BVvdIn+z
>>912
べつに統計的な手法を機械翻訳に適用するなとかは
言ってない。むしろ必要だと思っている。
「おはよう」「こんにちは」「こんばんは」
「ごきげんいかが」「どういたしまして」なんかは、
パターンで検出してパターンで答えるのが定跡だし。
とくにコンピュータの記憶容量は、そこいらの人間をはるかに
超えている(コンピュータに辞書を何冊も突っ込むことは
できるが、普通の人間は辞書を丸暗記しない)ので、
定型文に関しては、機械翻訳はすでに人間を超えていると
言っていい。
「ここで遭ったが百年目」とくれば「盲亀の浮木優曇華の、
花の咲きたる心地して(中略)いざ尋常に勝負勝ぉぉお負っ!」
くらいのことは、コンピュータには簡単。
ただ、あんまり口うるさいと、ユーザには不評。
「泰山鳴動して鼠一匹」「あれはローマの諺なので
『大山』が正解」
「高根の花」「正しくは『高嶺の花』。『富士の高嶺』と
同様」
とか言ってると「うるせぇな!」ということになる。
916Mr.Moto
垢版 |
2018/09/14(金) 08:37:07.48ID:BVvdIn+z
>>913
そこは業務上の要求とかと相談して、
適宜切り分けるのが順当だろうな。
医療用の問診システムだったら、
「放っとくと治っちゃうような病気」
と「レアケースだけど重篤化する危険性のある
病気」を切り分けて、検査を奨めるとかいった
要求はあるはずだ。
> ウンコが出なくて肛門に力を入れすぎて
> 脱腸してしまった
みたいな例は無視できるかもしれないが、
便秘で高熱が出て浣腸や便摘しないと生命に
危険があるようなケースはないでもないらしい。
917Maria
垢版 |
2018/09/14(金) 08:53:38.40ID:BVvdIn+z
実用性とはあんまり関係がなさそうだけど、
地口とか洒落とかを検出する(あるいは生成する)、
というのは あっても面白いかもしれない。
「感謝感激雨あられ」(元は「乱射乱撃雨あられ」)や、
「残り物には福がある」(「甘いものには福がある」
→「余り物には福がある」→「残り物には福がある」と
変化)みたいな例は、それほどレアな表現では
ないと思いますし。
918Maria
垢版 |
2018/09/14(金) 09:05:39.59ID:BVvdIn+z
>>899
多分にうちらの趣味が入ってますが、
順当なのは Java だと思います。
文字列を処理するのに、いちいち領域の
確保とか開放とか考えなくてすむし、
文字コードに関する処理も言語仕様で
吸収してくれていますから。
「文字列操作が重いんじゃないか?」という
心配はあると思いますが、StringBuffer を
使えばそれほど遅くないだろうし、
「クロウラーと組み合わせて、ネット上の
日本語テキストデータを端から喰う」みたいな
巨大処理でなければ、昨今のパーソナルコンピュータは
高性能なので、さほど気にならないかと存じます
(昔、C でやったときは回線が遅かったので、
実用上の問題はありませんでしたが。むしろ
集めた語彙データを整理するのが手間でした)。
919デフォルトの名無しさん
垢版 |
2018/09/14(金) 09:50:17.88ID:x/9f0NBW
>>456
>コンピューターの画面に、

パソコンに、

>表示させる

キーボード操作とコマンドラインとプログラミング言語で、

>操作をくり返し行う

『操作A』をk回行う。

文脈に応じて意味が全く変わる多義語を理解するための中間言語も用意しておきたい。
点は点でも『得点』なのか『座標点』なのか『要点』なのか、文脈による訳し分けを。
920Mr.Moto
垢版 |
2018/09/14(金) 13:24:11.76ID:BVvdIn+z
>>919
そのあたりは[形態素解析 → 構文解析 → 意味解析]みたいな
ウォーターフォール・モデルを考えれば当然あだろうと
思うが、いまどきは人工知能がブームなんで、そのあたりは
適宜調整するくらいのことはできないだろうか。
921Maria
垢版 |
2018/09/14(金) 15:34:41.55ID:BVvdIn+z
>>919
「コンピューターの画面」は、
「コンピューターのディスプレイ」と同義です。
「コンピューターのディスプレイ」に
「表示する」のは「ディスプレイする」と同義です。
「操作A」の結果は、そのつど異なっている
(少なくとも、「毎回同じである」とは限りません。
乱数要素や時刻などが関係してくる場合を排除
できないからです)と考えるのが妥当です。
そうなると、「パーソナルコンピュータに、
k回ぶんの 操作A の結果をディスプレイさせる」が
とりあえず妥当な表現ではないか、と思いますが、
いかがでしょうか。
922Mb
垢版 |
2018/09/14(金) 15:48:17.75ID:BVvdIn+z
>>918
> StringBuffer を使えば
「StringBuilder のほうが、同期を取らないぶんだけ
速いだろう」と考える奴もいるだろうが、
自然言語処理は、なにしろ人手がかかる。
しょうがないので Web 上にシステムを構築するわけだが、
そうすると必然的にマルチスレッド/マルチプロセスに
なるので、安全性を考えると排他制御を考えるのが
順当なありかた。
まぁ、処理環境がデカかったら、プロセスごとに new して
個別に処理するのも手だろうが、辞書をデータベースに
置くと、登録・削除で どっちみち排他制御が絡んでくるから、
「運用に入ってから適当に考える」くらいの
心づもりでいる。
923Maria
垢版 |
2018/09/14(金) 17:38:30.16ID:BVvdIn+z
>>895
そういえば、五段活用ナ行っていうのは、
「死ぬ」と「去ぬ」だけなんですよね。

これって、自然言語処理の立場でいうと、
「辞書的な処理で解決する(不規則活用と
同じ扱いをする)」のか、「アルゴリズムと
して、一般的な扱いをする(今後、五段活用
ナ行の動詞が、生まれてくる可能性がある)」
のか、そのあたりの方針はわりと重要な感じが
するんですけど、どうでしょう。
924Maria
垢版 |
2018/09/14(金) 17:44:31.09ID:BVvdIn+z
>>721
独りでカイてると寂しいのよね。
だれか相手してくんない?
925Maria
垢版 |
2018/09/14(金) 17:50:13.49ID:BVvdIn+z
あ、間違えた。
>>721 じゃなくて >>904 だった。
926Mr.Moto
垢版 |
2018/09/14(金) 17:52:20.16ID:BVvdIn+z
だからマジスレでネタはやめろと何度言ったら (ry
927デフォルトの名無しさん
垢版 |
2018/09/14(金) 22:58:21.94ID:Z/hoV2jq
>>921
>(少なくとも、「毎回同じである」とは限りません。

無限に解釈できるのかもしれないが、『その他』に指定しておくとか。
928デフォルトの名無しさん
垢版 |
2018/09/14(金) 23:18:31.72ID:Z/hoV2jq
ニューラル翻訳では機械学習で中間言語を生成してしまうとのこと。やはり中間言語方式を採用していきたい。

>>915
>定型文に関しては、機械翻訳はすでに人間を超えていると言っていい。

定型的な言い回しは機械学習でいいが、

>>456
>各操作で、(「記号○と×のいずれかを」「表示させる操作」を「k回繰り返す」。)

厳密な情景描写に関しては、人手で丹念に背景知識と中間言語を補いたい。

>>824
>当時の写真やドキュメンタリー番組などを参考にしているそうです。

われわれ人間だってそうしているのだから。

>>901
>外国生活がなく50年前の表現を気づかずに指導していること

現実世界との接点が無いままの機械的暗記学習では限界がある。
929デフォルトの名無しさん
垢版 |
2018/09/14(金) 23:26:45.19ID:Z/hoV2jq
中間言語方式とは、機械が苦手な多義語について、訳出例をいくつか挙げて、後から絞り込むやり方。
地名や個人名や専門用語は訳出が一つしかないので簡単だが、「その点」とかいうと、
点は点でも文脈によって訳出方法が変わるので、統計的機械翻訳では無理だ。
930デフォルトの名無しさん
垢版 |
2018/09/14(金) 23:35:49.63ID:Z/hoV2jq
>>828
>>863
厳密かつ具体的な情景描写(シミュレーション)については、中間言語を人手で補う必要が生じる。

>>897
>フレーム問題が起きるのも
>組み合わせ爆発があるからでしょう

受験数学のフレームは非常に限られているが、英語に関してはネイティブ重視だと機械翻訳は苦しいかも。
931デフォルトの名無しさん
垢版 |
2018/09/14(金) 23:50:51.08ID:Z/hoV2jq
>>921
> 「操作A」の結果は、そのつど異なっている
>(少なくとも、「毎回同じである」とは限りません。

『操作』と言った場合、何をどうするかについて、訳出の候補を挙げることさえも困難である。
『操作A』は具体的に何をどうするかのシミュレーターに落とし込むには、更なる第二中間言語が必要かも。

>>863
>四番目のステップは「全体の構成と設計」です。

更に高度な情報処理になるが、第二中間言語でプログラミング関数の何かに置き換えるとか。

>>921
>乱数要素や時刻などが関係してくる場合を排除できないからです

ライブラリ関数ならそれもこれも対応しているはずだ。
932デフォルトの名無しさん
垢版 |
2018/09/14(金) 23:54:35.64ID:x/9f0NBW
>>931
>何をどうするかについて、訳出の候補を挙げることさえも困難である。

『無条件降伏』とは、具体的に何をどうすることなのだろうか?

 「無条件降伏」については、確立した定義があるとは承知しておらず、一般的に、「降伏」とは、戦闘行為をやめ、
敵の権力下に入ることを意味し、その際に条件付けのない場合には「無条件降伏」と称されることがあると承知しているが、
その意味するところは文脈等にもよるものであり、したがって、お尋ねの「「無条件降伏」論」について、一概にお答えすることは困難である。
http://www.sangiin.go.jp/japanese/joho1/kousei/syuisyo/180/touh/t180183.htm

『無条件降伏をしたのに、北方領土を返還しろ』とはどういう意味なのか?
933デフォルトの名無しさん
垢版 |
2018/09/14(金) 23:58:08.54ID:fXySkelb
そもそもソ連には降伏もしてもないし
ソ連とは終戦もしてない

国際法どおり

まったく分かってないわ
そもそも文章がおかしい
934デフォルトの名無しさん
垢版 |
2018/09/14(金) 23:58:48.25ID:x/9f0NBW
○小坂国務大臣 政府委員から補足させまするが、カイロ宣言の中には、その南樺太並びに千島という部分は
入っておらないことは御指摘の通りであります。ただ、これを受けてできたポツダム宣言の中において、連合国が
日本の所有する領域をきめるということになっておりまするので、連合国の主張に従って無条件降服をした日本の
立場として、南樺太並びに千島を放棄したということであります。
http://kokkai.ndl.go.jp/SENTAKU/syugiin/039/0514/03910110514008a.html

ソ聯領におもむく意図を以て、有効な旅券を所持せず従つて旅券に入国審査官から出国の
証印を受けないで、判示海岸から右B所有の漁船Aに同人と共に乗船して出航し、
同日夕刻頃ソ聯領下の国後島沖合一五〇米位の海域に到達したものであること原審
認定のとおりであつて、原審の事実認定に誤りは存しない。
http://www.courts.go.jp/hanrei/pdf/js_20100319120139890464.pdf

ちなみにナチスと結んで米英を攻撃した日本は「無条件降伏をしたのに、北方領土を返還しろ」と主張してるのに、
ナチスと結んでソ連を攻撃したフィンランドは「有条件降伏をしたからカレリアを返還しろ」とは言わない。
クリミアは住民投票の結果ロシア領土になったという主張と、北方四島は日本が無条件降伏した結果ロシア領土になったいう主張は、
どちらが正しくてどちらが間違いなのか、あるいは両方間違いなのか両方正しいのか。
935デフォルトの名無しさん
垢版 |
2018/09/15(土) 00:01:00.95ID:KIanXBkQ
そもそもソ連はSFの中にいない
ソ連とは終戦もしてない
ソ連とは降伏もしてない

いまだにソ連とは平和条約すら結んでないからな
936デフォルトの名無しさん
垢版 |
2018/09/15(土) 00:05:36.82ID:KIanXBkQ
南サハリン、千島列島は帰属未定地
国際法的には日本にもソ連にも帰属する根拠はない
しかし、コレは歴史的にみれば日本固有の領土であると主張できる

まちがいなく火事場泥棒の不法占拠

北方四島は国際法に照らしあわせれば
間違いなく日本固有の領土
日本に帰属する根拠はあっても
ソ連に帰属する根拠はない

まちがいなく火事場泥棒の不法占拠
937デフォルトの名無しさん
垢版 |
2018/09/15(土) 00:13:23.66ID:iXfmCcY9
>>936
>北方四島は国際法に照らしあわせれば
>間違いなく日本固有の領土
>日本に帰属する根拠はあっても
>ソ連に帰属する根拠はない

  ソ聯領下の国後島
  ソ聯領下の国後島
  ソ聯領下の国後島
938デフォルトの名無しさん
垢版 |
2018/09/15(土) 00:14:53.72ID:KIanXBkQ
ちなみにSF講和条約のメンツは
みな北方四島は、日本固有の領土だといってる
そして、南サハリン、千島列島がソ連の領土であることも承認してない

しかし、ソ連はSF講和条約のメンツですらないのに
SF講和条約を根拠にしてココはオレの領土だと主張している

しかしSF講和条約のメンツは、そんなことだれも認めてない
もうね頭おかしいワケ
939Maria
垢版 |
2018/09/15(土) 09:10:22.91ID:i3vxjdYh
よそのサイトに書いたことですが、
>>930
「中間言語」として何を考えるか、については >>772
論じた「外延主義」に関する議論にかかわってくると
思います。「金星という天体」という “実在” がまさに
意味だ、と考えると、「竜」とか「文字」とか「数」とか
いった実在としての対応物を持たない概念には、「意味が
ない」ということになってしまいます。
そんなわけで、まず「データ構造ありき」と考えて、
いわゆる「自然言語処理」は逆問題である、と考える
立場があってもいいんじゃないでしょうか。
940Maria
垢版 |
2018/09/15(土) 09:22:59.26ID:i3vxjdYh
>>931
コンピュータに「常識」を持たせてあげないと、
「〇と×のいずれかを」を「〇 xor × のいずれか一方を」
と解釈してくれなくて、「〇×」とか「×〇」とか
出力しちゃうかもしれないので、そこは考えどころですね。
「ケーキセットには紅茶またはコーヒーがつきます」「じゃ、
両方」という古典的なネタもあることですし。
941Maria
垢版 |
2018/09/15(土) 15:36:31.88ID:i3vxjdYh
>>932
>『無条件降伏』とは、具体的に何をどうすることなのだろうか?
軍人が武装を解除して、軍の指揮下ではなく家庭に復すること。

誤った解釈が一般化しちゃうと、自然言語処理もますます
ややこしいことになるので、勘弁してほしいのよねー。

「弱冠」「助長」「破瓜」なんか、正しい意味で使われている
例を見たことがないし。

あと、「蚊帳の外」って、エッチな意味だから、下手に使うと
セクハラになるんだからねっ!
942Maria
垢版 |
2018/09/15(土) 15:46:53.94ID:i3vxjdYh
>>930
> 英語に関してはネイティブ重視だと機械翻訳は苦しいかも。
「五本指」→英語圏では、指は四本。親指は別扱い。
「茶封筒」→英語圏では、イエローな封筒。
「足の指」→英語圏では、「つまさき」で一括。
「玉子焼き」→英語圏では、「フライドエッグ」。「焼く」には
ベークドとかグリルドとかいろいろあり。

そういう意味では、「機械翻訳」ということの意味を問い直す
作業が、機械翻訳が実用レベルに達した現代では、重要に
なってくると思います。
943Maria
垢版 |
2018/09/15(土) 15:53:02.33ID:i3vxjdYh
ところでさぁ、自然言語処理とか日本語処理とか、
日本国内の企業や研究機関で、けっこうやってると
思うのよね。
だったら、正面切って喧嘩売りに来てくれない?
でないと、こっちから押しかけちゃうよ?
944デフォルトの名無しさん
垢版 |
2018/09/15(土) 17:07:36.67ID:JQEN5wSD
>>932
>その意味するところは文脈等にもよるものであり

前後の文脈を徹底的に調べ、かつ他の訳語を当てはめられるかを検証するシステム構築を。

>>931
> 第二中間言語でプログラミング関数の何かに置き換えるとか

抽象的な多義語を具体化してシミュレーションへ誘導する。『引数』と『戻り値』については、

>>26
>>123
>>277
>>282
>>457
のようなRFD研究を進めていきたい。
945デフォルトの名無しさん
垢版 |
2018/09/15(土) 17:13:32.43ID:JQEN5wSD
>>282
>(x,y,z)=(主語,述語,目的語)で、出現頻度の多い順に並べる

リンゴを食べた
ミカンを食べた
ウンコを食べた

さて仲間外れはどれでしょう?
946デフォルトの名無しさん
垢版 |
2018/09/15(土) 17:24:07.29ID:JQEN5wSD
>>282
>出現頻度の少ない組み合わせは、オリジナル表現か
>あるいはナンセンス文かのどちらか

極端に頻度の多い組み合わせと、京大頻度の低い組み合わせは、人力でフォローしていきたい。
前者に関してはライブラリ関数として人手で登録しておき、後者に関しては人手で検証する。

『雲の上を歩いてみようか』
『絵本の中から生まれ始めた物語の行方は』
『女性は子供を産む機械』

などどいうのは、人手で解析する必要が生じる。
947デフォルトの名無しさん
垢版 |
2018/09/15(土) 17:27:41.60ID:JQEN5wSD
>>942
>「玉子焼き」→英語圏では、「フライドエッグ」。「焼く」には
>ベークドとかグリルドとかいろいろあり。

画像認識やシミュレーションとも合わせて、現実世界との接点を広げることが大切と思う。
948Mb
垢版 |
2018/09/15(土) 17:40:17.83ID:i3vxjdYh
>>945
リンゴ
ミカンとウンコは落葉性の仁果類ではない
949デフォルトの名無しさん
垢版 |
2018/09/15(土) 17:42:49.73ID:JQEN5wSD
>>934
>ソ聯領下の国後島

『日本領下の種子島』と比べてどうだ?
950Maria
垢版 |
2018/09/15(土) 17:47:46.94ID:i3vxjdYh
>>947
厳密性の追求と実用性は、
トレードオフの面にも考慮というか
配慮するのが適切ではないでしょうか。
自動車と在来線と新幹線と航空機みたいな
選択肢もあるわけできし。
951Maria
垢版 |
2018/09/15(土) 23:31:55.83ID:i3vxjdYh
そろそろ次スレを立ててもいいかと思ってるんですけど、
あたしが立てちゃっていいのかなぁ?

あと、初期スレとかからの積み残し案件とか、
いろいろあると思うんですけど、そのあたり、
ちゃんと答えておいたほうがいいのかな?
952Maria
垢版 |
2018/09/16(日) 10:07:53.86ID:bnxHgENN
>>3
> 動的に解析する文法を変えたいときは、
> 実行時にパーサジェネレータや
> コンパイラを使わないといけないのか?
言語は「通じる」のが前提なので、既存の言語の
拡張(方言とかネットスラングとか)なのか、
別の体系の言語(英語とかスワヒリ語とか)なのかによって
アプローチは異なると思う。
2018/09/16(日) 10:15:30.84ID:bnxHgENN
>>4
> word2vec
> paragraph vector
どっちも多変量解析で相関係数出して
因子分解するわけだから、
シソーラス作ったり、「関連する論文を探せ」とか
いった用途には向いていると思う。
ただし、出現頻度が高い一般語と、
出現頻度が低い固有名なんかは、
ノイズになるだけなので、どこかで切り捨てを
行う必要があり、そこは機械学習じゃなくて
人間が行なう必要があると思われ。
2018/09/16(日) 10:21:25.65ID:bnxHgENN
>>6
n-gram 法は理屈がシンプルなわりにそこそこ
精度が出るから活字 OCR とかには向いてる。
ただ、「もう少し精度を上げたい」とか言われると
辞書を増やす以外に工夫の余地がないのが弱点。
2018/09/16(日) 10:41:30.32ID:bnxHgENN
>>32
(1) John,fired Dave,because he had too many absesces.(he=dave)
(1) John,fired Dave,because he had too many employees.(he=dave)

は、

(1) John, fired Dave, because he had too many absesces.(he=Dave)
(2) John, fired Dave, because he had too many employees.(he=John)

だろうな。
956Maria
垢版 |
2018/09/16(日) 10:44:42.56ID:bnxHgENN
>>34
「は」は「係助詞」ではなく「とりたて詞」。
957Maria
垢版 |
2018/09/16(日) 10:53:37.11ID:bnxHgENN
>>47
> 新聞とかのデータからから「名詞+助詞+動詞」の
> 組み合わせをひろってきたいんだけど、
> 構文解析する必要ありますか?
ありませんね。形態素解析で十分です。
「いや、もっと精度を上げたい」とかいうと、
また話はややこしくなりますが。
2018/09/16(日) 10:57:56.86ID:BKY25fNA
>>951
次スレは誰が立ててもいいと思います


>>1
あとスレのテンプレとかに
意見がある人がいたら言って欲しい

>人工無能や哲学的AI話、言語学の話題など
個人的にそれらの話題を外せっていうのは
どうなのかっていう気がする
かなり密接に関連してるし

「あくまで〜」以降は削ってもいいと思う
959Maria
垢版 |
2018/09/16(日) 11:05:33.99ID:bnxHgENN
>>52
> もの凄く精度の高い解析
出現頻度に対する精度だったら一万五千語くらいの
辞書で 99% 以上は楽勝。
ただし「語彙に対する精度」とか言いだすと
地名や人名などの固有名が出てくるとアウト。
その場合は辞書を大きくするか、「辞書未登録+推定
品詞情報」の形で出力してOKかそうでないかを
判定する必要がある。
「ごまめ」を「未登録動詞『ごまむ』の命令形」とか
「くわい」を「未登形容詞『くわい』の連体形現在」とか
言われると困る、という話。
2018/09/16(日) 11:32:45.38ID:bnxHgENN
>>247
> 英語の論文読むのが苦痛でたまらない
> はやく翻訳装置つくってくれ
辞書引きだけなら簡単だが、
辞書をどこから持ってくるかが問題。
機械翻訳は、「この英文をどう訳すと
この日本語になるんだ?」みたいなことがある。
科学技術用の機械翻訳システムを使ったら、
“He is a boy.”が「ヘリウムは少年です。」と
訳されたという語り種(ぐさ)があった。
961Maria
垢版 |
2018/09/16(日) 15:08:18.91ID:bnxHgENN
>>958
こんな感じでいいのかな?

このスレッドでは、おもに日本語の構文解析・談話理解・情報検索・
文章生成などの、実装と それに付帯する技術および理論について
扱いたいと思っています。

アプリケーション・プログラミングの技術的な面に重点をおきたいので、
学術的な話とか 人工無能とか哲学的AI話とか、言語学の話題などの、
“密接に関連していはいるものの、直接には結びつかない”分野については、
なるべく既存の他スレ、あるいは独立スレにおいて、個別に議論して
いただくよう お願いいたします。
(ただし、その関連性や評価に ついての ご意見や質問等を妨げるものでは
ありません)

以下、【前スレ】
(前スレ張ろうとしたら規制喰らっちゃったい)
962Maria
垢版 |
2018/09/16(日) 15:13:57.57ID:bnxHgENN
>>961
> アプリケーション・プログラミングの技術的な面に重点をおきたいので、
は、
> アプリケーション・プログラミングの実用的・応用的な技術的側面に
重点をおきたいので、
のほうがいいのかしら。
あとは、
「『自然言語処理スレッド』
(//pc11.5ch.net/test/read.cgi/tech/1011988273/)」
が規制に引っかかるかどうかがキモだわね。
963Maria
垢版 |
2018/09/16(日) 15:30:47.96ID:bnxHgENN
>>247
ISAM を使った辞書引きの手法については、
坂井 利之『翻訳するコンピュータ ― 情報革命と語学の壁に挑む』
(講談社ブルーバックス。一九六九年) に載ってます。
具体的な手法については、いま所内で探しているので、ちょっと
待っててねー。Macintosh 用だったら、その昔“rStone-EJ”っていう
アプリがあったんだけどね。
クリップボード経由でのインタフェースと、GUI に関していうと、
Java でも可能なんで、ちょっと面倒臭いけど可能ではあります。
だけど、どうしても辞書のメンテナンスが大変なんですよ。細かい
メンテナンス用のアプリとか作んなきゃなんないし。
なんか、困ってることがあったら言ってくださいねー!
実装のお手伝いくらいなら、できると思うので。
964Mb
垢版 |
2018/09/16(日) 15:34:21.87ID:bnxHgENN
>>959
> 「くわい」を「未登形容詞『くわい』の連体形現在」とか
> 言われると困る
ふはははははは、若輩者め。「くわい」は「動詞『咥う』の
連用形現在」という解釈もあるのを忘れたかぁ!
965Maria
垢版 |
2018/09/16(日) 17:09:08.48ID:bnxHgENN
「ヤマトめ ―― やりおったかヤマトめぇぇぇぇ!」
「総統がおかしくなられた ……」
(読み筋は、『宇宙戦艦ヤマト』)

… と、いうわけで、所長がおかしくなられたので、
我らが大森総研はワケがわかんないことになってます。

まず、JAI-Parser は、島内 剛一先生の「ローマ字かな変換」を
実行できるようになってます。で、「かな漢字変換」も
実行できます。さらに、旧 JAI-Parser は「二階建て」でして、
両方の処理ができたんですね。だけど、「そんなもん(候補の
確定)は人間がやればいいんじゃー」と、暴れていらっしゃいます。
以下、待て続報。
966Maria
垢版 |
2018/09/16(日) 18:03:52.80ID:bnxHgENN
話は変わりますけど、弁護士会のエラいヒトに、
「弁護士の背任罪」について質問したところ、
「そんなことは絶対にありえません!」と
熱弁されていらっしゃいました。
その後、「実際にあったんですけど ……」と
申し上げたら、「『ありえない』というのは、
『ない』という意味ではなく、『あってはならない』
という意味なんですよ」と、なんかしら必死に弁明
していらっしゃいました。
「でも、『絶対に』というのは、『例外なく』という意味ですよね?」
「普通は、そういう意味じゃないんです!」
素数は、「1とそれ自身以外に約数を持たない自然数」のはずですが、
たとえば「6は例外」とかになっちゃうとしたら、自然言語処理って、
けっきょく無力ですよねぇ?
「0は素数」とか「1は素数」とか言われても、「それは例外」だったら、
べつに「256 は例外的に素数」って言われても、納得しなきゃ
いけないわけですから。
967Maria
垢版 |
2018/09/16(日) 18:58:42.91ID:bnxHgENN
前にもたびたび話題になりましたけど、「中間言語」とか
「知識表現」とかいったモノは、ひょっとしたら
必要ないんじゃないの?みたいな話があります。
「文語で書いたモノがあれば、それはデータなんであって、
人間がどう解釈するかっていうのは、けっきょく人間の
都合じゃねぇの?」っていう立場です。
「春は、あけぼの」って言われたら、「平安時代に、清少納言と
呼ばれた人が、『春は、あけぼの』と書き残した」という事実が
あるだけで、「じゃあ、本当に平安時代の春はあけぼのだったのか?」
を確認しようはありません。「だったら平安時代に行ってこい」みたいな
話になるわけですし、文献以外に残っているものは、考古学的な
証拠しかないのですから。
現代社会においても、裁判においては調書と物証がすべてなワケだし、
それが捏造されてて冤罪だったりするかもしれません。
そんなワケで、「意味」については、人間に丸投げしちゃって
いいんじゃないでしょうか。
968Mb
垢版 |
2018/09/16(日) 19:35:22.85ID:bnxHgENN
だいたい、「1+1は2である」けれど、
「1+1は3にも4にもなる」とか言ってる
人類に、自然言語処理システムなんていう
危なっかしいモノを与えちゃダメなんじゃねぇか?
(筒井康隆さんの『アフリカの爆弾』とか
思い出すなぁ)
「マルクス=レーニン主義こそが真の科学であり、
それ以外の科学は、単なるイデオロギーに過ぎない」
とか真面目に信じてる独裁者がいて、社会を浄化するために
反体制勢力を AI で撲滅するシステムを構築したりしたら、
まるっきりジョージ・オーウェルの『1984』じゃねぇか。
969958
垢版 |
2018/09/16(日) 20:22:53.60ID:BKY25fNA
>>961
>アプリケーション・プログラミングの技術的な面に重点をおきたいので〜
いや上以降(原文ではあくまで〜以降)をまるごと削除って意味
テンプレで話題をゴチャゴチャ制限するのって筋悪いと思う
970デフォルトの名無しさん
垢版 |
2018/09/16(日) 21:25:42.42ID:SOVIz+sV
やまとは くにのまほろば たたなづく あをかき やまごもれる やまとし うるはし
971デフォルトの名無しさん
垢版 |
2018/09/16(日) 21:57:31.23ID:ltjz3YFA
>>968
>「1+1は2である」

コンピューターシステムで一般的な二進法では 1+1は10。
972デフォルトの名無しさん
垢版 |
2018/09/17(月) 04:38:41.79ID:rTQuL7Ni
なるほど。それでいいんなら、そっちの方が都合がいいや。
このところ、多少引っかかっていたことがあって、
「文法に関して、もうちょっと足下を固めておいたほうが
いいんじゃないだろうか?」と思いはじめていたので、
「後段は縛りがきついな」と思っていた。
>>971 みたいな話も、考えてみると、けっこう奥が深いし。
973Mr.Moto
垢版 |
2018/09/17(月) 05:01:57.05ID:rTQuL7Ni
>>972
そもそもは、たまたま「ローマ字かな変換とかな漢字変換の
両方が、双方向で簡単にできる」というシステムを作っちゃった
のが発端なんだ。“sinai” が「市内」なのか「竹刀」なのか「親愛」
なのか「sin(ai)」の判別を、構文解析・意味解析・意味解析の
レベルまで保留しておこうとか、ずっと考えてたんだよね。
あるいは「ふたえにまげてくびにかけるじゅず」が「二重に曲げ
手首にかける数珠」なのか「二重に曲げて首にかける数珠」なのか。
「ここではきものをぬいでください」が「ここでは着物を脱いでください」
なのか「ここで履物を脱いでください」なのか。
あるいは、読みを「開く/閉じる」の問題。「話」は名詞だけど「話し」
と書くと動詞の連用形現在になるので、ニュアンスが変わっちゃうとか、
「持ち帰り」か「持帰り」か「持ちかえり」かとか、「書留」は「書留め」
でも「書き留め」でもないけど「書きとめる」は「書き止める」と
書くと「書きとどめる」になるとか、「出だし」は「出出し」と書かないとか、
「とにかく」か「兎に角」かとか「ください」か「下さい」かとか、
そういう「実用的な部分で引っかかるところ」というものに対して、
昨今の自然言語処理の研究者って向かい合ってないように思うんだよ。
「それは文法や文学の問題であって、科学技術の観点からいうと
些末な問題でしかない」と。このスレでも、文法に対する忌避反応と
いうのがあるだろう? だけど、「実用」「応用」を考えると、
それは切り捨てちゃいけないことだと思うんだけどね。
974Maria
垢版 |
2018/09/17(月) 05:21:59.22ID:rTQuL7Ni
>>970
一九五九年に電気試験所で作られた翻訳機械の名前が「やまと」。
2018/09/17(月) 05:35:32.59ID:rTQuL7Ni
>>971
現代数学的な構成主義によれば、
「2+2=4」。
「1の “次の数” 」として2が定義され、
それを前提として加法が定義される。
この時点で「2+2=4」が導入され、
そこからさらに定義を延長することで、
「1+1=2」が帰結され、加法の
逆操作として減算を考えることで
負数を含めた整数が定義される。
これとは別に、加法のくり返しとしての
乗算が定義されるんだが、乗法の逆演算としての
除法を考えると「0」の扱いがややこしいことになり、
インドでは0が「悪魔の数字」と呼ばれることになる。

このあたりを掌握できる自然言語処理システムとか
考えだすと、あんまり実装っぽい話にならんで
AI 哲学みたいな話になっちゃうんだよなぁ。
976デフォルトの名無しさん
垢版 |
2018/09/17(月) 07:13:46.68ID:C7pw6n1T
>>371
>25000×25000=626000000通りの「共起関係」、
>及び29種類の「属性」を、人力で分析してアノテーションコーパスを作成すべき!

『頻出』と『例外』を検出しておきたい。
977デフォルトの名無しさん
垢版 |
2018/09/17(月) 07:24:42.74ID:C7pw6n1T
自然言語処理の知識はゼロなのでわからないです。面白いアイデアだと思うので、Twitterの自然言語処理が専門の方々に聞いてみては?
https://peing.net/ja/q/417c9e29-35de-4c95-8323-afd6a50fcbc7

コンピューターのための自然言語理解シミュレ
ーターというのは可能ですか?

例えば第二次大戦の推移について、言葉ではな
くて動画で理解する方法もあります。
言葉で説明するよりもマインクラフトのような
創作ゲーム表現に変えたほうが分かりやすいで
す。
けれども自分が読み漁った人工知能や自然言語
処理の本にはそうしたアプローチは見つからな
かったです。
言語はただの記号の羅列で機械は現実世界を全
く知らない。でもそういうことなら、
テレビゲームのような仮想世界をインプットし
て、自然言語で操作したらいいと思います。
というか自然言語入力でときめきメモリアルみ
たいなゲームをやってみたいてす。
レス数が950を超えています。1000を超えると書き込みができなくなります。
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況