X



自然言語処理スレッド その4

レス数が950を超えています。1000を超えると書き込みができなくなります。
1デフォルトの名無しさん
垢版 |
2014/06/03(火) 05:40:00.54ID:yefNLumx
前前スレ 自然言語処理スレッド その2
http://mimizun.com/log/2ch/tech/1173105287/
前スレ 自然言語処理スレッド その3
http://mimizun.com/log/2ch/tech/1235129481/

このスレッドでは、日本語の構文解析、談話理解、情報検索、
文章生成などの技術に関する理論と(おもに)実装を扱います。
あくまでアプリケーションプログラミングの技術的な面に重点をおきたいので、
学術的な話はアリですが、いわゆる人工無能や哲学的AI話、
言語学の話題などは他のスレッドでお願いします。
851デフォルトの名無しさん
垢版 |
2018/09/12(水) 08:44:46.22ID:pUOFOCFc
>共起3(時代)信長と安土城、零戦と原爆、キン肉マンとファミコン

『時代』については曖昧なところもある(原爆投下された頃は零戦なんて時代遅れ)ので、
信号機のような『赤』(正)『青』(否)『黄色』(曖昧)を。
852デフォルトの名無しさん
垢版 |
2018/09/12(水) 09:06:15.80ID:pUOFOCFc
>>504
>冒険者の広場では提案広場・あしあと伝言板にて言論規制がしかれている。

・思いつく予防策
1.利用しない、なにも書かない
予防策と言っていいのかわかりませんが、私は冒険者の広場は極力利用しないようにしています
自分にそのつもりがなくても、相手の解釈次第で悪意のある文章だと思われてしまうことがありうるからです。

【訂正後】提案広場、落ち着いて!広場BANに要注意!
http://pan1946.blog.jp/archives/2426203.html
853Maria
垢版 |
2018/09/12(水) 10:06:19.28ID:H3XsJJBV
>>851
そういう意味での共起関係は、必ずしも一次元ではなく、
もうちょっと複雑な関係になっているようです。
赤・青・白・黒は、それ自体が形容詞の語幹になります
(「赤い」「青い」「白い」「黒い」)。
また、「赤(明るい)⇔黒(蒙(くら))」
「白(明白。はっきりした)⇔青(=淡い)」
「赤(熟した。本来の性質が表に現れている)
⇔青(未熟な。本来の性質が表に現れていない)」
のような例があります。
854Mb
垢版 |
2018/09/12(水) 10:11:39.83ID:H3XsJJBV
>>852
「おまえ、アホちゃうか?」は笑って済ませられるけど、
「あなたは、ちえおくれではありませんか?」だと
血の雨が降りかねん (-_-!)
関西人に「アホ」はいいけど「バカ」は禁忌、みたいな
地方性もある。
そうなると、「あほらしい」はOKだが「馬鹿馬鹿しい」
だと「誰が馬鹿だ!」と喧嘩になりかねん。
855Maria
垢版 |
2018/09/12(水) 10:20:37.36ID:H3XsJJBV
>>850
分子構造)オルソ、メタ、パラ
原子数)モノ、ジ、トリ、テトラ、ペンタ、ヘキサ …

事務処理の基本はソートとマージとサーチ
ツーといえばカー、CAR といえば CDR
856Maria
垢版 |
2018/09/12(水) 10:25:13.94ID:H3XsJJBV
ちょっと軌道修正しておくと、
・シソーラスを作る
・出現頻度の相関を求めておく
あたりが、自然言語処理における定跡、
くらいの話になると思う。
857Mr.Moto
垢版 |
2018/09/12(水) 10:33:58.65ID:H3XsJJBV
共起5 (ライバル)ソッピース・キャメルとフォッカー三葉、
スピットファイアとメッサーシュミット、砂漠の狐とラットパトロール、
ロンメルとパットン、竜と虎
858Maria
垢版 |
2018/09/12(水) 12:36:34.33ID:H3XsJJBV
>>857
あのさぁ、いちおう加減は考えといてくんない?
このスレにミリタリー・マニアはそんなに
いないと思うからさぁ(まぁ、航空宇宙工学科だと
デフォなんだけどさ)。
>>852 関連だけど、「犯罪者の個人名を
晒してはいけない」っていうサイトで、「今田勇子」とか
「草加二郎」とかいったネタでサイトのオーナーを
引っ掛けて笑ってた あんたの過去は、忘れてないからねっ!
859Maria
垢版 |
2018/09/12(水) 21:24:29.80ID:H3XsJJBV
そういえば、悪口というのは辞書に載りにくく、
しかもなかなか廃れない、という問題があります。
辞書作成担当者は、そのあたりにご注意を。
「昼行燈」(役に立ってない)
「天保銭」(ちょっと足りない)
「瞬間湯沸かし機」(すぐ熱くなる)
「蛍光灯」(応答が遅い)
なとが例になります。

英語圏では、
“Mr.Moto”(小賢しい日本人)
というのがあります。
860デフォルトの名無しさん
垢版 |
2018/09/13(木) 01:00:18.18ID:LigmLEis
>>31
>数学モデルとシミュレーションにより、実践と理論の結合が図れるのです。

龍が如く極のマップ。東京・神室町の飲食店、販売店、プレイスポット、要所の場所や地名を地図にまとめてます。
https://dswiipspwikips3.jp/yakuza-kiwami/cheats-data/map-kamurochou.html

近くのコンビニでおにぎりを買った(コンビニの中に居る)
近くのコンビニでタクシーに乗った(コンビニの外に居る)

シミュレーターを動かしてみれば一目瞭然だ。
861デフォルトの名無しさん
垢版 |
2018/09/13(木) 01:14:54.52ID:LigmLEis
一次元(数直線)
二次元(平面座標)
三次元(空間座標)
四次元(ドラえもん)

『0』『1 』『2 』『3』は別扱いにしたいところ。指数関数や対数関数や確率統計などもそう。
862デフォルトの名無しさん
垢版 |
2018/09/13(木) 01:25:22.72ID:LigmLEis
>>456
そういうのは人間だって一度に全文翻訳出来るわけではなく、ジグソーパズルのように、
断片的にでもとりあえずわかるところから解読していくみたいなやり方を。
863デフォルトの名無しさん
垢版 |
2018/09/13(木) 03:09:57.93ID:x/k+qk9X
>>862
>ジグソーパズルのように、断片的にでもとりあえずわかるところから解読していく

(4)全体の構成と設計
 四番目のステップは「全体の構成と設計」です。
 犯罪捜査でいえば犯行動機と犯行プロセスの全貌を推理して答を見出すことです。
歴史捜査では「真実の復元」と名付けましたが、ジグソーパズルでいえば、いくつかのピースの組み合わ
された塊を全体枠の適切な位置に順次はめ込んでいき、全体図を完成させる作業です。
http://www.issj.net/mm/mm0508/mm0508-5-ln.html
864デフォルトの名無しさん
垢版 |
2018/09/13(木) 03:21:14.97ID:x/k+qk9X
>>456
>各操作で、(「記号○と×のいずれかを」「表示させる操作」を「k回繰り返す」。)

この問題文の意味する『操作』とは、具体的に何をどうすることなのかを考察する人工知能が必要。
初見で理解できなくても、後の文からいろいろ類推しかつ検証していくこと。
865787
垢版 |
2018/09/13(木) 04:41:44.40ID:8GqTf0bs
>>790-793
>超えなきゃいけない壁があって前に進めない
でもIBMのワトソンなんかは一枚壁を越えたと思う
もちろん自然言語理解にはまだ何枚も壁があるけど

>「省略」と「理解」は不可分なので、扱いが難しい
>「制禦」「意図」という視点がある
従来の研究の枠組ではたしかに難しいんだけど
ただ細かい文法をつつき回すだけじゃなくて
ワトソンなんかはある程度の質問文の
意味や意図の理解をしているように思える

そして意味や文脈を理解しないと
ワトソンのような対話システムの実現は難しい
866787
垢版 |
2018/09/13(木) 04:54:02.32ID:8GqTf0bs
>>795
>これくらいのシステムであれば、
>現在の技術で充分に可能だと思うんだが
どうかなあ……?

もちろんその例文だけなら可能だし
辞書的な知識だけで上手く行きそうな雰囲気を醸し出してるけど

「ゾウは鼻が長いのに、キリンは首が長いのはなぜか?」
という問いに答えるには進化論について
かなり理解していないと的外れな回答をすることになる

データベースにある範囲だけで回答するなら可能だけど
対話システムは人工無能的なボロが出やすいから
もっと意味理解を進めないと現在の段階ではそれすら難しいと思う

文法をつつき回すだけではダメで
文法に回収できない意味や意図を理解することが
試されているのが今の自然言語処理のステージなんだと思う
867787
垢版 |
2018/09/13(木) 05:03:56.38ID:8GqTf0bs
>>813
そういう応答の多様性については
人工無能は確率的に遷移するだけだけど
そういう適当な処理ではダメで
応答の前提になる意味と意図が形成されている必要がある

たとえばみんなで鍋を食べていて
「激辛唐辛子をジャンジャン入れていいか?」
と言われたら人間なら辛くなるから「嫌だ」と言う

つまり「~していいですか?」に対して
「どうぞ」か「やめて」かは
人間は自分の都合に応じて判断をしているのであり
人工知能ならその都合を再現するのが本筋だろう
文法だけでは適切に返せない

しかしそれはつまり相手が「~した」ことで何が起こるのかを
予測する必要がありどれだけ常識を教えれば足りるのか不明で
例のフレーム問題が起こってしまう

鍋に唐辛子を入れたら辛くなるとか洗剤を入れたら食べられないとか
人間の常識は無限にあるので承知の通り過去のAIブームは頓挫した

でも今はもうたんにフレーム問題を避けるのではなく
機械学習とかで少しは切り崩せないか
挑戦する段階に差し掛かっていると思う
868787
垢版 |
2018/09/13(木) 05:17:28.24ID:8GqTf0bs
>>814
>ルールベースのエキスパートシステムみたいに
>ルールの追加に専門知識が必要で
>以前のルールとバッティングし、いずれ破綻するわけだろう

横レスだが承知の通りこれがかつてのAIブームの挫折の原因だね
組み合わせ爆発が起こって人力で辞書なりDBなり作ると
開発費が高くなり過ぎて実現できないと

そして今は機械学習によってその壁を部分的にでも
乗り越えられるのではないかとAIブームが再燃し
自然言語分野では統計的自然言語処理に注目が集まってる

つまり私(たち)の疑問は
連投している人は何か憤慨しているようだけど
文法をつつき回すかつてのやり方が壁に当たってるわけで
今の主流から外れてきたそのやり方の正当性なりを示さないまま
ただ細かい文法知識を披露されても心に響かないということ
869787
垢版 |
2018/09/13(木) 05:20:21.09ID:8GqTf0bs
いろいろ書いたけど一番言いたいことを要約すると
自然言語処理はAIの冬の教訓から
「文法をつつき回すだけでは無理」だという大前提があるわけで
今の時代に自然言語処理を研究または開発する者は
それとどう向き合うかが問われている
870Maria
垢版 |
2018/09/13(木) 06:49:13.71ID:7E5J/vlY
>>869
文法は下手につつくと祟るからねぇ(笑)
ただ、文法(規範文法じゃなくて記述文法)は
自然言語処理の基礎になるものだから、
そこをしっかりと固めておかないと、
何をやっても砂上の楼閣になっちゃうのよね。
現在の日本語処理は、軟弱地盤の上に
手抜き工事の躯体が乗ってるようなものだから、
なんかの拍子に倒壊しそうな気がする。
871Maria
垢版 |
2018/09/13(木) 07:02:23.02ID:7E5J/vlY
中学生のころに教わった規範文法のせいで、
国文法が嫌いになっちゃうヒトは多いようですが、
あれは橋本文法が悪いんじゃなくて
「いわゆる学校文法」がお粗末だったせいなので、
文語文法から勉強して、国語学者からの学校文法批判とかを
じっくり検討してみると、現在の自然言語処理の
基礎が意外に脆弱なことが理解できると思います。

なお、組合せ論的な爆発というのは、実用レベルでは
ほとんど起きません。「入れない」がイレナイかハイレナイか、
「行った」がイッタかオコナッタか、「文書」がブンショか
モンジョか、とかいった程度です。
「書かされたがらなかった」とかでも、そんなにややこしい
ことにはなりませんよ? 「すもももももももものうち」
「うらにわにはにわにわにはにわにわとりがいる」とかも、
解析にかけてみると、意外に複雑にはなりませんし。
872Maria
垢版 |
2018/09/13(木) 07:06:42.59ID:7E5J/vlY
そんなわけで、
「AIブームが再燃し、自然言語分野では
統計的自然言語処理に注目が集まってる」
というより、「文法から逃げ回っている研究者が
AIブームに乗じて統計的自然言語処理に逃げ込んでいる」
だけなんじゃないかなぁ。
873デフォルトの名無しさん
垢版 |
2018/09/13(木) 07:15:05.67ID:x/k+qk9X
自然科学の基礎研究に『学力』『経済力』『肩書き』は不要。その動かぬ証拠はこうだ!

ガウク大統領は、次のように強調しているー
「1945年5月8日、我々は解放された。我々を解放したのは、ソ連の諸民族の代表者達だったが、そればかりではない。
それゆえ、我々は、感謝と尊敬の念を示さなくてはならない。戦後ドイツが、ベルリンの壁により長い間分断されたという
事実でさえも、そうした気持ちに影響を与えるべきではない。一部の観測筋は疑っているようだが、私には、
ロシアにもロシア人に対しても問題はない。」
http://jp.sputniknews.com/europe/20150502/284616.html

ドイツ人が泣いて感謝するロシアの自然科学能力は、こうして養われたものである!

我らがネステロフは、全てのギアボックスを簡単に直してしまったよ。ある時、
イギリス人の技術者がネステロフのところに来て、「あなたはどこの大学で技術を学んだのですか?」
と聞いたことがある。ネステロフのやつは「コルホーズ大学さ」なんて答えておったな。
http://www.geocities.co.jp/SilkRoad/5870/loza1.html

ソ連人民の素朴な知見>>>>>>>(越えられない壁)>>>>大学教授博士
874デフォルトの名無しさん
垢版 |
2018/09/13(木) 07:47:07.43ID:x/k+qk9X
全ての学問は『形式』であり、それは一定の社会秩序を維持するための『方便』なのである。
全共闘やらオウムやらで無秩序に暴れるくらいなら、とりあえず勉強でもしてろ就活でもしてろという程度。

>あなたはどこの大学で技術を学んだのですか?

他人の評価だけで生きてるみたいなお偉方は、所詮マニュアル通りのことしか出来ない。
自然科学の新分野を開拓するには、決して○○博士号などという肩書きに拘るべきではない。
875デフォルトの名無しさん
垢版 |
2018/09/13(木) 08:31:06.66ID:X8s8xxNR
>>136
>>871
イラストでも文章でも、まずバラバラに分割して(点と線と文字)、しかる後に組み合わせを検証するとか。
876Maria
垢版 |
2018/09/13(木) 08:40:34.16ID:7E5J/vlY
>>874
大学行っても役に立つことを教えてもらえるとは
限らないんだよね。
「私の経験でも、大学の国文学科での三年間に、
ついに文法の講義はなかった」
大野晋『日本語の文法を考える』
だから、学校で文法を教えている先生が、
文法を教えられているとは限りません。
877デフォルトの名無しさん
垢版 |
2018/09/13(木) 08:45:29.08ID:T3CvC5e1
>>867
>人間の常識は無限にあるので

『龍が如く』シリーズの神室町で、主人公に何が出来るかは無限なので、続編は未来永劫出されるだろう。
878Maria
垢版 |
2018/09/13(木) 09:01:14.03ID:7E5J/vlY
>>875
そうそう。実際に、それだけで大雑把な形態素解析はできちゃうのよ。
まず、改行で区切れるでしょ?
次に、句読点で切れる …… はずなんだけど、「モーニング娘。」
とか「藤岡弘、」とかいった例外があるから要注意。
で、次に括弧の中身と外側を分けて、括弧の中が文なのか名詞など
のような文法上の役割を持っているかどうかを判断します。ここは
文法的な処理があるから、人間に任せないと精度が悪くなるので、
「括弧の入った文章は、機械的にやると精度が落ちるんで、
辞書作成のときくらいにしか使えない」と思ってください。
次に、長尾真先生がおっしゃっていた方法があって、
「文頭から見ていって、非漢字から漢字に替わるところで切ると、
だいたい文節で切れる」という経験則があります(なお、カタカナ
語については自分で考えてみてね)。例外は「う歯」「えん罪」
「すい星」「ら致」や、接頭語の「お」「ご」。
ここまでで、文節レベルの形態素解析は済んだようなものです。
で、文節に分けたら、形容詞句・動詞句・接続句・修飾句その他に
分けて、活用や接続規則を個別に処理してゆきます。いちばん
簡単なのが形容詞で、しかも数百個しかありません。つぎに動詞で、
これは千五百個くらいあります。名詞句は名詞の数だけあるわけ
だから、地名・姓・名まで含めると、何十万という数になりましが、
地名の「紫波(しわ)」「日出(ひじ)」なんかを下手に登録すると、
かな漢字変換に使ったときに(はい。JAI-Parser は双方向です)、
ちょっとムカッとします。
879Maria
垢版 |
2018/09/13(木) 09:12:22.19ID:7E5J/vlY
>>877
「Zipf の法則」というものがありましてですね、
「そこそこ実用的」くらいのところで妥協すると、
以外に多くないんですよ。
とくに、ジャンルを限定すれば、現在のパーソナル
コンピュータでも、わりと簡単に処理できるくらいの
規模になっちゃうと思います。
そのあたりで業務なり生活環境なりに投入して、
そこから先の「常識」は、使いながら付け足して
ゆく、というアプローチでけっこうなんとかなるだろう、と
思ってます。
880デフォルトの名無しさん
垢版 |
2018/09/13(木) 09:48:19.34ID:HZBiSGJZ
正規表現を言語化できるようなとこ知りませんか?

/^ab/
これを入れると、

「abで始まる」
と変換されるようなサービスって無いでしょうか?
881Maria
垢版 |
2018/09/13(木) 11:44:59.06ID:7E5J/vlY
>>880
そのくらいだったら Java で書けば早いんじゃない?
C 言語は文字列の扱いが大雑把(つーか、システム記述用
なので、可変長データを扱おうとすると、メモリリークとか
ワイルドポインタとか、ややこしいことになります)。
そうなると LISP なんだけど、LISP の処理系って、それほど
電算業界に普及してないのと GUI をサポートしていないのも
あって、LISP 勉強しても仕事で食ってけないのよ。
その点、Java はとりあえず飯の種になるし、バージョン 1.4
以降は正規表現もサポートしてるし、動的な記憶領域管理も
ちゃんと行なってて文字列の扱いも楽(ライブラリ関数も
けっこう充実してます)なので、とりあえず自分で
プログラム書いてみたら?
882Maria
垢版 |
2018/09/13(木) 11:55:02.11ID:7E5J/vlY
>>880
正規表現を一からコーディングする、とかいった
根性があるんでしたら、
カーニハンとプロ―ジャー著/木村 泉 訳の
『ソフトウェア作法(Software Tools)』(共立出版)
あたりから入門するのが適切かと思います。
だけど、フツーのプログラミング言語で正規表現を
処理しようと思うと、けっこう面倒臭いんですよね。
ですから、うちらは途中に仮想言語と仮想マシンをかませた、
という事情があります。
883Maria
垢版 |
2018/09/13(木) 12:03:48.10ID:7E5J/vlY
>>880
仮想言語と仮想マシンの実装については、
『BCPL : 言語とそのコンパイラ 』(共立出版)が
参考になります。
前段階としては、『やさしいコンパイラの作り方』
(同じく共立出版。中西正和先生がお書きになっています)
あたりを読んでおけば、そんなに難しくありませんよ。
もっとも、義務教育でプログラミング教育を受けている、
いまどきの中学生・高校生・大学生のような
ディジタルネイティブ世代とは、話が噛み合わない危惧も
ございますけど。
884Maria
垢版 |
2018/09/13(木) 12:32:14.22ID:7E5J/vlY
そうそう。最近、「丼ぶり」という表記を見ると、
イラッとします。「丼」という字は、「井戸の中に
何かを放りこんだ音が、『どんぶり』と聞こえる」と
いうのが発祥だと云われているんですよね。
語源としては、韓国語の「湯鉢(スープ用の、深い皿。
タンブリ)」だと云われています。
ですから、「丼」の訓は「どんぶり」であって、「どん」では
ありません。日本語処理の観点では、「カツ丼」「天丼」
「親子丼」「玉子丼」「鉄火丼」「湘南丼」「深川丼」
「海鮮丼」などを登録したうえで、「丼」を「どん」と入力する
例を運用レベルで吸収するのが本来のありかただと思うんですが、
「丼ぶり」が一般化しちゃうと、処理がバッティングするんですよね。

日本語処理に興味のある方にお伺いします。こういうのって、
どう思います?
885Maria
垢版 |
2018/09/13(木) 13:35:17.50ID:7E5J/vlY
>>873
ガウク大統領って、
・妻ゲアヒルド(ハンズィ)と子供が4人居るが妻とは現在も
正式には離婚していない
・一九九〇年から「ディー・ツァイト」紙のヘルガ・ヒルシュ記者と
同棲していた。
・一九九八年からは「ニュルンベルガーツァイトゥング」の
政治記者であったダニエラ・シャットと現在まで
十年以上にわたる交際を続けている。シャットは大統領夫人として
ガウクとベルリンで生活している。
というヒトですよね?
886Mb
垢版 |
2018/09/13(木) 13:45:47.68ID:7E5J/vlY
>>871
> なお、組合せ論的な爆発というのは、実用レベルでは
> ほとんど起きません。
>>884
> 「丼」の訓は「どんぶり」であって、「どん」では
> ありません。
「丼ぶり」→(「丼」に「どんぶり」の訓を適用する)
→「丼ぶりぶり」→再帰的に変換規則を適用して、
「丼ぶりぶり」に変換→以下、「丼ぶりぶりぶりぶりぶり
ぶりぶり ……」
スタックオーバーフローを起こしてマシンがクラッシュ(笑)
やーいやーい。
2018/09/13(木) 15:16:18.24ID:qwTTf/gn
>>880
視覚化してくれるサイトならいくつもあるけど言語化となると思い付かない
888Maria
垢版 |
2018/09/13(木) 15:24:50.49ID:7E5J/vlY
>>887
とりあえず、「バッカス・ナウア記法」あたりから
ググッてみるとよろしいんじゃないですか?
「言語化」というと、いろいろ難しい問題があると
思います。細井勉先生の、『数とことばの迷い道』
あたりをとっかかりにするのが、ひょっとしたら
正解かもしれません。
889Maria
垢版 |
2018/09/13(木) 15:28:13.49ID:7E5J/vlY
>>886
てめぇ憶えてろよ
月夜の晩ばかりじゃねぇんだぞ
大川に蓋はできねぇぞ?
890Mr.Moto
垢版 |
2018/09/13(木) 15:31:16.86ID:7E5J/vlY
>>886 >>889
マジスレでネタはやめれ
891Maria
垢版 |
2018/09/13(木) 17:45:20.37ID:7E5J/vlY
>>890
「止(や)む」→「止(や)める」→
(命令形)「止(や)めろ」が正。
「帰る」→(命令形)「帰れ」は正。

ふーんだ。
892デフォルトの名無しさん
垢版 |
2018/09/13(木) 18:01:35.68ID:l9KSlvFS
関西弁だと命令形は
帰り
893Maria
垢版 |
2018/09/13(木) 18:21:00.84ID:7E5J/vlY
>>892
「帰り」は連用形かもしれない、とも思います。
「帰りなさいませ」の省略形としての「帰り」は、
京都あたりでは一般化している可能性は
あるのではないかと。
894デフォルトの名無しさん
垢版 |
2018/09/13(木) 18:23:59.98ID:l9KSlvFS
はよ帰り
895Maria
垢版 |
2018/09/13(木) 19:02:57.94ID:7E5J/vlY
>>894
はよ去(い)ね

「呉れる」の命令形は「呉れろ」のはずですが、
もっぱら「呉れ」が使われる(おそらくは、「呉れ給え」
の略だと思います)ように、「帰る」の命令形は
運用上避けられているのではないかと
思います。
896869
垢版 |
2018/09/13(木) 21:38:58.32ID:8GqTf0bs
>>870
>>872
>「文法から逃げ回っている研究者が
> AIブームに乗じて統計的自然言語処理に逃げ込んでいる」

それはポジショントーク過ぎて
ぜんぜん賛同できないなあ……

機械翻訳でグーグルとかの統計ベースの翻訳が
従来のルールベースの翻訳に精度がかなり迫ってるし
単なる流行だけじゃなくてそういう実績があるから
統計ベースが主流になってきてるわけで現実を見ていない
897869
垢版 |
2018/09/13(木) 21:40:18.64ID:8GqTf0bs
>>871
>組合せ論的な爆発というのは
>実用レベルではほとんど起きません

いやいや
形態素解析レベルの話ではなくてその先の話

フレーム問題が起きるのも
組み合わせ爆発があるからでしょう
898869
垢版 |
2018/09/13(木) 21:45:40.10ID:8GqTf0bs
>>880
>正規表現を言語化

そういうソフトを見かけたことがないので
自分もしくは外注でソフトを制作する必要がありそうです

「abで始まる」とかだけなら
単純な置換でできる部分もあるけど
「abで始まり、cdで終わる」のように
場合分けである程度複雑な処理をするなら
インタプリタとかコンパイラの仕組みが必要になります

まあ本格的な自然言語処理に比べたら
初歩的なインタプリタなんかオモチャみたいなものですが
それでももしプログラマでない場合
もしくは初心者プログラマの場合かなり難しいでしょう

もしビジネスでどうしても必要なら
外部への発注も検討した方がいいかも
899869
垢版 |
2018/09/13(木) 21:49:58.61ID:8GqTf0bs
>>898
補足

>「abで始まる」
>「abで始まり、cdで終わる」

この部分は何が言いたいかというと
この「始まる」「始まり」の活用をするだけでも
単純な文字列の一括置換ではすぐ壁につきあたってしまうので
そういう「場合分けである程度複雑な処理をするなら」
プログラムを組む必要があるというわけです

言語はある程度メジャーなら何でもいいです
Java、C#、Python、Ruby……など
900デフォルトの名無しさん
垢版 |
2018/09/13(木) 21:57:16.41ID:10dKI03T
>>870
>文法(規範文法じゃなくて記述文法)は自然言語処理の基礎になるものだから、

そういう著作ってどんなものがあるのですか?

高校国語の「現代文の文法」で「接続助詞」は、とてもたくさんの種類があります。
全部を覚えきるのは大変なので、主にテストに出やすい「接続助詞」について、説明していきます。
https://nanapi.jp/ja/98144
901デフォルトの名無しさん
垢版 |
2018/09/14(金) 01:36:36.88ID:jnI/w9ND
>>872
>「文法から逃げ回っている研究者がAIブームに乗じて統計的自然言語処理に逃げ込んでいる」

文法的には『反対の賛成』=『賛成の反対』で正しいが、普段の我々はそういう言い方はしない。

5、結論
  以上の結果より導き出される京大英語で8割を超すための対策は、「ネイティブ英語とは何か」
を定義づけして学ぶことに尽きるだろう。
  たとえば、「この料理はまずい」という英作文なら受験生に多いのが
 This dish tastes poor.
しかし、これは評価されない。なぜなら、英語として正しくてもマナー違反。英検英語なら否定文にして、
This dish isn't good. これでマナーは改善された。
  しかし、ネイティブなら I don't like this dish. と言うだろう。本当に不味い場合は、
Yuck! と叫ぶ。そういう違いだ。
 問題は、
「受験英語の参考書や問題集で取り上げられている構文や表現が現実に使われている英語と違う」
  という事実。それを指導している教師や講師も、外国生活がなく50年前の表現を気づかずに指導して
いること。そのために、校内テストや模試で高得点や上位の順位をとっても落ちてしまうこと。
https://storys.jp/story/18159

京大英語は最新のネイティブ英語を強く意識しており、古くさい受験英語は通じ難い。
902デフォルトの名無しさん
垢版 |
2018/09/14(金) 01:43:51.96ID:jnI/w9ND
>>456
>>31
数学モデルは可能な限り『関数』として予め用意しておき、『文脈』に応じて『選択』する。
903デフォルトの名無しさん
垢版 |
2018/09/14(金) 01:46:13.68ID:fXySkelb
yuck deculture!!!
904デフォルトの名無しさん
垢版 |
2018/09/14(金) 03:34:47.05ID:jnI/w9ND
>>721
>こんなとこで自慰をするのは無様で恥知らずとしか言いようがない

匿名5ちゃんねるで何が『恥』なの? こっちたは肩書き関係無いよ?
905Maria
垢版 |
2018/09/14(金) 05:14:00.78ID:BVvdIn+z
>>896
> 統計ベースが主流になってきてるわけで現実を見ていない
そう見えるのはマシンが速くなってメモリが大きくなって
出現頻度情報と単語間の相関データの利用が進んできて
いるせいでしょう。
基本的な手法は、かれこれ四半世紀は大して進んでいませんよ。
906Maria
垢版 |
2018/09/14(金) 05:19:18.43ID:BVvdIn+z
>>897
可能世界仮説とかを持ってくると
あっという間に爆発するので、
そこは知識表現のところから
見直すしかないんじゃないかと思ってます。
定理の自動証明系なんかも、最近は
実用なレベルで使用されていますし。
907Maria
垢版 |
2018/09/14(金) 05:34:40.35ID:BVvdIn+z
>>900
現状、自然言語処理業界でスタンダードとされているのは、
益岡 隆志/田窪 行則『基礎日本語文法・改訂版』。
ただし、これをそのまんま持ってきて実装しても、
十分な精度は出ないと思う。
文語文法だけど、
鈴木康之著/佐伯梅友監修『日本語文法の基礎』が、
學校文法への批判も含めて、わかりやすい本です。

うちらが作った資料やら辞書やらプログラムやら
文法データがご入用なら、
「BackLog プリンプトン322」で引っかかる
『BackLog』というサイトのフォームからメールを
いただければ、お送りいたします。
908Maria
垢版 |
2018/09/14(金) 06:37:42.37ID:BVvdIn+z
>>900
リンク先の内容に関して、「が」や「と」や「も」には、
多少の注意が必要です。
とりたて詞の「が」と逆説の接続助詞「が」を
間違える人はあまりいませんが、「のが」が
省略されて「が」になることがあります
ex.「ここで遭ったが百年目」。
並列の「と」(「天と地と」)と因果関係の
「と」(「林檎を齧ると歯茎から血がでませんか?」)。
後者は接続詞「すると」と機能は同じ。
助詞「も」(「瑠璃も玻璃も磨けば光る」)と
接続助詞「も」(「そうは言っても」)。
まぁ、前に来る動詞の活用でだいたい判断
できますけどね。
909Maria
垢版 |
2018/09/14(金) 06:41:27.82ID:BVvdIn+z
>>900
活用体系に関する詳細な分析については、
寺村秀夫『日本語のシンタクスと意味 II』
910Maria
垢版 |
2018/09/14(金) 06:46:52.18ID:BVvdIn+z
おっと、途中で送信しちゃったい。

第4章の「活用」をご覧ください。
「なぜ、『連体形』と『終止形』は形が
同じなのか?」「なぜ、未然形と連用形は
形が二つあるのか?」「『仮定形』は『已然形』と
呼ぶのが正しくはないか?」みたいな
議論があり、これを読んでから
益岡 隆志/田窪 行則『基礎日本語文法・改訂版』
を読むと、けっこううんざりします。
911Maria
垢版 |
2018/09/14(金) 07:09:11.41ID:BVvdIn+z
>>911
うちらが使っている活用体系は、
寺村秀夫『日本語のシンタクスと意味 II』だと
松下文法に近いかな?
まず、現代語では「終止形」を立てません。いわゆる
「終止形」は省略による連体形の終止用法とみます。
ただし、文語だと動詞にも形容詞にも終止形があるので、
そこは配慮しましょう。
連体形と連用形は、「現在」と「過去または完了」に
分けて、合わせて四通りとして扱います。このとき、
「た」「だ」「て」「で」は活用語尾に含めるのが
本来のありかたですが、「ちゃった」「じゃった」の
処理との関連で、若干の工夫が必要です。
「仮定形」は「已然形」に名称変更。仮定を表すのは、
「ならば」です。「柿食えば鐘が鳴るなり法隆寺」は、
「柿を食ったら(仮定)鐘が鳴る」ではなく、
「柿を食ったら(已然)鐘が鳴った」です。
912デフォルトの名無しさん
垢版 |
2018/09/14(金) 07:09:30.48ID:jnI/w9ND
>>908
>ex.「ここで遭ったが百年目」

そういうのはレアなケースということで、『統計的機械翻訳』もまだ捨てたものではないと思う。
913デフォルトの名無しさん
垢版 |
2018/09/14(金) 07:20:46.26ID:jnI/w9ND
>>897
>フレーム問題が起きるのも
>組み合わせ爆発があるからでしょう

5ちゃんねらー百万人を動員して、百万通りの『日記』(200字以上400字以内)を書かせればいい。
そうすれば彼女にフラれたとか会社クビになっただとか、大半はありきたりな日常だとわかるはずだ。
ウンコが出なくて肛門に力を入れすぎて脱腸してしまったなんてごく稀な出来事は無視でいい。
914デフォルトの名無しさん
垢版 |
2018/09/14(金) 07:23:55.35ID:jnI/w9ND
>>897
>フレーム問題が起きるのも
>組み合わせ爆発があるからでしょう

龍が如くの神室町でのサブイベントを一万通り追加すればいい。
915Mr.Moto
垢版 |
2018/09/14(金) 08:13:31.90ID:BVvdIn+z
>>912
べつに統計的な手法を機械翻訳に適用するなとかは
言ってない。むしろ必要だと思っている。
「おはよう」「こんにちは」「こんばんは」
「ごきげんいかが」「どういたしまして」なんかは、
パターンで検出してパターンで答えるのが定跡だし。
とくにコンピュータの記憶容量は、そこいらの人間をはるかに
超えている(コンピュータに辞書を何冊も突っ込むことは
できるが、普通の人間は辞書を丸暗記しない)ので、
定型文に関しては、機械翻訳はすでに人間を超えていると
言っていい。
「ここで遭ったが百年目」とくれば「盲亀の浮木優曇華の、
花の咲きたる心地して(中略)いざ尋常に勝負勝ぉぉお負っ!」
くらいのことは、コンピュータには簡単。
ただ、あんまり口うるさいと、ユーザには不評。
「泰山鳴動して鼠一匹」「あれはローマの諺なので
『大山』が正解」
「高根の花」「正しくは『高嶺の花』。『富士の高嶺』と
同様」
とか言ってると「うるせぇな!」ということになる。
916Mr.Moto
垢版 |
2018/09/14(金) 08:37:07.48ID:BVvdIn+z
>>913
そこは業務上の要求とかと相談して、
適宜切り分けるのが順当だろうな。
医療用の問診システムだったら、
「放っとくと治っちゃうような病気」
と「レアケースだけど重篤化する危険性のある
病気」を切り分けて、検査を奨めるとかいった
要求はあるはずだ。
> ウンコが出なくて肛門に力を入れすぎて
> 脱腸してしまった
みたいな例は無視できるかもしれないが、
便秘で高熱が出て浣腸や便摘しないと生命に
危険があるようなケースはないでもないらしい。
917Maria
垢版 |
2018/09/14(金) 08:53:38.40ID:BVvdIn+z
実用性とはあんまり関係がなさそうだけど、
地口とか洒落とかを検出する(あるいは生成する)、
というのは あっても面白いかもしれない。
「感謝感激雨あられ」(元は「乱射乱撃雨あられ」)や、
「残り物には福がある」(「甘いものには福がある」
→「余り物には福がある」→「残り物には福がある」と
変化)みたいな例は、それほどレアな表現では
ないと思いますし。
918Maria
垢版 |
2018/09/14(金) 09:05:39.59ID:BVvdIn+z
>>899
多分にうちらの趣味が入ってますが、
順当なのは Java だと思います。
文字列を処理するのに、いちいち領域の
確保とか開放とか考えなくてすむし、
文字コードに関する処理も言語仕様で
吸収してくれていますから。
「文字列操作が重いんじゃないか?」という
心配はあると思いますが、StringBuffer を
使えばそれほど遅くないだろうし、
「クロウラーと組み合わせて、ネット上の
日本語テキストデータを端から喰う」みたいな
巨大処理でなければ、昨今のパーソナルコンピュータは
高性能なので、さほど気にならないかと存じます
(昔、C でやったときは回線が遅かったので、
実用上の問題はありませんでしたが。むしろ
集めた語彙データを整理するのが手間でした)。
919デフォルトの名無しさん
垢版 |
2018/09/14(金) 09:50:17.88ID:x/9f0NBW
>>456
>コンピューターの画面に、

パソコンに、

>表示させる

キーボード操作とコマンドラインとプログラミング言語で、

>操作をくり返し行う

『操作A』をk回行う。

文脈に応じて意味が全く変わる多義語を理解するための中間言語も用意しておきたい。
点は点でも『得点』なのか『座標点』なのか『要点』なのか、文脈による訳し分けを。
920Mr.Moto
垢版 |
2018/09/14(金) 13:24:11.76ID:BVvdIn+z
>>919
そのあたりは[形態素解析 → 構文解析 → 意味解析]みたいな
ウォーターフォール・モデルを考えれば当然あだろうと
思うが、いまどきは人工知能がブームなんで、そのあたりは
適宜調整するくらいのことはできないだろうか。
921Maria
垢版 |
2018/09/14(金) 15:34:41.55ID:BVvdIn+z
>>919
「コンピューターの画面」は、
「コンピューターのディスプレイ」と同義です。
「コンピューターのディスプレイ」に
「表示する」のは「ディスプレイする」と同義です。
「操作A」の結果は、そのつど異なっている
(少なくとも、「毎回同じである」とは限りません。
乱数要素や時刻などが関係してくる場合を排除
できないからです)と考えるのが妥当です。
そうなると、「パーソナルコンピュータに、
k回ぶんの 操作A の結果をディスプレイさせる」が
とりあえず妥当な表現ではないか、と思いますが、
いかがでしょうか。
922Mb
垢版 |
2018/09/14(金) 15:48:17.75ID:BVvdIn+z
>>918
> StringBuffer を使えば
「StringBuilder のほうが、同期を取らないぶんだけ
速いだろう」と考える奴もいるだろうが、
自然言語処理は、なにしろ人手がかかる。
しょうがないので Web 上にシステムを構築するわけだが、
そうすると必然的にマルチスレッド/マルチプロセスに
なるので、安全性を考えると排他制御を考えるのが
順当なありかた。
まぁ、処理環境がデカかったら、プロセスごとに new して
個別に処理するのも手だろうが、辞書をデータベースに
置くと、登録・削除で どっちみち排他制御が絡んでくるから、
「運用に入ってから適当に考える」くらいの
心づもりでいる。
923Maria
垢版 |
2018/09/14(金) 17:38:30.16ID:BVvdIn+z
>>895
そういえば、五段活用ナ行っていうのは、
「死ぬ」と「去ぬ」だけなんですよね。

これって、自然言語処理の立場でいうと、
「辞書的な処理で解決する(不規則活用と
同じ扱いをする)」のか、「アルゴリズムと
して、一般的な扱いをする(今後、五段活用
ナ行の動詞が、生まれてくる可能性がある)」
のか、そのあたりの方針はわりと重要な感じが
するんですけど、どうでしょう。
924Maria
垢版 |
2018/09/14(金) 17:44:31.09ID:BVvdIn+z
>>721
独りでカイてると寂しいのよね。
だれか相手してくんない?
925Maria
垢版 |
2018/09/14(金) 17:50:13.49ID:BVvdIn+z
あ、間違えた。
>>721 じゃなくて >>904 だった。
926Mr.Moto
垢版 |
2018/09/14(金) 17:52:20.16ID:BVvdIn+z
だからマジスレでネタはやめろと何度言ったら (ry
927デフォルトの名無しさん
垢版 |
2018/09/14(金) 22:58:21.94ID:Z/hoV2jq
>>921
>(少なくとも、「毎回同じである」とは限りません。

無限に解釈できるのかもしれないが、『その他』に指定しておくとか。
928デフォルトの名無しさん
垢版 |
2018/09/14(金) 23:18:31.72ID:Z/hoV2jq
ニューラル翻訳では機械学習で中間言語を生成してしまうとのこと。やはり中間言語方式を採用していきたい。

>>915
>定型文に関しては、機械翻訳はすでに人間を超えていると言っていい。

定型的な言い回しは機械学習でいいが、

>>456
>各操作で、(「記号○と×のいずれかを」「表示させる操作」を「k回繰り返す」。)

厳密な情景描写に関しては、人手で丹念に背景知識と中間言語を補いたい。

>>824
>当時の写真やドキュメンタリー番組などを参考にしているそうです。

われわれ人間だってそうしているのだから。

>>901
>外国生活がなく50年前の表現を気づかずに指導していること

現実世界との接点が無いままの機械的暗記学習では限界がある。
929デフォルトの名無しさん
垢版 |
2018/09/14(金) 23:26:45.19ID:Z/hoV2jq
中間言語方式とは、機械が苦手な多義語について、訳出例をいくつか挙げて、後から絞り込むやり方。
地名や個人名や専門用語は訳出が一つしかないので簡単だが、「その点」とかいうと、
点は点でも文脈によって訳出方法が変わるので、統計的機械翻訳では無理だ。
930デフォルトの名無しさん
垢版 |
2018/09/14(金) 23:35:49.63ID:Z/hoV2jq
>>828
>>863
厳密かつ具体的な情景描写(シミュレーション)については、中間言語を人手で補う必要が生じる。

>>897
>フレーム問題が起きるのも
>組み合わせ爆発があるからでしょう

受験数学のフレームは非常に限られているが、英語に関してはネイティブ重視だと機械翻訳は苦しいかも。
931デフォルトの名無しさん
垢版 |
2018/09/14(金) 23:50:51.08ID:Z/hoV2jq
>>921
> 「操作A」の結果は、そのつど異なっている
>(少なくとも、「毎回同じである」とは限りません。

『操作』と言った場合、何をどうするかについて、訳出の候補を挙げることさえも困難である。
『操作A』は具体的に何をどうするかのシミュレーターに落とし込むには、更なる第二中間言語が必要かも。

>>863
>四番目のステップは「全体の構成と設計」です。

更に高度な情報処理になるが、第二中間言語でプログラミング関数の何かに置き換えるとか。

>>921
>乱数要素や時刻などが関係してくる場合を排除できないからです

ライブラリ関数ならそれもこれも対応しているはずだ。
932デフォルトの名無しさん
垢版 |
2018/09/14(金) 23:54:35.64ID:x/9f0NBW
>>931
>何をどうするかについて、訳出の候補を挙げることさえも困難である。

『無条件降伏』とは、具体的に何をどうすることなのだろうか?

 「無条件降伏」については、確立した定義があるとは承知しておらず、一般的に、「降伏」とは、戦闘行為をやめ、
敵の権力下に入ることを意味し、その際に条件付けのない場合には「無条件降伏」と称されることがあると承知しているが、
その意味するところは文脈等にもよるものであり、したがって、お尋ねの「「無条件降伏」論」について、一概にお答えすることは困難である。
http://www.sangiin.go.jp/japanese/joho1/kousei/syuisyo/180/touh/t180183.htm

『無条件降伏をしたのに、北方領土を返還しろ』とはどういう意味なのか?
933デフォルトの名無しさん
垢版 |
2018/09/14(金) 23:58:08.54ID:fXySkelb
そもそもソ連には降伏もしてもないし
ソ連とは終戦もしてない

国際法どおり

まったく分かってないわ
そもそも文章がおかしい
934デフォルトの名無しさん
垢版 |
2018/09/14(金) 23:58:48.25ID:x/9f0NBW
○小坂国務大臣 政府委員から補足させまするが、カイロ宣言の中には、その南樺太並びに千島という部分は
入っておらないことは御指摘の通りであります。ただ、これを受けてできたポツダム宣言の中において、連合国が
日本の所有する領域をきめるということになっておりまするので、連合国の主張に従って無条件降服をした日本の
立場として、南樺太並びに千島を放棄したということであります。
http://kokkai.ndl.go.jp/SENTAKU/syugiin/039/0514/03910110514008a.html

ソ聯領におもむく意図を以て、有効な旅券を所持せず従つて旅券に入国審査官から出国の
証印を受けないで、判示海岸から右B所有の漁船Aに同人と共に乗船して出航し、
同日夕刻頃ソ聯領下の国後島沖合一五〇米位の海域に到達したものであること原審
認定のとおりであつて、原審の事実認定に誤りは存しない。
http://www.courts.go.jp/hanrei/pdf/js_20100319120139890464.pdf

ちなみにナチスと結んで米英を攻撃した日本は「無条件降伏をしたのに、北方領土を返還しろ」と主張してるのに、
ナチスと結んでソ連を攻撃したフィンランドは「有条件降伏をしたからカレリアを返還しろ」とは言わない。
クリミアは住民投票の結果ロシア領土になったという主張と、北方四島は日本が無条件降伏した結果ロシア領土になったいう主張は、
どちらが正しくてどちらが間違いなのか、あるいは両方間違いなのか両方正しいのか。
935デフォルトの名無しさん
垢版 |
2018/09/15(土) 00:01:00.95ID:KIanXBkQ
そもそもソ連はSFの中にいない
ソ連とは終戦もしてない
ソ連とは降伏もしてない

いまだにソ連とは平和条約すら結んでないからな
936デフォルトの名無しさん
垢版 |
2018/09/15(土) 00:05:36.82ID:KIanXBkQ
南サハリン、千島列島は帰属未定地
国際法的には日本にもソ連にも帰属する根拠はない
しかし、コレは歴史的にみれば日本固有の領土であると主張できる

まちがいなく火事場泥棒の不法占拠

北方四島は国際法に照らしあわせれば
間違いなく日本固有の領土
日本に帰属する根拠はあっても
ソ連に帰属する根拠はない

まちがいなく火事場泥棒の不法占拠
937デフォルトの名無しさん
垢版 |
2018/09/15(土) 00:13:23.66ID:iXfmCcY9
>>936
>北方四島は国際法に照らしあわせれば
>間違いなく日本固有の領土
>日本に帰属する根拠はあっても
>ソ連に帰属する根拠はない

  ソ聯領下の国後島
  ソ聯領下の国後島
  ソ聯領下の国後島
938デフォルトの名無しさん
垢版 |
2018/09/15(土) 00:14:53.72ID:KIanXBkQ
ちなみにSF講和条約のメンツは
みな北方四島は、日本固有の領土だといってる
そして、南サハリン、千島列島がソ連の領土であることも承認してない

しかし、ソ連はSF講和条約のメンツですらないのに
SF講和条約を根拠にしてココはオレの領土だと主張している

しかしSF講和条約のメンツは、そんなことだれも認めてない
もうね頭おかしいワケ
939Maria
垢版 |
2018/09/15(土) 09:10:22.91ID:i3vxjdYh
よそのサイトに書いたことですが、
>>930
「中間言語」として何を考えるか、については >>772
論じた「外延主義」に関する議論にかかわってくると
思います。「金星という天体」という “実在” がまさに
意味だ、と考えると、「竜」とか「文字」とか「数」とか
いった実在としての対応物を持たない概念には、「意味が
ない」ということになってしまいます。
そんなわけで、まず「データ構造ありき」と考えて、
いわゆる「自然言語処理」は逆問題である、と考える
立場があってもいいんじゃないでしょうか。
940Maria
垢版 |
2018/09/15(土) 09:22:59.26ID:i3vxjdYh
>>931
コンピュータに「常識」を持たせてあげないと、
「〇と×のいずれかを」を「〇 xor × のいずれか一方を」
と解釈してくれなくて、「〇×」とか「×〇」とか
出力しちゃうかもしれないので、そこは考えどころですね。
「ケーキセットには紅茶またはコーヒーがつきます」「じゃ、
両方」という古典的なネタもあることですし。
941Maria
垢版 |
2018/09/15(土) 15:36:31.88ID:i3vxjdYh
>>932
>『無条件降伏』とは、具体的に何をどうすることなのだろうか?
軍人が武装を解除して、軍の指揮下ではなく家庭に復すること。

誤った解釈が一般化しちゃうと、自然言語処理もますます
ややこしいことになるので、勘弁してほしいのよねー。

「弱冠」「助長」「破瓜」なんか、正しい意味で使われている
例を見たことがないし。

あと、「蚊帳の外」って、エッチな意味だから、下手に使うと
セクハラになるんだからねっ!
942Maria
垢版 |
2018/09/15(土) 15:46:53.94ID:i3vxjdYh
>>930
> 英語に関してはネイティブ重視だと機械翻訳は苦しいかも。
「五本指」→英語圏では、指は四本。親指は別扱い。
「茶封筒」→英語圏では、イエローな封筒。
「足の指」→英語圏では、「つまさき」で一括。
「玉子焼き」→英語圏では、「フライドエッグ」。「焼く」には
ベークドとかグリルドとかいろいろあり。

そういう意味では、「機械翻訳」ということの意味を問い直す
作業が、機械翻訳が実用レベルに達した現代では、重要に
なってくると思います。
943Maria
垢版 |
2018/09/15(土) 15:53:02.33ID:i3vxjdYh
ところでさぁ、自然言語処理とか日本語処理とか、
日本国内の企業や研究機関で、けっこうやってると
思うのよね。
だったら、正面切って喧嘩売りに来てくれない?
でないと、こっちから押しかけちゃうよ?
944デフォルトの名無しさん
垢版 |
2018/09/15(土) 17:07:36.67ID:JQEN5wSD
>>932
>その意味するところは文脈等にもよるものであり

前後の文脈を徹底的に調べ、かつ他の訳語を当てはめられるかを検証するシステム構築を。

>>931
> 第二中間言語でプログラミング関数の何かに置き換えるとか

抽象的な多義語を具体化してシミュレーションへ誘導する。『引数』と『戻り値』については、

>>26
>>123
>>277
>>282
>>457
のようなRFD研究を進めていきたい。
945デフォルトの名無しさん
垢版 |
2018/09/15(土) 17:13:32.43ID:JQEN5wSD
>>282
>(x,y,z)=(主語,述語,目的語)で、出現頻度の多い順に並べる

リンゴを食べた
ミカンを食べた
ウンコを食べた

さて仲間外れはどれでしょう?
946デフォルトの名無しさん
垢版 |
2018/09/15(土) 17:24:07.29ID:JQEN5wSD
>>282
>出現頻度の少ない組み合わせは、オリジナル表現か
>あるいはナンセンス文かのどちらか

極端に頻度の多い組み合わせと、京大頻度の低い組み合わせは、人力でフォローしていきたい。
前者に関してはライブラリ関数として人手で登録しておき、後者に関しては人手で検証する。

『雲の上を歩いてみようか』
『絵本の中から生まれ始めた物語の行方は』
『女性は子供を産む機械』

などどいうのは、人手で解析する必要が生じる。
947デフォルトの名無しさん
垢版 |
2018/09/15(土) 17:27:41.60ID:JQEN5wSD
>>942
>「玉子焼き」→英語圏では、「フライドエッグ」。「焼く」には
>ベークドとかグリルドとかいろいろあり。

画像認識やシミュレーションとも合わせて、現実世界との接点を広げることが大切と思う。
948Mb
垢版 |
2018/09/15(土) 17:40:17.83ID:i3vxjdYh
>>945
リンゴ
ミカンとウンコは落葉性の仁果類ではない
949デフォルトの名無しさん
垢版 |
2018/09/15(土) 17:42:49.73ID:JQEN5wSD
>>934
>ソ聯領下の国後島

『日本領下の種子島』と比べてどうだ?
950Maria
垢版 |
2018/09/15(土) 17:47:46.94ID:i3vxjdYh
>>947
厳密性の追求と実用性は、
トレードオフの面にも考慮というか
配慮するのが適切ではないでしょうか。
自動車と在来線と新幹線と航空機みたいな
選択肢もあるわけできし。
951Maria
垢版 |
2018/09/15(土) 23:31:55.83ID:i3vxjdYh
そろそろ次スレを立ててもいいかと思ってるんですけど、
あたしが立てちゃっていいのかなぁ?

あと、初期スレとかからの積み残し案件とか、
いろいろあると思うんですけど、そのあたり、
ちゃんと答えておいたほうがいいのかな?
レス数が950を超えています。1000を超えると書き込みができなくなります。
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況