前前スレ 自然言語処理スレッド その2
http://mimizun.com/log/2ch/tech/1173105287/
前スレ 自然言語処理スレッド その3
http://mimizun.com/log/2ch/tech/1235129481/
このスレッドでは、日本語の構文解析、談話理解、情報検索、
文章生成などの技術に関する理論と(おもに)実装を扱います。
あくまでアプリケーションプログラミングの技術的な面に重点をおきたいので、
学術的な話はアリですが、いわゆる人工無能や哲学的AI話、
言語学の話題などは他のスレッドでお願いします。
自然言語処理スレッド その4
レス数が950を超えています。1000を超えると書き込みができなくなります。
1デフォルトの名無しさん
2014/06/03(火) 05:40:00.54ID:yefNLumx851デフォルトの名無しさん
2018/09/12(水) 08:44:46.22ID:pUOFOCFc >共起3(時代)信長と安土城、零戦と原爆、キン肉マンとファミコン
『時代』については曖昧なところもある(原爆投下された頃は零戦なんて時代遅れ)ので、
信号機のような『赤』(正)『青』(否)『黄色』(曖昧)を。
『時代』については曖昧なところもある(原爆投下された頃は零戦なんて時代遅れ)ので、
信号機のような『赤』(正)『青』(否)『黄色』(曖昧)を。
852デフォルトの名無しさん
2018/09/12(水) 09:06:15.80ID:pUOFOCFc >>504
>冒険者の広場では提案広場・あしあと伝言板にて言論規制がしかれている。
・思いつく予防策
1.利用しない、なにも書かない
予防策と言っていいのかわかりませんが、私は冒険者の広場は極力利用しないようにしています
自分にそのつもりがなくても、相手の解釈次第で悪意のある文章だと思われてしまうことがありうるからです。
【訂正後】提案広場、落ち着いて!広場BANに要注意!
http://pan1946.blog.jp/archives/2426203.html
>冒険者の広場では提案広場・あしあと伝言板にて言論規制がしかれている。
・思いつく予防策
1.利用しない、なにも書かない
予防策と言っていいのかわかりませんが、私は冒険者の広場は極力利用しないようにしています
自分にそのつもりがなくても、相手の解釈次第で悪意のある文章だと思われてしまうことがありうるからです。
【訂正後】提案広場、落ち着いて!広場BANに要注意!
http://pan1946.blog.jp/archives/2426203.html
853Maria
2018/09/12(水) 10:06:19.28ID:H3XsJJBV >>851
そういう意味での共起関係は、必ずしも一次元ではなく、
もうちょっと複雑な関係になっているようです。
赤・青・白・黒は、それ自体が形容詞の語幹になります
(「赤い」「青い」「白い」「黒い」)。
また、「赤(明るい)⇔黒(蒙(くら))」
「白(明白。はっきりした)⇔青(=淡い)」
「赤(熟した。本来の性質が表に現れている)
⇔青(未熟な。本来の性質が表に現れていない)」
のような例があります。
そういう意味での共起関係は、必ずしも一次元ではなく、
もうちょっと複雑な関係になっているようです。
赤・青・白・黒は、それ自体が形容詞の語幹になります
(「赤い」「青い」「白い」「黒い」)。
また、「赤(明るい)⇔黒(蒙(くら))」
「白(明白。はっきりした)⇔青(=淡い)」
「赤(熟した。本来の性質が表に現れている)
⇔青(未熟な。本来の性質が表に現れていない)」
のような例があります。
854Mb
2018/09/12(水) 10:11:39.83ID:H3XsJJBV >>852
「おまえ、アホちゃうか?」は笑って済ませられるけど、
「あなたは、ちえおくれではありませんか?」だと
血の雨が降りかねん (-_-!)
関西人に「アホ」はいいけど「バカ」は禁忌、みたいな
地方性もある。
そうなると、「あほらしい」はOKだが「馬鹿馬鹿しい」
だと「誰が馬鹿だ!」と喧嘩になりかねん。
「おまえ、アホちゃうか?」は笑って済ませられるけど、
「あなたは、ちえおくれではありませんか?」だと
血の雨が降りかねん (-_-!)
関西人に「アホ」はいいけど「バカ」は禁忌、みたいな
地方性もある。
そうなると、「あほらしい」はOKだが「馬鹿馬鹿しい」
だと「誰が馬鹿だ!」と喧嘩になりかねん。
855Maria
2018/09/12(水) 10:20:37.36ID:H3XsJJBV856Maria
2018/09/12(水) 10:25:13.94ID:H3XsJJBV ちょっと軌道修正しておくと、
・シソーラスを作る
・出現頻度の相関を求めておく
あたりが、自然言語処理における定跡、
くらいの話になると思う。
・シソーラスを作る
・出現頻度の相関を求めておく
あたりが、自然言語処理における定跡、
くらいの話になると思う。
857Mr.Moto
2018/09/12(水) 10:33:58.65ID:H3XsJJBV 共起5 (ライバル)ソッピース・キャメルとフォッカー三葉、
スピットファイアとメッサーシュミット、砂漠の狐とラットパトロール、
ロンメルとパットン、竜と虎
スピットファイアとメッサーシュミット、砂漠の狐とラットパトロール、
ロンメルとパットン、竜と虎
858Maria
2018/09/12(水) 12:36:34.33ID:H3XsJJBV859Maria
2018/09/12(水) 21:24:29.80ID:H3XsJJBV そういえば、悪口というのは辞書に載りにくく、
しかもなかなか廃れない、という問題があります。
辞書作成担当者は、そのあたりにご注意を。
「昼行燈」(役に立ってない)
「天保銭」(ちょっと足りない)
「瞬間湯沸かし機」(すぐ熱くなる)
「蛍光灯」(応答が遅い)
なとが例になります。
英語圏では、
“Mr.Moto”(小賢しい日本人)
というのがあります。
しかもなかなか廃れない、という問題があります。
辞書作成担当者は、そのあたりにご注意を。
「昼行燈」(役に立ってない)
「天保銭」(ちょっと足りない)
「瞬間湯沸かし機」(すぐ熱くなる)
「蛍光灯」(応答が遅い)
なとが例になります。
英語圏では、
“Mr.Moto”(小賢しい日本人)
というのがあります。
860デフォルトの名無しさん
2018/09/13(木) 01:00:18.18ID:LigmLEis >>31
>数学モデルとシミュレーションにより、実践と理論の結合が図れるのです。
龍が如く極のマップ。東京・神室町の飲食店、販売店、プレイスポット、要所の場所や地名を地図にまとめてます。
https://dswiipspwikips3.jp/yakuza-kiwami/cheats-data/map-kamurochou.html
近くのコンビニでおにぎりを買った(コンビニの中に居る)
近くのコンビニでタクシーに乗った(コンビニの外に居る)
シミュレーターを動かしてみれば一目瞭然だ。
>数学モデルとシミュレーションにより、実践と理論の結合が図れるのです。
龍が如く極のマップ。東京・神室町の飲食店、販売店、プレイスポット、要所の場所や地名を地図にまとめてます。
https://dswiipspwikips3.jp/yakuza-kiwami/cheats-data/map-kamurochou.html
近くのコンビニでおにぎりを買った(コンビニの中に居る)
近くのコンビニでタクシーに乗った(コンビニの外に居る)
シミュレーターを動かしてみれば一目瞭然だ。
861デフォルトの名無しさん
2018/09/13(木) 01:14:54.52ID:LigmLEis 一次元(数直線)
二次元(平面座標)
三次元(空間座標)
四次元(ドラえもん)
『0』『1 』『2 』『3』は別扱いにしたいところ。指数関数や対数関数や確率統計などもそう。
二次元(平面座標)
三次元(空間座標)
四次元(ドラえもん)
『0』『1 』『2 』『3』は別扱いにしたいところ。指数関数や対数関数や確率統計などもそう。
862デフォルトの名無しさん
2018/09/13(木) 01:25:22.72ID:LigmLEis863デフォルトの名無しさん
2018/09/13(木) 03:09:57.93ID:x/k+qk9X >>862
>ジグソーパズルのように、断片的にでもとりあえずわかるところから解読していく
(4)全体の構成と設計
四番目のステップは「全体の構成と設計」です。
犯罪捜査でいえば犯行動機と犯行プロセスの全貌を推理して答を見出すことです。
歴史捜査では「真実の復元」と名付けましたが、ジグソーパズルでいえば、いくつかのピースの組み合わ
された塊を全体枠の適切な位置に順次はめ込んでいき、全体図を完成させる作業です。
http://www.issj.net/mm/mm0508/mm0508-5-ln.html
>ジグソーパズルのように、断片的にでもとりあえずわかるところから解読していく
(4)全体の構成と設計
四番目のステップは「全体の構成と設計」です。
犯罪捜査でいえば犯行動機と犯行プロセスの全貌を推理して答を見出すことです。
歴史捜査では「真実の復元」と名付けましたが、ジグソーパズルでいえば、いくつかのピースの組み合わ
された塊を全体枠の適切な位置に順次はめ込んでいき、全体図を完成させる作業です。
http://www.issj.net/mm/mm0508/mm0508-5-ln.html
864デフォルトの名無しさん
2018/09/13(木) 03:21:14.97ID:x/k+qk9X >>456
>各操作で、(「記号○と×のいずれかを」「表示させる操作」を「k回繰り返す」。)
この問題文の意味する『操作』とは、具体的に何をどうすることなのかを考察する人工知能が必要。
初見で理解できなくても、後の文からいろいろ類推しかつ検証していくこと。
>各操作で、(「記号○と×のいずれかを」「表示させる操作」を「k回繰り返す」。)
この問題文の意味する『操作』とは、具体的に何をどうすることなのかを考察する人工知能が必要。
初見で理解できなくても、後の文からいろいろ類推しかつ検証していくこと。
865787
2018/09/13(木) 04:41:44.40ID:8GqTf0bs >>790-793
>超えなきゃいけない壁があって前に進めない
でもIBMのワトソンなんかは一枚壁を越えたと思う
もちろん自然言語理解にはまだ何枚も壁があるけど
>「省略」と「理解」は不可分なので、扱いが難しい
>「制禦」「意図」という視点がある
従来の研究の枠組ではたしかに難しいんだけど
ただ細かい文法をつつき回すだけじゃなくて
ワトソンなんかはある程度の質問文の
意味や意図の理解をしているように思える
そして意味や文脈を理解しないと
ワトソンのような対話システムの実現は難しい
>超えなきゃいけない壁があって前に進めない
でもIBMのワトソンなんかは一枚壁を越えたと思う
もちろん自然言語理解にはまだ何枚も壁があるけど
>「省略」と「理解」は不可分なので、扱いが難しい
>「制禦」「意図」という視点がある
従来の研究の枠組ではたしかに難しいんだけど
ただ細かい文法をつつき回すだけじゃなくて
ワトソンなんかはある程度の質問文の
意味や意図の理解をしているように思える
そして意味や文脈を理解しないと
ワトソンのような対話システムの実現は難しい
866787
2018/09/13(木) 04:54:02.32ID:8GqTf0bs >>795
>これくらいのシステムであれば、
>現在の技術で充分に可能だと思うんだが
どうかなあ……?
もちろんその例文だけなら可能だし
辞書的な知識だけで上手く行きそうな雰囲気を醸し出してるけど
「ゾウは鼻が長いのに、キリンは首が長いのはなぜか?」
という問いに答えるには進化論について
かなり理解していないと的外れな回答をすることになる
データベースにある範囲だけで回答するなら可能だけど
対話システムは人工無能的なボロが出やすいから
もっと意味理解を進めないと現在の段階ではそれすら難しいと思う
文法をつつき回すだけではダメで
文法に回収できない意味や意図を理解することが
試されているのが今の自然言語処理のステージなんだと思う
>これくらいのシステムであれば、
>現在の技術で充分に可能だと思うんだが
どうかなあ……?
もちろんその例文だけなら可能だし
辞書的な知識だけで上手く行きそうな雰囲気を醸し出してるけど
「ゾウは鼻が長いのに、キリンは首が長いのはなぜか?」
という問いに答えるには進化論について
かなり理解していないと的外れな回答をすることになる
データベースにある範囲だけで回答するなら可能だけど
対話システムは人工無能的なボロが出やすいから
もっと意味理解を進めないと現在の段階ではそれすら難しいと思う
文法をつつき回すだけではダメで
文法に回収できない意味や意図を理解することが
試されているのが今の自然言語処理のステージなんだと思う
867787
2018/09/13(木) 05:03:56.38ID:8GqTf0bs >>813
そういう応答の多様性については
人工無能は確率的に遷移するだけだけど
そういう適当な処理ではダメで
応答の前提になる意味と意図が形成されている必要がある
たとえばみんなで鍋を食べていて
「激辛唐辛子をジャンジャン入れていいか?」
と言われたら人間なら辛くなるから「嫌だ」と言う
つまり「~していいですか?」に対して
「どうぞ」か「やめて」かは
人間は自分の都合に応じて判断をしているのであり
人工知能ならその都合を再現するのが本筋だろう
文法だけでは適切に返せない
しかしそれはつまり相手が「~した」ことで何が起こるのかを
予測する必要がありどれだけ常識を教えれば足りるのか不明で
例のフレーム問題が起こってしまう
鍋に唐辛子を入れたら辛くなるとか洗剤を入れたら食べられないとか
人間の常識は無限にあるので承知の通り過去のAIブームは頓挫した
でも今はもうたんにフレーム問題を避けるのではなく
機械学習とかで少しは切り崩せないか
挑戦する段階に差し掛かっていると思う
そういう応答の多様性については
人工無能は確率的に遷移するだけだけど
そういう適当な処理ではダメで
応答の前提になる意味と意図が形成されている必要がある
たとえばみんなで鍋を食べていて
「激辛唐辛子をジャンジャン入れていいか?」
と言われたら人間なら辛くなるから「嫌だ」と言う
つまり「~していいですか?」に対して
「どうぞ」か「やめて」かは
人間は自分の都合に応じて判断をしているのであり
人工知能ならその都合を再現するのが本筋だろう
文法だけでは適切に返せない
しかしそれはつまり相手が「~した」ことで何が起こるのかを
予測する必要がありどれだけ常識を教えれば足りるのか不明で
例のフレーム問題が起こってしまう
鍋に唐辛子を入れたら辛くなるとか洗剤を入れたら食べられないとか
人間の常識は無限にあるので承知の通り過去のAIブームは頓挫した
でも今はもうたんにフレーム問題を避けるのではなく
機械学習とかで少しは切り崩せないか
挑戦する段階に差し掛かっていると思う
868787
2018/09/13(木) 05:17:28.24ID:8GqTf0bs >>814
>ルールベースのエキスパートシステムみたいに
>ルールの追加に専門知識が必要で
>以前のルールとバッティングし、いずれ破綻するわけだろう
横レスだが承知の通りこれがかつてのAIブームの挫折の原因だね
組み合わせ爆発が起こって人力で辞書なりDBなり作ると
開発費が高くなり過ぎて実現できないと
そして今は機械学習によってその壁を部分的にでも
乗り越えられるのではないかとAIブームが再燃し
自然言語分野では統計的自然言語処理に注目が集まってる
つまり私(たち)の疑問は
連投している人は何か憤慨しているようだけど
文法をつつき回すかつてのやり方が壁に当たってるわけで
今の主流から外れてきたそのやり方の正当性なりを示さないまま
ただ細かい文法知識を披露されても心に響かないということ
>ルールベースのエキスパートシステムみたいに
>ルールの追加に専門知識が必要で
>以前のルールとバッティングし、いずれ破綻するわけだろう
横レスだが承知の通りこれがかつてのAIブームの挫折の原因だね
組み合わせ爆発が起こって人力で辞書なりDBなり作ると
開発費が高くなり過ぎて実現できないと
そして今は機械学習によってその壁を部分的にでも
乗り越えられるのではないかとAIブームが再燃し
自然言語分野では統計的自然言語処理に注目が集まってる
つまり私(たち)の疑問は
連投している人は何か憤慨しているようだけど
文法をつつき回すかつてのやり方が壁に当たってるわけで
今の主流から外れてきたそのやり方の正当性なりを示さないまま
ただ細かい文法知識を披露されても心に響かないということ
869787
2018/09/13(木) 05:20:21.09ID:8GqTf0bs いろいろ書いたけど一番言いたいことを要約すると
自然言語処理はAIの冬の教訓から
「文法をつつき回すだけでは無理」だという大前提があるわけで
今の時代に自然言語処理を研究または開発する者は
それとどう向き合うかが問われている
自然言語処理はAIの冬の教訓から
「文法をつつき回すだけでは無理」だという大前提があるわけで
今の時代に自然言語処理を研究または開発する者は
それとどう向き合うかが問われている
870Maria
2018/09/13(木) 06:49:13.71ID:7E5J/vlY >>869
文法は下手につつくと祟るからねぇ(笑)
ただ、文法(規範文法じゃなくて記述文法)は
自然言語処理の基礎になるものだから、
そこをしっかりと固めておかないと、
何をやっても砂上の楼閣になっちゃうのよね。
現在の日本語処理は、軟弱地盤の上に
手抜き工事の躯体が乗ってるようなものだから、
なんかの拍子に倒壊しそうな気がする。
文法は下手につつくと祟るからねぇ(笑)
ただ、文法(規範文法じゃなくて記述文法)は
自然言語処理の基礎になるものだから、
そこをしっかりと固めておかないと、
何をやっても砂上の楼閣になっちゃうのよね。
現在の日本語処理は、軟弱地盤の上に
手抜き工事の躯体が乗ってるようなものだから、
なんかの拍子に倒壊しそうな気がする。
871Maria
2018/09/13(木) 07:02:23.02ID:7E5J/vlY 中学生のころに教わった規範文法のせいで、
国文法が嫌いになっちゃうヒトは多いようですが、
あれは橋本文法が悪いんじゃなくて
「いわゆる学校文法」がお粗末だったせいなので、
文語文法から勉強して、国語学者からの学校文法批判とかを
じっくり検討してみると、現在の自然言語処理の
基礎が意外に脆弱なことが理解できると思います。
なお、組合せ論的な爆発というのは、実用レベルでは
ほとんど起きません。「入れない」がイレナイかハイレナイか、
「行った」がイッタかオコナッタか、「文書」がブンショか
モンジョか、とかいった程度です。
「書かされたがらなかった」とかでも、そんなにややこしい
ことにはなりませんよ? 「すもももももももものうち」
「うらにわにはにわにわにはにわにわとりがいる」とかも、
解析にかけてみると、意外に複雑にはなりませんし。
国文法が嫌いになっちゃうヒトは多いようですが、
あれは橋本文法が悪いんじゃなくて
「いわゆる学校文法」がお粗末だったせいなので、
文語文法から勉強して、国語学者からの学校文法批判とかを
じっくり検討してみると、現在の自然言語処理の
基礎が意外に脆弱なことが理解できると思います。
なお、組合せ論的な爆発というのは、実用レベルでは
ほとんど起きません。「入れない」がイレナイかハイレナイか、
「行った」がイッタかオコナッタか、「文書」がブンショか
モンジョか、とかいった程度です。
「書かされたがらなかった」とかでも、そんなにややこしい
ことにはなりませんよ? 「すもももももももものうち」
「うらにわにはにわにわにはにわにわとりがいる」とかも、
解析にかけてみると、意外に複雑にはなりませんし。
872Maria
2018/09/13(木) 07:06:42.59ID:7E5J/vlY そんなわけで、
「AIブームが再燃し、自然言語分野では
統計的自然言語処理に注目が集まってる」
というより、「文法から逃げ回っている研究者が
AIブームに乗じて統計的自然言語処理に逃げ込んでいる」
だけなんじゃないかなぁ。
「AIブームが再燃し、自然言語分野では
統計的自然言語処理に注目が集まってる」
というより、「文法から逃げ回っている研究者が
AIブームに乗じて統計的自然言語処理に逃げ込んでいる」
だけなんじゃないかなぁ。
873デフォルトの名無しさん
2018/09/13(木) 07:15:05.67ID:x/k+qk9X 自然科学の基礎研究に『学力』『経済力』『肩書き』は不要。その動かぬ証拠はこうだ!
ガウク大統領は、次のように強調しているー
「1945年5月8日、我々は解放された。我々を解放したのは、ソ連の諸民族の代表者達だったが、そればかりではない。
それゆえ、我々は、感謝と尊敬の念を示さなくてはならない。戦後ドイツが、ベルリンの壁により長い間分断されたという
事実でさえも、そうした気持ちに影響を与えるべきではない。一部の観測筋は疑っているようだが、私には、
ロシアにもロシア人に対しても問題はない。」
http://jp.sputniknews.com/europe/20150502/284616.html
ドイツ人が泣いて感謝するロシアの自然科学能力は、こうして養われたものである!
我らがネステロフは、全てのギアボックスを簡単に直してしまったよ。ある時、
イギリス人の技術者がネステロフのところに来て、「あなたはどこの大学で技術を学んだのですか?」
と聞いたことがある。ネステロフのやつは「コルホーズ大学さ」なんて答えておったな。
http://www.geocities.co.jp/SilkRoad/5870/loza1.html
ソ連人民の素朴な知見>>>>>>>(越えられない壁)>>>>大学教授博士
ガウク大統領は、次のように強調しているー
「1945年5月8日、我々は解放された。我々を解放したのは、ソ連の諸民族の代表者達だったが、そればかりではない。
それゆえ、我々は、感謝と尊敬の念を示さなくてはならない。戦後ドイツが、ベルリンの壁により長い間分断されたという
事実でさえも、そうした気持ちに影響を与えるべきではない。一部の観測筋は疑っているようだが、私には、
ロシアにもロシア人に対しても問題はない。」
http://jp.sputniknews.com/europe/20150502/284616.html
ドイツ人が泣いて感謝するロシアの自然科学能力は、こうして養われたものである!
我らがネステロフは、全てのギアボックスを簡単に直してしまったよ。ある時、
イギリス人の技術者がネステロフのところに来て、「あなたはどこの大学で技術を学んだのですか?」
と聞いたことがある。ネステロフのやつは「コルホーズ大学さ」なんて答えておったな。
http://www.geocities.co.jp/SilkRoad/5870/loza1.html
ソ連人民の素朴な知見>>>>>>>(越えられない壁)>>>>大学教授博士
874デフォルトの名無しさん
2018/09/13(木) 07:47:07.43ID:x/k+qk9X 全ての学問は『形式』であり、それは一定の社会秩序を維持するための『方便』なのである。
全共闘やらオウムやらで無秩序に暴れるくらいなら、とりあえず勉強でもしてろ就活でもしてろという程度。
>あなたはどこの大学で技術を学んだのですか?
他人の評価だけで生きてるみたいなお偉方は、所詮マニュアル通りのことしか出来ない。
自然科学の新分野を開拓するには、決して○○博士号などという肩書きに拘るべきではない。
全共闘やらオウムやらで無秩序に暴れるくらいなら、とりあえず勉強でもしてろ就活でもしてろという程度。
>あなたはどこの大学で技術を学んだのですか?
他人の評価だけで生きてるみたいなお偉方は、所詮マニュアル通りのことしか出来ない。
自然科学の新分野を開拓するには、決して○○博士号などという肩書きに拘るべきではない。
875デフォルトの名無しさん
2018/09/13(木) 08:31:06.66ID:X8s8xxNR876Maria
2018/09/13(木) 08:40:34.16ID:7E5J/vlY >>874
大学行っても役に立つことを教えてもらえるとは
限らないんだよね。
「私の経験でも、大学の国文学科での三年間に、
ついに文法の講義はなかった」
大野晋『日本語の文法を考える』
だから、学校で文法を教えている先生が、
文法を教えられているとは限りません。
大学行っても役に立つことを教えてもらえるとは
限らないんだよね。
「私の経験でも、大学の国文学科での三年間に、
ついに文法の講義はなかった」
大野晋『日本語の文法を考える』
だから、学校で文法を教えている先生が、
文法を教えられているとは限りません。
877デフォルトの名無しさん
2018/09/13(木) 08:45:29.08ID:T3CvC5e1878Maria
2018/09/13(木) 09:01:14.03ID:7E5J/vlY >>875
そうそう。実際に、それだけで大雑把な形態素解析はできちゃうのよ。
まず、改行で区切れるでしょ?
次に、句読点で切れる …… はずなんだけど、「モーニング娘。」
とか「藤岡弘、」とかいった例外があるから要注意。
で、次に括弧の中身と外側を分けて、括弧の中が文なのか名詞など
のような文法上の役割を持っているかどうかを判断します。ここは
文法的な処理があるから、人間に任せないと精度が悪くなるので、
「括弧の入った文章は、機械的にやると精度が落ちるんで、
辞書作成のときくらいにしか使えない」と思ってください。
次に、長尾真先生がおっしゃっていた方法があって、
「文頭から見ていって、非漢字から漢字に替わるところで切ると、
だいたい文節で切れる」という経験則があります(なお、カタカナ
語については自分で考えてみてね)。例外は「う歯」「えん罪」
「すい星」「ら致」や、接頭語の「お」「ご」。
ここまでで、文節レベルの形態素解析は済んだようなものです。
で、文節に分けたら、形容詞句・動詞句・接続句・修飾句その他に
分けて、活用や接続規則を個別に処理してゆきます。いちばん
簡単なのが形容詞で、しかも数百個しかありません。つぎに動詞で、
これは千五百個くらいあります。名詞句は名詞の数だけあるわけ
だから、地名・姓・名まで含めると、何十万という数になりましが、
地名の「紫波(しわ)」「日出(ひじ)」なんかを下手に登録すると、
かな漢字変換に使ったときに(はい。JAI-Parser は双方向です)、
ちょっとムカッとします。
そうそう。実際に、それだけで大雑把な形態素解析はできちゃうのよ。
まず、改行で区切れるでしょ?
次に、句読点で切れる …… はずなんだけど、「モーニング娘。」
とか「藤岡弘、」とかいった例外があるから要注意。
で、次に括弧の中身と外側を分けて、括弧の中が文なのか名詞など
のような文法上の役割を持っているかどうかを判断します。ここは
文法的な処理があるから、人間に任せないと精度が悪くなるので、
「括弧の入った文章は、機械的にやると精度が落ちるんで、
辞書作成のときくらいにしか使えない」と思ってください。
次に、長尾真先生がおっしゃっていた方法があって、
「文頭から見ていって、非漢字から漢字に替わるところで切ると、
だいたい文節で切れる」という経験則があります(なお、カタカナ
語については自分で考えてみてね)。例外は「う歯」「えん罪」
「すい星」「ら致」や、接頭語の「お」「ご」。
ここまでで、文節レベルの形態素解析は済んだようなものです。
で、文節に分けたら、形容詞句・動詞句・接続句・修飾句その他に
分けて、活用や接続規則を個別に処理してゆきます。いちばん
簡単なのが形容詞で、しかも数百個しかありません。つぎに動詞で、
これは千五百個くらいあります。名詞句は名詞の数だけあるわけ
だから、地名・姓・名まで含めると、何十万という数になりましが、
地名の「紫波(しわ)」「日出(ひじ)」なんかを下手に登録すると、
かな漢字変換に使ったときに(はい。JAI-Parser は双方向です)、
ちょっとムカッとします。
879Maria
2018/09/13(木) 09:12:22.19ID:7E5J/vlY >>877
「Zipf の法則」というものがありましてですね、
「そこそこ実用的」くらいのところで妥協すると、
以外に多くないんですよ。
とくに、ジャンルを限定すれば、現在のパーソナル
コンピュータでも、わりと簡単に処理できるくらいの
規模になっちゃうと思います。
そのあたりで業務なり生活環境なりに投入して、
そこから先の「常識」は、使いながら付け足して
ゆく、というアプローチでけっこうなんとかなるだろう、と
思ってます。
「Zipf の法則」というものがありましてですね、
「そこそこ実用的」くらいのところで妥協すると、
以外に多くないんですよ。
とくに、ジャンルを限定すれば、現在のパーソナル
コンピュータでも、わりと簡単に処理できるくらいの
規模になっちゃうと思います。
そのあたりで業務なり生活環境なりに投入して、
そこから先の「常識」は、使いながら付け足して
ゆく、というアプローチでけっこうなんとかなるだろう、と
思ってます。
880デフォルトの名無しさん
2018/09/13(木) 09:48:19.34ID:HZBiSGJZ 正規表現を言語化できるようなとこ知りませんか?
/^ab/
これを入れると、
↓
「abで始まる」
と変換されるようなサービスって無いでしょうか?
/^ab/
これを入れると、
↓
「abで始まる」
と変換されるようなサービスって無いでしょうか?
881Maria
2018/09/13(木) 11:44:59.06ID:7E5J/vlY >>880
そのくらいだったら Java で書けば早いんじゃない?
C 言語は文字列の扱いが大雑把(つーか、システム記述用
なので、可変長データを扱おうとすると、メモリリークとか
ワイルドポインタとか、ややこしいことになります)。
そうなると LISP なんだけど、LISP の処理系って、それほど
電算業界に普及してないのと GUI をサポートしていないのも
あって、LISP 勉強しても仕事で食ってけないのよ。
その点、Java はとりあえず飯の種になるし、バージョン 1.4
以降は正規表現もサポートしてるし、動的な記憶領域管理も
ちゃんと行なってて文字列の扱いも楽(ライブラリ関数も
けっこう充実してます)なので、とりあえず自分で
プログラム書いてみたら?
そのくらいだったら Java で書けば早いんじゃない?
C 言語は文字列の扱いが大雑把(つーか、システム記述用
なので、可変長データを扱おうとすると、メモリリークとか
ワイルドポインタとか、ややこしいことになります)。
そうなると LISP なんだけど、LISP の処理系って、それほど
電算業界に普及してないのと GUI をサポートしていないのも
あって、LISP 勉強しても仕事で食ってけないのよ。
その点、Java はとりあえず飯の種になるし、バージョン 1.4
以降は正規表現もサポートしてるし、動的な記憶領域管理も
ちゃんと行なってて文字列の扱いも楽(ライブラリ関数も
けっこう充実してます)なので、とりあえず自分で
プログラム書いてみたら?
882Maria
2018/09/13(木) 11:55:02.11ID:7E5J/vlY >>880
正規表現を一からコーディングする、とかいった
根性があるんでしたら、
カーニハンとプロ―ジャー著/木村 泉 訳の
『ソフトウェア作法(Software Tools)』(共立出版)
あたりから入門するのが適切かと思います。
だけど、フツーのプログラミング言語で正規表現を
処理しようと思うと、けっこう面倒臭いんですよね。
ですから、うちらは途中に仮想言語と仮想マシンをかませた、
という事情があります。
正規表現を一からコーディングする、とかいった
根性があるんでしたら、
カーニハンとプロ―ジャー著/木村 泉 訳の
『ソフトウェア作法(Software Tools)』(共立出版)
あたりから入門するのが適切かと思います。
だけど、フツーのプログラミング言語で正規表現を
処理しようと思うと、けっこう面倒臭いんですよね。
ですから、うちらは途中に仮想言語と仮想マシンをかませた、
という事情があります。
883Maria
2018/09/13(木) 12:03:48.10ID:7E5J/vlY >>880
仮想言語と仮想マシンの実装については、
『BCPL : 言語とそのコンパイラ 』(共立出版)が
参考になります。
前段階としては、『やさしいコンパイラの作り方』
(同じく共立出版。中西正和先生がお書きになっています)
あたりを読んでおけば、そんなに難しくありませんよ。
もっとも、義務教育でプログラミング教育を受けている、
いまどきの中学生・高校生・大学生のような
ディジタルネイティブ世代とは、話が噛み合わない危惧も
ございますけど。
仮想言語と仮想マシンの実装については、
『BCPL : 言語とそのコンパイラ 』(共立出版)が
参考になります。
前段階としては、『やさしいコンパイラの作り方』
(同じく共立出版。中西正和先生がお書きになっています)
あたりを読んでおけば、そんなに難しくありませんよ。
もっとも、義務教育でプログラミング教育を受けている、
いまどきの中学生・高校生・大学生のような
ディジタルネイティブ世代とは、話が噛み合わない危惧も
ございますけど。
884Maria
2018/09/13(木) 12:32:14.22ID:7E5J/vlY そうそう。最近、「丼ぶり」という表記を見ると、
イラッとします。「丼」という字は、「井戸の中に
何かを放りこんだ音が、『どんぶり』と聞こえる」と
いうのが発祥だと云われているんですよね。
語源としては、韓国語の「湯鉢(スープ用の、深い皿。
タンブリ)」だと云われています。
ですから、「丼」の訓は「どんぶり」であって、「どん」では
ありません。日本語処理の観点では、「カツ丼」「天丼」
「親子丼」「玉子丼」「鉄火丼」「湘南丼」「深川丼」
「海鮮丼」などを登録したうえで、「丼」を「どん」と入力する
例を運用レベルで吸収するのが本来のありかただと思うんですが、
「丼ぶり」が一般化しちゃうと、処理がバッティングするんですよね。
日本語処理に興味のある方にお伺いします。こういうのって、
どう思います?
イラッとします。「丼」という字は、「井戸の中に
何かを放りこんだ音が、『どんぶり』と聞こえる」と
いうのが発祥だと云われているんですよね。
語源としては、韓国語の「湯鉢(スープ用の、深い皿。
タンブリ)」だと云われています。
ですから、「丼」の訓は「どんぶり」であって、「どん」では
ありません。日本語処理の観点では、「カツ丼」「天丼」
「親子丼」「玉子丼」「鉄火丼」「湘南丼」「深川丼」
「海鮮丼」などを登録したうえで、「丼」を「どん」と入力する
例を運用レベルで吸収するのが本来のありかただと思うんですが、
「丼ぶり」が一般化しちゃうと、処理がバッティングするんですよね。
日本語処理に興味のある方にお伺いします。こういうのって、
どう思います?
885Maria
2018/09/13(木) 13:35:17.50ID:7E5J/vlY >>873
ガウク大統領って、
・妻ゲアヒルド(ハンズィ)と子供が4人居るが妻とは現在も
正式には離婚していない
・一九九〇年から「ディー・ツァイト」紙のヘルガ・ヒルシュ記者と
同棲していた。
・一九九八年からは「ニュルンベルガーツァイトゥング」の
政治記者であったダニエラ・シャットと現在まで
十年以上にわたる交際を続けている。シャットは大統領夫人として
ガウクとベルリンで生活している。
というヒトですよね?
ガウク大統領って、
・妻ゲアヒルド(ハンズィ)と子供が4人居るが妻とは現在も
正式には離婚していない
・一九九〇年から「ディー・ツァイト」紙のヘルガ・ヒルシュ記者と
同棲していた。
・一九九八年からは「ニュルンベルガーツァイトゥング」の
政治記者であったダニエラ・シャットと現在まで
十年以上にわたる交際を続けている。シャットは大統領夫人として
ガウクとベルリンで生活している。
というヒトですよね?
886Mb
2018/09/13(木) 13:45:47.68ID:7E5J/vlY887デフォルトの名無しさん
2018/09/13(木) 15:16:18.24ID:qwTTf/gn >>880
視覚化してくれるサイトならいくつもあるけど言語化となると思い付かない
視覚化してくれるサイトならいくつもあるけど言語化となると思い付かない
888Maria
2018/09/13(木) 15:24:50.49ID:7E5J/vlY >>887
とりあえず、「バッカス・ナウア記法」あたりから
ググッてみるとよろしいんじゃないですか?
「言語化」というと、いろいろ難しい問題があると
思います。細井勉先生の、『数とことばの迷い道』
あたりをとっかかりにするのが、ひょっとしたら
正解かもしれません。
とりあえず、「バッカス・ナウア記法」あたりから
ググッてみるとよろしいんじゃないですか?
「言語化」というと、いろいろ難しい問題があると
思います。細井勉先生の、『数とことばの迷い道』
あたりをとっかかりにするのが、ひょっとしたら
正解かもしれません。
891Maria
2018/09/13(木) 17:45:20.37ID:7E5J/vlY892デフォルトの名無しさん
2018/09/13(木) 18:01:35.68ID:l9KSlvFS 関西弁だと命令形は
帰り
帰り
893Maria
2018/09/13(木) 18:21:00.84ID:7E5J/vlY894デフォルトの名無しさん
2018/09/13(木) 18:23:59.98ID:l9KSlvFS はよ帰り
895Maria
2018/09/13(木) 19:02:57.94ID:7E5J/vlY >>894
はよ去(い)ね
「呉れる」の命令形は「呉れろ」のはずですが、
もっぱら「呉れ」が使われる(おそらくは、「呉れ給え」
の略だと思います)ように、「帰る」の命令形は
運用上避けられているのではないかと
思います。
はよ去(い)ね
「呉れる」の命令形は「呉れろ」のはずですが、
もっぱら「呉れ」が使われる(おそらくは、「呉れ給え」
の略だと思います)ように、「帰る」の命令形は
運用上避けられているのではないかと
思います。
896869
2018/09/13(木) 21:38:58.32ID:8GqTf0bs897869
2018/09/13(木) 21:40:18.64ID:8GqTf0bs898869
2018/09/13(木) 21:45:40.10ID:8GqTf0bs >>880
>正規表現を言語化
そういうソフトを見かけたことがないので
自分もしくは外注でソフトを制作する必要がありそうです
「abで始まる」とかだけなら
単純な置換でできる部分もあるけど
「abで始まり、cdで終わる」のように
場合分けである程度複雑な処理をするなら
インタプリタとかコンパイラの仕組みが必要になります
まあ本格的な自然言語処理に比べたら
初歩的なインタプリタなんかオモチャみたいなものですが
それでももしプログラマでない場合
もしくは初心者プログラマの場合かなり難しいでしょう
もしビジネスでどうしても必要なら
外部への発注も検討した方がいいかも
>正規表現を言語化
そういうソフトを見かけたことがないので
自分もしくは外注でソフトを制作する必要がありそうです
「abで始まる」とかだけなら
単純な置換でできる部分もあるけど
「abで始まり、cdで終わる」のように
場合分けである程度複雑な処理をするなら
インタプリタとかコンパイラの仕組みが必要になります
まあ本格的な自然言語処理に比べたら
初歩的なインタプリタなんかオモチャみたいなものですが
それでももしプログラマでない場合
もしくは初心者プログラマの場合かなり難しいでしょう
もしビジネスでどうしても必要なら
外部への発注も検討した方がいいかも
899869
2018/09/13(木) 21:49:58.61ID:8GqTf0bs >>898
補足
>「abで始まる」
>「abで始まり、cdで終わる」
この部分は何が言いたいかというと
この「始まる」「始まり」の活用をするだけでも
単純な文字列の一括置換ではすぐ壁につきあたってしまうので
そういう「場合分けである程度複雑な処理をするなら」
プログラムを組む必要があるというわけです
言語はある程度メジャーなら何でもいいです
Java、C#、Python、Ruby……など
補足
>「abで始まる」
>「abで始まり、cdで終わる」
この部分は何が言いたいかというと
この「始まる」「始まり」の活用をするだけでも
単純な文字列の一括置換ではすぐ壁につきあたってしまうので
そういう「場合分けである程度複雑な処理をするなら」
プログラムを組む必要があるというわけです
言語はある程度メジャーなら何でもいいです
Java、C#、Python、Ruby……など
900デフォルトの名無しさん
2018/09/13(木) 21:57:16.41ID:10dKI03T >>870
>文法(規範文法じゃなくて記述文法)は自然言語処理の基礎になるものだから、
そういう著作ってどんなものがあるのですか?
高校国語の「現代文の文法」で「接続助詞」は、とてもたくさんの種類があります。
全部を覚えきるのは大変なので、主にテストに出やすい「接続助詞」について、説明していきます。
https://nanapi.jp/ja/98144
>文法(規範文法じゃなくて記述文法)は自然言語処理の基礎になるものだから、
そういう著作ってどんなものがあるのですか?
高校国語の「現代文の文法」で「接続助詞」は、とてもたくさんの種類があります。
全部を覚えきるのは大変なので、主にテストに出やすい「接続助詞」について、説明していきます。
https://nanapi.jp/ja/98144
901デフォルトの名無しさん
2018/09/14(金) 01:36:36.88ID:jnI/w9ND >>872
>「文法から逃げ回っている研究者がAIブームに乗じて統計的自然言語処理に逃げ込んでいる」
文法的には『反対の賛成』=『賛成の反対』で正しいが、普段の我々はそういう言い方はしない。
5、結論
以上の結果より導き出される京大英語で8割を超すための対策は、「ネイティブ英語とは何か」
を定義づけして学ぶことに尽きるだろう。
たとえば、「この料理はまずい」という英作文なら受験生に多いのが
This dish tastes poor.
しかし、これは評価されない。なぜなら、英語として正しくてもマナー違反。英検英語なら否定文にして、
This dish isn't good. これでマナーは改善された。
しかし、ネイティブなら I don't like this dish. と言うだろう。本当に不味い場合は、
Yuck! と叫ぶ。そういう違いだ。
問題は、
「受験英語の参考書や問題集で取り上げられている構文や表現が現実に使われている英語と違う」
という事実。それを指導している教師や講師も、外国生活がなく50年前の表現を気づかずに指導して
いること。そのために、校内テストや模試で高得点や上位の順位をとっても落ちてしまうこと。
https://storys.jp/story/18159
京大英語は最新のネイティブ英語を強く意識しており、古くさい受験英語は通じ難い。
>「文法から逃げ回っている研究者がAIブームに乗じて統計的自然言語処理に逃げ込んでいる」
文法的には『反対の賛成』=『賛成の反対』で正しいが、普段の我々はそういう言い方はしない。
5、結論
以上の結果より導き出される京大英語で8割を超すための対策は、「ネイティブ英語とは何か」
を定義づけして学ぶことに尽きるだろう。
たとえば、「この料理はまずい」という英作文なら受験生に多いのが
This dish tastes poor.
しかし、これは評価されない。なぜなら、英語として正しくてもマナー違反。英検英語なら否定文にして、
This dish isn't good. これでマナーは改善された。
しかし、ネイティブなら I don't like this dish. と言うだろう。本当に不味い場合は、
Yuck! と叫ぶ。そういう違いだ。
問題は、
「受験英語の参考書や問題集で取り上げられている構文や表現が現実に使われている英語と違う」
という事実。それを指導している教師や講師も、外国生活がなく50年前の表現を気づかずに指導して
いること。そのために、校内テストや模試で高得点や上位の順位をとっても落ちてしまうこと。
https://storys.jp/story/18159
京大英語は最新のネイティブ英語を強く意識しており、古くさい受験英語は通じ難い。
902デフォルトの名無しさん
2018/09/14(金) 01:43:51.96ID:jnI/w9ND903デフォルトの名無しさん
2018/09/14(金) 01:46:13.68ID:fXySkelb yuck deculture!!!
904デフォルトの名無しさん
2018/09/14(金) 03:34:47.05ID:jnI/w9ND905Maria
2018/09/14(金) 05:14:00.78ID:BVvdIn+z >>896
> 統計ベースが主流になってきてるわけで現実を見ていない
そう見えるのはマシンが速くなってメモリが大きくなって
出現頻度情報と単語間の相関データの利用が進んできて
いるせいでしょう。
基本的な手法は、かれこれ四半世紀は大して進んでいませんよ。
> 統計ベースが主流になってきてるわけで現実を見ていない
そう見えるのはマシンが速くなってメモリが大きくなって
出現頻度情報と単語間の相関データの利用が進んできて
いるせいでしょう。
基本的な手法は、かれこれ四半世紀は大して進んでいませんよ。
906Maria
2018/09/14(金) 05:19:18.43ID:BVvdIn+z >>897
可能世界仮説とかを持ってくると
あっという間に爆発するので、
そこは知識表現のところから
見直すしかないんじゃないかと思ってます。
定理の自動証明系なんかも、最近は
実用なレベルで使用されていますし。
可能世界仮説とかを持ってくると
あっという間に爆発するので、
そこは知識表現のところから
見直すしかないんじゃないかと思ってます。
定理の自動証明系なんかも、最近は
実用なレベルで使用されていますし。
907Maria
2018/09/14(金) 05:34:40.35ID:BVvdIn+z >>900
現状、自然言語処理業界でスタンダードとされているのは、
益岡 隆志/田窪 行則『基礎日本語文法・改訂版』。
ただし、これをそのまんま持ってきて実装しても、
十分な精度は出ないと思う。
文語文法だけど、
鈴木康之著/佐伯梅友監修『日本語文法の基礎』が、
學校文法への批判も含めて、わかりやすい本です。
うちらが作った資料やら辞書やらプログラムやら
文法データがご入用なら、
「BackLog プリンプトン322」で引っかかる
『BackLog』というサイトのフォームからメールを
いただければ、お送りいたします。
現状、自然言語処理業界でスタンダードとされているのは、
益岡 隆志/田窪 行則『基礎日本語文法・改訂版』。
ただし、これをそのまんま持ってきて実装しても、
十分な精度は出ないと思う。
文語文法だけど、
鈴木康之著/佐伯梅友監修『日本語文法の基礎』が、
學校文法への批判も含めて、わかりやすい本です。
うちらが作った資料やら辞書やらプログラムやら
文法データがご入用なら、
「BackLog プリンプトン322」で引っかかる
『BackLog』というサイトのフォームからメールを
いただければ、お送りいたします。
908Maria
2018/09/14(金) 06:37:42.37ID:BVvdIn+z >>900
リンク先の内容に関して、「が」や「と」や「も」には、
多少の注意が必要です。
とりたて詞の「が」と逆説の接続助詞「が」を
間違える人はあまりいませんが、「のが」が
省略されて「が」になることがあります
ex.「ここで遭ったが百年目」。
並列の「と」(「天と地と」)と因果関係の
「と」(「林檎を齧ると歯茎から血がでませんか?」)。
後者は接続詞「すると」と機能は同じ。
助詞「も」(「瑠璃も玻璃も磨けば光る」)と
接続助詞「も」(「そうは言っても」)。
まぁ、前に来る動詞の活用でだいたい判断
できますけどね。
リンク先の内容に関して、「が」や「と」や「も」には、
多少の注意が必要です。
とりたて詞の「が」と逆説の接続助詞「が」を
間違える人はあまりいませんが、「のが」が
省略されて「が」になることがあります
ex.「ここで遭ったが百年目」。
並列の「と」(「天と地と」)と因果関係の
「と」(「林檎を齧ると歯茎から血がでませんか?」)。
後者は接続詞「すると」と機能は同じ。
助詞「も」(「瑠璃も玻璃も磨けば光る」)と
接続助詞「も」(「そうは言っても」)。
まぁ、前に来る動詞の活用でだいたい判断
できますけどね。
910Maria
2018/09/14(金) 06:46:52.18ID:BVvdIn+z おっと、途中で送信しちゃったい。
第4章の「活用」をご覧ください。
「なぜ、『連体形』と『終止形』は形が
同じなのか?」「なぜ、未然形と連用形は
形が二つあるのか?」「『仮定形』は『已然形』と
呼ぶのが正しくはないか?」みたいな
議論があり、これを読んでから
益岡 隆志/田窪 行則『基礎日本語文法・改訂版』
を読むと、けっこううんざりします。
第4章の「活用」をご覧ください。
「なぜ、『連体形』と『終止形』は形が
同じなのか?」「なぜ、未然形と連用形は
形が二つあるのか?」「『仮定形』は『已然形』と
呼ぶのが正しくはないか?」みたいな
議論があり、これを読んでから
益岡 隆志/田窪 行則『基礎日本語文法・改訂版』
を読むと、けっこううんざりします。
911Maria
2018/09/14(金) 07:09:11.41ID:BVvdIn+z >>911
うちらが使っている活用体系は、
寺村秀夫『日本語のシンタクスと意味 II』だと
松下文法に近いかな?
まず、現代語では「終止形」を立てません。いわゆる
「終止形」は省略による連体形の終止用法とみます。
ただし、文語だと動詞にも形容詞にも終止形があるので、
そこは配慮しましょう。
連体形と連用形は、「現在」と「過去または完了」に
分けて、合わせて四通りとして扱います。このとき、
「た」「だ」「て」「で」は活用語尾に含めるのが
本来のありかたですが、「ちゃった」「じゃった」の
処理との関連で、若干の工夫が必要です。
「仮定形」は「已然形」に名称変更。仮定を表すのは、
「ならば」です。「柿食えば鐘が鳴るなり法隆寺」は、
「柿を食ったら(仮定)鐘が鳴る」ではなく、
「柿を食ったら(已然)鐘が鳴った」です。
うちらが使っている活用体系は、
寺村秀夫『日本語のシンタクスと意味 II』だと
松下文法に近いかな?
まず、現代語では「終止形」を立てません。いわゆる
「終止形」は省略による連体形の終止用法とみます。
ただし、文語だと動詞にも形容詞にも終止形があるので、
そこは配慮しましょう。
連体形と連用形は、「現在」と「過去または完了」に
分けて、合わせて四通りとして扱います。このとき、
「た」「だ」「て」「で」は活用語尾に含めるのが
本来のありかたですが、「ちゃった」「じゃった」の
処理との関連で、若干の工夫が必要です。
「仮定形」は「已然形」に名称変更。仮定を表すのは、
「ならば」です。「柿食えば鐘が鳴るなり法隆寺」は、
「柿を食ったら(仮定)鐘が鳴る」ではなく、
「柿を食ったら(已然)鐘が鳴った」です。
912デフォルトの名無しさん
2018/09/14(金) 07:09:30.48ID:jnI/w9ND913デフォルトの名無しさん
2018/09/14(金) 07:20:46.26ID:jnI/w9ND >>897
>フレーム問題が起きるのも
>組み合わせ爆発があるからでしょう
5ちゃんねらー百万人を動員して、百万通りの『日記』(200字以上400字以内)を書かせればいい。
そうすれば彼女にフラれたとか会社クビになっただとか、大半はありきたりな日常だとわかるはずだ。
ウンコが出なくて肛門に力を入れすぎて脱腸してしまったなんてごく稀な出来事は無視でいい。
>フレーム問題が起きるのも
>組み合わせ爆発があるからでしょう
5ちゃんねらー百万人を動員して、百万通りの『日記』(200字以上400字以内)を書かせればいい。
そうすれば彼女にフラれたとか会社クビになっただとか、大半はありきたりな日常だとわかるはずだ。
ウンコが出なくて肛門に力を入れすぎて脱腸してしまったなんてごく稀な出来事は無視でいい。
914デフォルトの名無しさん
2018/09/14(金) 07:23:55.35ID:jnI/w9ND915Mr.Moto
2018/09/14(金) 08:13:31.90ID:BVvdIn+z >>912
べつに統計的な手法を機械翻訳に適用するなとかは
言ってない。むしろ必要だと思っている。
「おはよう」「こんにちは」「こんばんは」
「ごきげんいかが」「どういたしまして」なんかは、
パターンで検出してパターンで答えるのが定跡だし。
とくにコンピュータの記憶容量は、そこいらの人間をはるかに
超えている(コンピュータに辞書を何冊も突っ込むことは
できるが、普通の人間は辞書を丸暗記しない)ので、
定型文に関しては、機械翻訳はすでに人間を超えていると
言っていい。
「ここで遭ったが百年目」とくれば「盲亀の浮木優曇華の、
花の咲きたる心地して(中略)いざ尋常に勝負勝ぉぉお負っ!」
くらいのことは、コンピュータには簡単。
ただ、あんまり口うるさいと、ユーザには不評。
「泰山鳴動して鼠一匹」「あれはローマの諺なので
『大山』が正解」
「高根の花」「正しくは『高嶺の花』。『富士の高嶺』と
同様」
とか言ってると「うるせぇな!」ということになる。
べつに統計的な手法を機械翻訳に適用するなとかは
言ってない。むしろ必要だと思っている。
「おはよう」「こんにちは」「こんばんは」
「ごきげんいかが」「どういたしまして」なんかは、
パターンで検出してパターンで答えるのが定跡だし。
とくにコンピュータの記憶容量は、そこいらの人間をはるかに
超えている(コンピュータに辞書を何冊も突っ込むことは
できるが、普通の人間は辞書を丸暗記しない)ので、
定型文に関しては、機械翻訳はすでに人間を超えていると
言っていい。
「ここで遭ったが百年目」とくれば「盲亀の浮木優曇華の、
花の咲きたる心地して(中略)いざ尋常に勝負勝ぉぉお負っ!」
くらいのことは、コンピュータには簡単。
ただ、あんまり口うるさいと、ユーザには不評。
「泰山鳴動して鼠一匹」「あれはローマの諺なので
『大山』が正解」
「高根の花」「正しくは『高嶺の花』。『富士の高嶺』と
同様」
とか言ってると「うるせぇな!」ということになる。
916Mr.Moto
2018/09/14(金) 08:37:07.48ID:BVvdIn+z >>913
そこは業務上の要求とかと相談して、
適宜切り分けるのが順当だろうな。
医療用の問診システムだったら、
「放っとくと治っちゃうような病気」
と「レアケースだけど重篤化する危険性のある
病気」を切り分けて、検査を奨めるとかいった
要求はあるはずだ。
> ウンコが出なくて肛門に力を入れすぎて
> 脱腸してしまった
みたいな例は無視できるかもしれないが、
便秘で高熱が出て浣腸や便摘しないと生命に
危険があるようなケースはないでもないらしい。
そこは業務上の要求とかと相談して、
適宜切り分けるのが順当だろうな。
医療用の問診システムだったら、
「放っとくと治っちゃうような病気」
と「レアケースだけど重篤化する危険性のある
病気」を切り分けて、検査を奨めるとかいった
要求はあるはずだ。
> ウンコが出なくて肛門に力を入れすぎて
> 脱腸してしまった
みたいな例は無視できるかもしれないが、
便秘で高熱が出て浣腸や便摘しないと生命に
危険があるようなケースはないでもないらしい。
917Maria
2018/09/14(金) 08:53:38.40ID:BVvdIn+z 実用性とはあんまり関係がなさそうだけど、
地口とか洒落とかを検出する(あるいは生成する)、
というのは あっても面白いかもしれない。
「感謝感激雨あられ」(元は「乱射乱撃雨あられ」)や、
「残り物には福がある」(「甘いものには福がある」
→「余り物には福がある」→「残り物には福がある」と
変化)みたいな例は、それほどレアな表現では
ないと思いますし。
地口とか洒落とかを検出する(あるいは生成する)、
というのは あっても面白いかもしれない。
「感謝感激雨あられ」(元は「乱射乱撃雨あられ」)や、
「残り物には福がある」(「甘いものには福がある」
→「余り物には福がある」→「残り物には福がある」と
変化)みたいな例は、それほどレアな表現では
ないと思いますし。
918Maria
2018/09/14(金) 09:05:39.59ID:BVvdIn+z >>899
多分にうちらの趣味が入ってますが、
順当なのは Java だと思います。
文字列を処理するのに、いちいち領域の
確保とか開放とか考えなくてすむし、
文字コードに関する処理も言語仕様で
吸収してくれていますから。
「文字列操作が重いんじゃないか?」という
心配はあると思いますが、StringBuffer を
使えばそれほど遅くないだろうし、
「クロウラーと組み合わせて、ネット上の
日本語テキストデータを端から喰う」みたいな
巨大処理でなければ、昨今のパーソナルコンピュータは
高性能なので、さほど気にならないかと存じます
(昔、C でやったときは回線が遅かったので、
実用上の問題はありませんでしたが。むしろ
集めた語彙データを整理するのが手間でした)。
多分にうちらの趣味が入ってますが、
順当なのは Java だと思います。
文字列を処理するのに、いちいち領域の
確保とか開放とか考えなくてすむし、
文字コードに関する処理も言語仕様で
吸収してくれていますから。
「文字列操作が重いんじゃないか?」という
心配はあると思いますが、StringBuffer を
使えばそれほど遅くないだろうし、
「クロウラーと組み合わせて、ネット上の
日本語テキストデータを端から喰う」みたいな
巨大処理でなければ、昨今のパーソナルコンピュータは
高性能なので、さほど気にならないかと存じます
(昔、C でやったときは回線が遅かったので、
実用上の問題はありませんでしたが。むしろ
集めた語彙データを整理するのが手間でした)。
919デフォルトの名無しさん
2018/09/14(金) 09:50:17.88ID:x/9f0NBW >>456
>コンピューターの画面に、
パソコンに、
>表示させる
キーボード操作とコマンドラインとプログラミング言語で、
>操作をくり返し行う
『操作A』をk回行う。
文脈に応じて意味が全く変わる多義語を理解するための中間言語も用意しておきたい。
点は点でも『得点』なのか『座標点』なのか『要点』なのか、文脈による訳し分けを。
>コンピューターの画面に、
パソコンに、
>表示させる
キーボード操作とコマンドラインとプログラミング言語で、
>操作をくり返し行う
『操作A』をk回行う。
文脈に応じて意味が全く変わる多義語を理解するための中間言語も用意しておきたい。
点は点でも『得点』なのか『座標点』なのか『要点』なのか、文脈による訳し分けを。
920Mr.Moto
2018/09/14(金) 13:24:11.76ID:BVvdIn+z >>919
そのあたりは[形態素解析 → 構文解析 → 意味解析]みたいな
ウォーターフォール・モデルを考えれば当然あだろうと
思うが、いまどきは人工知能がブームなんで、そのあたりは
適宜調整するくらいのことはできないだろうか。
そのあたりは[形態素解析 → 構文解析 → 意味解析]みたいな
ウォーターフォール・モデルを考えれば当然あだろうと
思うが、いまどきは人工知能がブームなんで、そのあたりは
適宜調整するくらいのことはできないだろうか。
921Maria
2018/09/14(金) 15:34:41.55ID:BVvdIn+z >>919
「コンピューターの画面」は、
「コンピューターのディスプレイ」と同義です。
「コンピューターのディスプレイ」に
「表示する」のは「ディスプレイする」と同義です。
「操作A」の結果は、そのつど異なっている
(少なくとも、「毎回同じである」とは限りません。
乱数要素や時刻などが関係してくる場合を排除
できないからです)と考えるのが妥当です。
そうなると、「パーソナルコンピュータに、
k回ぶんの 操作A の結果をディスプレイさせる」が
とりあえず妥当な表現ではないか、と思いますが、
いかがでしょうか。
「コンピューターの画面」は、
「コンピューターのディスプレイ」と同義です。
「コンピューターのディスプレイ」に
「表示する」のは「ディスプレイする」と同義です。
「操作A」の結果は、そのつど異なっている
(少なくとも、「毎回同じである」とは限りません。
乱数要素や時刻などが関係してくる場合を排除
できないからです)と考えるのが妥当です。
そうなると、「パーソナルコンピュータに、
k回ぶんの 操作A の結果をディスプレイさせる」が
とりあえず妥当な表現ではないか、と思いますが、
いかがでしょうか。
922Mb
2018/09/14(金) 15:48:17.75ID:BVvdIn+z >>918
> StringBuffer を使えば
「StringBuilder のほうが、同期を取らないぶんだけ
速いだろう」と考える奴もいるだろうが、
自然言語処理は、なにしろ人手がかかる。
しょうがないので Web 上にシステムを構築するわけだが、
そうすると必然的にマルチスレッド/マルチプロセスに
なるので、安全性を考えると排他制御を考えるのが
順当なありかた。
まぁ、処理環境がデカかったら、プロセスごとに new して
個別に処理するのも手だろうが、辞書をデータベースに
置くと、登録・削除で どっちみち排他制御が絡んでくるから、
「運用に入ってから適当に考える」くらいの
心づもりでいる。
> StringBuffer を使えば
「StringBuilder のほうが、同期を取らないぶんだけ
速いだろう」と考える奴もいるだろうが、
自然言語処理は、なにしろ人手がかかる。
しょうがないので Web 上にシステムを構築するわけだが、
そうすると必然的にマルチスレッド/マルチプロセスに
なるので、安全性を考えると排他制御を考えるのが
順当なありかた。
まぁ、処理環境がデカかったら、プロセスごとに new して
個別に処理するのも手だろうが、辞書をデータベースに
置くと、登録・削除で どっちみち排他制御が絡んでくるから、
「運用に入ってから適当に考える」くらいの
心づもりでいる。
923Maria
2018/09/14(金) 17:38:30.16ID:BVvdIn+z >>895
そういえば、五段活用ナ行っていうのは、
「死ぬ」と「去ぬ」だけなんですよね。
これって、自然言語処理の立場でいうと、
「辞書的な処理で解決する(不規則活用と
同じ扱いをする)」のか、「アルゴリズムと
して、一般的な扱いをする(今後、五段活用
ナ行の動詞が、生まれてくる可能性がある)」
のか、そのあたりの方針はわりと重要な感じが
するんですけど、どうでしょう。
そういえば、五段活用ナ行っていうのは、
「死ぬ」と「去ぬ」だけなんですよね。
これって、自然言語処理の立場でいうと、
「辞書的な処理で解決する(不規則活用と
同じ扱いをする)」のか、「アルゴリズムと
して、一般的な扱いをする(今後、五段活用
ナ行の動詞が、生まれてくる可能性がある)」
のか、そのあたりの方針はわりと重要な感じが
するんですけど、どうでしょう。
926Mr.Moto
2018/09/14(金) 17:52:20.16ID:BVvdIn+z だからマジスレでネタはやめろと何度言ったら (ry
927デフォルトの名無しさん
2018/09/14(金) 22:58:21.94ID:Z/hoV2jq928デフォルトの名無しさん
2018/09/14(金) 23:18:31.72ID:Z/hoV2jq ニューラル翻訳では機械学習で中間言語を生成してしまうとのこと。やはり中間言語方式を採用していきたい。
>>915
>定型文に関しては、機械翻訳はすでに人間を超えていると言っていい。
定型的な言い回しは機械学習でいいが、
>>456
>各操作で、(「記号○と×のいずれかを」「表示させる操作」を「k回繰り返す」。)
厳密な情景描写に関しては、人手で丹念に背景知識と中間言語を補いたい。
>>824
>当時の写真やドキュメンタリー番組などを参考にしているそうです。
われわれ人間だってそうしているのだから。
>>901
>外国生活がなく50年前の表現を気づかずに指導していること
現実世界との接点が無いままの機械的暗記学習では限界がある。
>>915
>定型文に関しては、機械翻訳はすでに人間を超えていると言っていい。
定型的な言い回しは機械学習でいいが、
>>456
>各操作で、(「記号○と×のいずれかを」「表示させる操作」を「k回繰り返す」。)
厳密な情景描写に関しては、人手で丹念に背景知識と中間言語を補いたい。
>>824
>当時の写真やドキュメンタリー番組などを参考にしているそうです。
われわれ人間だってそうしているのだから。
>>901
>外国生活がなく50年前の表現を気づかずに指導していること
現実世界との接点が無いままの機械的暗記学習では限界がある。
929デフォルトの名無しさん
2018/09/14(金) 23:26:45.19ID:Z/hoV2jq 中間言語方式とは、機械が苦手な多義語について、訳出例をいくつか挙げて、後から絞り込むやり方。
地名や個人名や専門用語は訳出が一つしかないので簡単だが、「その点」とかいうと、
点は点でも文脈によって訳出方法が変わるので、統計的機械翻訳では無理だ。
地名や個人名や専門用語は訳出が一つしかないので簡単だが、「その点」とかいうと、
点は点でも文脈によって訳出方法が変わるので、統計的機械翻訳では無理だ。
930デフォルトの名無しさん
2018/09/14(金) 23:35:49.63ID:Z/hoV2jq931デフォルトの名無しさん
2018/09/14(金) 23:50:51.08ID:Z/hoV2jq932デフォルトの名無しさん
2018/09/14(金) 23:54:35.64ID:x/9f0NBW >>931
>何をどうするかについて、訳出の候補を挙げることさえも困難である。
『無条件降伏』とは、具体的に何をどうすることなのだろうか?
「無条件降伏」については、確立した定義があるとは承知しておらず、一般的に、「降伏」とは、戦闘行為をやめ、
敵の権力下に入ることを意味し、その際に条件付けのない場合には「無条件降伏」と称されることがあると承知しているが、
その意味するところは文脈等にもよるものであり、したがって、お尋ねの「「無条件降伏」論」について、一概にお答えすることは困難である。
http://www.sangiin.go.jp/japanese/joho1/kousei/syuisyo/180/touh/t180183.htm
『無条件降伏をしたのに、北方領土を返還しろ』とはどういう意味なのか?
>何をどうするかについて、訳出の候補を挙げることさえも困難である。
『無条件降伏』とは、具体的に何をどうすることなのだろうか?
「無条件降伏」については、確立した定義があるとは承知しておらず、一般的に、「降伏」とは、戦闘行為をやめ、
敵の権力下に入ることを意味し、その際に条件付けのない場合には「無条件降伏」と称されることがあると承知しているが、
その意味するところは文脈等にもよるものであり、したがって、お尋ねの「「無条件降伏」論」について、一概にお答えすることは困難である。
http://www.sangiin.go.jp/japanese/joho1/kousei/syuisyo/180/touh/t180183.htm
『無条件降伏をしたのに、北方領土を返還しろ』とはどういう意味なのか?
933デフォルトの名無しさん
2018/09/14(金) 23:58:08.54ID:fXySkelb そもそもソ連には降伏もしてもないし
ソ連とは終戦もしてない
国際法どおり
まったく分かってないわ
そもそも文章がおかしい
ソ連とは終戦もしてない
国際法どおり
まったく分かってないわ
そもそも文章がおかしい
934デフォルトの名無しさん
2018/09/14(金) 23:58:48.25ID:x/9f0NBW ○小坂国務大臣 政府委員から補足させまするが、カイロ宣言の中には、その南樺太並びに千島という部分は
入っておらないことは御指摘の通りであります。ただ、これを受けてできたポツダム宣言の中において、連合国が
日本の所有する領域をきめるということになっておりまするので、連合国の主張に従って無条件降服をした日本の
立場として、南樺太並びに千島を放棄したということであります。
http://kokkai.ndl.go.jp/SENTAKU/syugiin/039/0514/03910110514008a.html
ソ聯領におもむく意図を以て、有効な旅券を所持せず従つて旅券に入国審査官から出国の
証印を受けないで、判示海岸から右B所有の漁船Aに同人と共に乗船して出航し、
同日夕刻頃ソ聯領下の国後島沖合一五〇米位の海域に到達したものであること原審
認定のとおりであつて、原審の事実認定に誤りは存しない。
http://www.courts.go.jp/hanrei/pdf/js_20100319120139890464.pdf
ちなみにナチスと結んで米英を攻撃した日本は「無条件降伏をしたのに、北方領土を返還しろ」と主張してるのに、
ナチスと結んでソ連を攻撃したフィンランドは「有条件降伏をしたからカレリアを返還しろ」とは言わない。
クリミアは住民投票の結果ロシア領土になったという主張と、北方四島は日本が無条件降伏した結果ロシア領土になったいう主張は、
どちらが正しくてどちらが間違いなのか、あるいは両方間違いなのか両方正しいのか。
入っておらないことは御指摘の通りであります。ただ、これを受けてできたポツダム宣言の中において、連合国が
日本の所有する領域をきめるということになっておりまするので、連合国の主張に従って無条件降服をした日本の
立場として、南樺太並びに千島を放棄したということであります。
http://kokkai.ndl.go.jp/SENTAKU/syugiin/039/0514/03910110514008a.html
ソ聯領におもむく意図を以て、有効な旅券を所持せず従つて旅券に入国審査官から出国の
証印を受けないで、判示海岸から右B所有の漁船Aに同人と共に乗船して出航し、
同日夕刻頃ソ聯領下の国後島沖合一五〇米位の海域に到達したものであること原審
認定のとおりであつて、原審の事実認定に誤りは存しない。
http://www.courts.go.jp/hanrei/pdf/js_20100319120139890464.pdf
ちなみにナチスと結んで米英を攻撃した日本は「無条件降伏をしたのに、北方領土を返還しろ」と主張してるのに、
ナチスと結んでソ連を攻撃したフィンランドは「有条件降伏をしたからカレリアを返還しろ」とは言わない。
クリミアは住民投票の結果ロシア領土になったという主張と、北方四島は日本が無条件降伏した結果ロシア領土になったいう主張は、
どちらが正しくてどちらが間違いなのか、あるいは両方間違いなのか両方正しいのか。
935デフォルトの名無しさん
2018/09/15(土) 00:01:00.95ID:KIanXBkQ そもそもソ連はSFの中にいない
ソ連とは終戦もしてない
ソ連とは降伏もしてない
いまだにソ連とは平和条約すら結んでないからな
ソ連とは終戦もしてない
ソ連とは降伏もしてない
いまだにソ連とは平和条約すら結んでないからな
936デフォルトの名無しさん
2018/09/15(土) 00:05:36.82ID:KIanXBkQ 南サハリン、千島列島は帰属未定地
国際法的には日本にもソ連にも帰属する根拠はない
しかし、コレは歴史的にみれば日本固有の領土であると主張できる
まちがいなく火事場泥棒の不法占拠
北方四島は国際法に照らしあわせれば
間違いなく日本固有の領土
日本に帰属する根拠はあっても
ソ連に帰属する根拠はない
まちがいなく火事場泥棒の不法占拠
国際法的には日本にもソ連にも帰属する根拠はない
しかし、コレは歴史的にみれば日本固有の領土であると主張できる
まちがいなく火事場泥棒の不法占拠
北方四島は国際法に照らしあわせれば
間違いなく日本固有の領土
日本に帰属する根拠はあっても
ソ連に帰属する根拠はない
まちがいなく火事場泥棒の不法占拠
937デフォルトの名無しさん
2018/09/15(土) 00:13:23.66ID:iXfmCcY9 >>936
>北方四島は国際法に照らしあわせれば
>間違いなく日本固有の領土
>日本に帰属する根拠はあっても
>ソ連に帰属する根拠はない
ソ聯領下の国後島
ソ聯領下の国後島
ソ聯領下の国後島
>北方四島は国際法に照らしあわせれば
>間違いなく日本固有の領土
>日本に帰属する根拠はあっても
>ソ連に帰属する根拠はない
ソ聯領下の国後島
ソ聯領下の国後島
ソ聯領下の国後島
938デフォルトの名無しさん
2018/09/15(土) 00:14:53.72ID:KIanXBkQ ちなみにSF講和条約のメンツは
みな北方四島は、日本固有の領土だといってる
そして、南サハリン、千島列島がソ連の領土であることも承認してない
しかし、ソ連はSF講和条約のメンツですらないのに
SF講和条約を根拠にしてココはオレの領土だと主張している
しかしSF講和条約のメンツは、そんなことだれも認めてない
もうね頭おかしいワケ
みな北方四島は、日本固有の領土だといってる
そして、南サハリン、千島列島がソ連の領土であることも承認してない
しかし、ソ連はSF講和条約のメンツですらないのに
SF講和条約を根拠にしてココはオレの領土だと主張している
しかしSF講和条約のメンツは、そんなことだれも認めてない
もうね頭おかしいワケ
939Maria
2018/09/15(土) 09:10:22.91ID:i3vxjdYh940Maria
2018/09/15(土) 09:22:59.26ID:i3vxjdYh >>931
コンピュータに「常識」を持たせてあげないと、
「〇と×のいずれかを」を「〇 xor × のいずれか一方を」
と解釈してくれなくて、「〇×」とか「×〇」とか
出力しちゃうかもしれないので、そこは考えどころですね。
「ケーキセットには紅茶またはコーヒーがつきます」「じゃ、
両方」という古典的なネタもあることですし。
コンピュータに「常識」を持たせてあげないと、
「〇と×のいずれかを」を「〇 xor × のいずれか一方を」
と解釈してくれなくて、「〇×」とか「×〇」とか
出力しちゃうかもしれないので、そこは考えどころですね。
「ケーキセットには紅茶またはコーヒーがつきます」「じゃ、
両方」という古典的なネタもあることですし。
941Maria
2018/09/15(土) 15:36:31.88ID:i3vxjdYh >>932
>『無条件降伏』とは、具体的に何をどうすることなのだろうか?
軍人が武装を解除して、軍の指揮下ではなく家庭に復すること。
誤った解釈が一般化しちゃうと、自然言語処理もますます
ややこしいことになるので、勘弁してほしいのよねー。
「弱冠」「助長」「破瓜」なんか、正しい意味で使われている
例を見たことがないし。
あと、「蚊帳の外」って、エッチな意味だから、下手に使うと
セクハラになるんだからねっ!
>『無条件降伏』とは、具体的に何をどうすることなのだろうか?
軍人が武装を解除して、軍の指揮下ではなく家庭に復すること。
誤った解釈が一般化しちゃうと、自然言語処理もますます
ややこしいことになるので、勘弁してほしいのよねー。
「弱冠」「助長」「破瓜」なんか、正しい意味で使われている
例を見たことがないし。
あと、「蚊帳の外」って、エッチな意味だから、下手に使うと
セクハラになるんだからねっ!
942Maria
2018/09/15(土) 15:46:53.94ID:i3vxjdYh >>930
> 英語に関してはネイティブ重視だと機械翻訳は苦しいかも。
「五本指」→英語圏では、指は四本。親指は別扱い。
「茶封筒」→英語圏では、イエローな封筒。
「足の指」→英語圏では、「つまさき」で一括。
「玉子焼き」→英語圏では、「フライドエッグ」。「焼く」には
ベークドとかグリルドとかいろいろあり。
そういう意味では、「機械翻訳」ということの意味を問い直す
作業が、機械翻訳が実用レベルに達した現代では、重要に
なってくると思います。
> 英語に関してはネイティブ重視だと機械翻訳は苦しいかも。
「五本指」→英語圏では、指は四本。親指は別扱い。
「茶封筒」→英語圏では、イエローな封筒。
「足の指」→英語圏では、「つまさき」で一括。
「玉子焼き」→英語圏では、「フライドエッグ」。「焼く」には
ベークドとかグリルドとかいろいろあり。
そういう意味では、「機械翻訳」ということの意味を問い直す
作業が、機械翻訳が実用レベルに達した現代では、重要に
なってくると思います。
943Maria
2018/09/15(土) 15:53:02.33ID:i3vxjdYh ところでさぁ、自然言語処理とか日本語処理とか、
日本国内の企業や研究機関で、けっこうやってると
思うのよね。
だったら、正面切って喧嘩売りに来てくれない?
でないと、こっちから押しかけちゃうよ?
日本国内の企業や研究機関で、けっこうやってると
思うのよね。
だったら、正面切って喧嘩売りに来てくれない?
でないと、こっちから押しかけちゃうよ?
944デフォルトの名無しさん
2018/09/15(土) 17:07:36.67ID:JQEN5wSD945デフォルトの名無しさん
2018/09/15(土) 17:13:32.43ID:JQEN5wSD946デフォルトの名無しさん
2018/09/15(土) 17:24:07.29ID:JQEN5wSD >>282
>出現頻度の少ない組み合わせは、オリジナル表現か
>あるいはナンセンス文かのどちらか
極端に頻度の多い組み合わせと、京大頻度の低い組み合わせは、人力でフォローしていきたい。
前者に関してはライブラリ関数として人手で登録しておき、後者に関しては人手で検証する。
『雲の上を歩いてみようか』
『絵本の中から生まれ始めた物語の行方は』
『女性は子供を産む機械』
などどいうのは、人手で解析する必要が生じる。
>出現頻度の少ない組み合わせは、オリジナル表現か
>あるいはナンセンス文かのどちらか
極端に頻度の多い組み合わせと、京大頻度の低い組み合わせは、人力でフォローしていきたい。
前者に関してはライブラリ関数として人手で登録しておき、後者に関しては人手で検証する。
『雲の上を歩いてみようか』
『絵本の中から生まれ始めた物語の行方は』
『女性は子供を産む機械』
などどいうのは、人手で解析する必要が生じる。
947デフォルトの名無しさん
2018/09/15(土) 17:27:41.60ID:JQEN5wSD949デフォルトの名無しさん
2018/09/15(土) 17:42:49.73ID:JQEN5wSD950Maria
2018/09/15(土) 17:47:46.94ID:i3vxjdYh951Maria
2018/09/15(土) 23:31:55.83ID:i3vxjdYh そろそろ次スレを立ててもいいかと思ってるんですけど、
あたしが立てちゃっていいのかなぁ?
あと、初期スレとかからの積み残し案件とか、
いろいろあると思うんですけど、そのあたり、
ちゃんと答えておいたほうがいいのかな?
あたしが立てちゃっていいのかなぁ?
あと、初期スレとかからの積み残し案件とか、
いろいろあると思うんですけど、そのあたり、
ちゃんと答えておいたほうがいいのかな?
レス数が950を超えています。1000を超えると書き込みができなくなります。
ニュース
- 万博粗探しもうやめよう お祭り始まれば盛り上がる 書く書く鹿じか (鹿間孝一氏) [少考さん★]
- 【速報】デヴィ・スカルノさん(85)書類送検 事務所の女性従業員にグラスなど投げつけた疑い「投げつけておりません」容疑否認 警視庁 [Ailuropoda melanoleuca★]
- 万博 開幕3日目の来場者は6万2000人 一般の来場者は4万6000人 2日目から減少 ★2 [首都圏の虎★]
- 【野球】村上宗隆に429億円メガ契約の可能性 早くも米注目、由伸超えも「実現可能だ」 [ネギうどん★]
- 「石橋貴明を蹴飛ばしたい」かつてフジを告訴した“みなおか”出演女優が怒り震えた“超ド級セクハラ発言” [ネギうどん★]
- 万博 開幕3日目の来場者は6万2000人 一般の来場者は4万6000人 2日目から減少 ★3 [首都圏の虎★]
- 万博に巨大UFOキャッチャー YouTuberが「大量ゲット」最高の思い出😯 [861717324]
- 【飛行機】国内線でも出発の1時間以上前に空港についたほうが良いぞ【教訓】 [943688309]
- 東京都民、「都心」が東京のことだけを指すと勘違いして赤っ恥をかいてしまうWWWWWWW [732289945]
- 絵師を中心に展開されてた反AIブーム的なやつ、跡形もなく消え去る [333919576]
- ▶がうるぐら卒業
- キャベツがやすくなったから野菜たっぷりちゃんぽんつくって食べちゃった [907330772]