自然言語処理スレッド　その５

**Mr.Moto** · 2018/09/17(月) 11:48:10.55

このスレッドでは、おもに日本語の構文解析・談話理解・情報検索・
文章生成などの、実装とそれに付帯する技術および理論について
扱いたいと思っています。

**デフォルトの名無しさん** · 2020/03/06(金) 06:28:12.15

>>551
＞自然言語処理技術の目指す未来
＞コンピュータと会話によって会話が成り立ち

そうだな
ロボットやAIと会話が成立するってのが
（一般人にも）一番分かりやすい成功基準だろうね？

ただ個人的には会話システムだけに固執すると
自然言語処理の全体像が見えなくなると思う

たとえばセマンティックWEBみたいなものも
まだまだ伸びしろはあると思ってる

**デフォルトの名無しさん** · 2020/03/06(金) 06:31:16.54

>>553
＞プーチン大統領
＞「AIの分野を独占した者は世界を支配する」と述べた

へえそれ面白い発言だね！

なんか「チンポがシコシコ」とか
キチガイがブツブツ独り言言ってるのが多くて
スレ読むのも時間の浪費に思えてたけど
その一言だけでも開発のやる気が出てくるな！

**デフォルトの名無しさん** · 2020/03/06(金) 06:39:31.50

>>634
半年前のレスだから今さらだが
どんな分野でも新しく学ぶなら
基礎から始めるのが一番早いよ！

急がば回れ

**デフォルトの名無しさん** · 2020/03/06(金) 06:45:42.68

>>678
的外れな主張に的外れな反論だな……

自然言語処理は大きく見れば
コンピュータと同じ情報工学とかの分類だろ？

インターネットとか便利だから
工学は科学とやや別だが存在意義はあるだろ！
それも否定するなら2ちゃんに書き込むなよ？

**デフォルトの名無しさん** · 2020/03/06(金) 06:46:45.11

>>679
「チューリングテスト」とか調べてみるといいよ？
でも普通に考えて人工無能とは対話が成立しないだろ？

**デフォルトの名無しさん** · 2020/03/06(金) 06:48:56.29

>>679-688
＞タスクが遂行できたらOK
それな

言語理解できてるかどうかは
命令実行できるかがひとつの基準

ただまあ中国の部屋とかあって
それが全てかというと怪しいけど

**デフォルトの名無しさん** · 2020/03/06(金) 06:56:49.19

>>719
×中国の部屋
○中国語の部屋

**デフォルトの名無しさん** · 2020/03/06(金) 06:59:04.97

このスレのログ全部読んだが
8割方は無駄なレスだな！？

マイナージャンルなんだから
ちゃんと意味のあるレスしてくれ

**デフォルトの名無しさん** · 2020/03/06(金) 09:47:31.77

「情報工学」などといかにも形式ばった分類の仕方は当てはまらないと思うぞ？

>>717
>自然言語処理は大きく見れば
>コンピュータと同じ情報工学とかの分類だろ？

0. 外国語、特に英語、の教え方
｢読み書きは出来るが会話ができない｣というのは間違い。｢読み書き｣も出来ない
Decorative artとは、絵画、彫刻、建築を除いた家具、食器、絨毯、藍掛け、花瓶、タイル、
ドアのノッカーなど美術品と見做せるものの総称
表裏は日本語だと｢おもて｣と｢うら｣だが、漢文では｢外側｣の｢内側｣であり、｢裏｣は｢なか｣である。
コインの場合、英語ではhead & tailで、誰かの頭部の像がある方が日本語の｢おもて｣だが、tailが｢うら｣とは奇妙
http://hiroomikes20120501.blogspot.com/2014/12/20141212.html

　志村さんの、極めて真っ当で健全な問題意識は、受験に特化したおかしな出題傾向のみならず
「数学オリンピック」という制度にも警鐘を鳴らしている。彼自身の表現を引いてみよう。
　「数学オリンピックについて言えば、それで良い成績を得た人が実質的に得るものはほとんどない。
単なる競争であって、ちょっと小・中・高校生の将棋や囲碁の大会と似ているところがある」
https://news.nicovideo.jp/watch/nw5274901

**デフォルトの名無しさん** · 2020/03/06(金) 10:22:07.67

やっとまともな人キター😆

**デフォルトの名無しさん** · 2020/03/06(金) 10:24:45.48

>>717
>的外れな主張に的外れな反論だな……

「単原子分子理想気体」なんて、高校物理の教科書にしか存在しないぞ？

**デフォルトの名無しさん** · 2020/03/06(金) 14:58:12.75

おまえら自然言語処理って何を想定して話してるん？

１）形態素解析
２）構文解析
３）意味解析
４）文脈解析

１）と２）は昔からあった技術だし、新奇性はあんまりないな
昔はLISPがデフォルトだったのがpythonが出てきて風が吹いた？

３）と４）とりわけ４）はニューラルネットの成功で昨今花形分野になってるが

**デフォルトの名無しさん** · 2020/03/06(金) 15:09:48.66

全部

end-to-endでできるのが綺麗
素敵

**デフォルトの名無しさん** · 2020/03/06(金) 15:12:58.31

>>726
だから話がかみ合わないんじゃね？

総論語るだけなら中味が薄くなるのは仕方がないわ

**デフォルトの名無しさん** · 2020/03/06(金) 16:06:20.07

やりたいのは機械翻訳なんだけど

**708** · 2020/03/06(金) 18:14:05.74

>>723
まともな話題したいから
コテハンになるよ

このスレ過疎で荒れてるけど
自然言語処理の話できるとこ
少ないから困るんで話題振る

**ことのは** · 2020/03/06(金) 18:17:16.96

>>725
＞自然言語処理って何を想定して話してる
応用分野で語る方が分かりやすいと思う

機械翻訳がやりたいのか
自動要約がやりたいのか

クイズに答えるAI作りたいのか
とかたとえばそういう利用目的

**ことのは** · 2020/03/06(金) 18:20:37.52

>>725
＞LISPがデフォルト
Prologは面白いと思う
マイナーだけど今でも

＞pythonが出てきて
一番普及してる言語ってだけで
Pythonだから新しく
何かできるってのはあまりないな
もちろんライブラリは別の話

**ことのは** · 2020/03/06(金) 18:20:53.57

>>725
＞ニューラルネットの成功
人力で辞書作るの大変だから
機械学習でやろうって流れだね

ただそれで完全自動化できて
文法とか意味とか一切不要になる
とまでは個人的に思わないけど

**ことのは** · 2020/03/06(金) 18:24:57.45

>>726
＞end-to-end

日本語と英語だけを機械学習に投げれば
日英の機械翻訳ができるようになるとか

そういうのが理想ではあるけど
まだ完全な実現はしてないはず

**ことのは** · 2020/03/06(金) 18:26:30.58

>>728
＞機械翻訳
個人開発してる人あまりいないね？
何万語も辞書作るのは大変だから

だから機械学習に期待するんだろうけど
今度はグーグル翻訳に勝つのが大変だし

**デフォルトの名無しさん** · 2020/03/07(土) 09:29:39.56

データの気持ち、コーパスの気持ち、翻訳するときの頭の使い方を
ニューラルネットワークの構造に落とし込めたらいいな、と思う

**デフォルトの名無しさん** · 2020/03/07(土) 10:20:20.91

じじくさい

**デフォルトの名無しさん** · 2020/03/07(土) 17:34:56.58

Pythonはバランスが良い
C#は過小評価されてる
Rubyは過大評価されてる
VBやPHPは話にならない
COBOLやFORTRANはオワコン

**デフォルトの名無しさん** · 2020/03/07(土) 17:59:21.47

放送大学で自然言語処理の講義

**デフォルトの名無しさん** · 2020/03/07(土) 18:14:12.57

mecabと秋山さんのやつかな

**デフォルトの名無しさん** · 2020/03/07(土) 21:31:13.53

少し違うがタロットカード解釈みたいなもんか。
良い占いの結果を期待しだすとキリがない。

**ことのは** · 2020/03/08(日) 00:29:38.45

たとえばIBMのワトソンでも
Prologが使われていたよね

機械学習の発展が昔と一番違う所だけど
他が全部不要になるまでではないと思う

**ことのは** · 2020/03/08(日) 00:41:24.43

機械翻訳は昔のルールベースがあって
次に統計的フレーズベースがあって
今のニューラルネットと段階がある

フレーズベースとニューラルでも大違いだが
ニューラルは段違いに計算資源を使うので
その辺も個人や零細だと参入障壁になる

そんなの知ってるとか思うかもしれないけど
今の自然言語処理の状況を整理してる段階ね

**ことのは** · 2020/03/08(日) 01:03:13.55

だから計算量のこともあるし
あと集客力とかもあるから
グーグルと真っ向勝負するのは厳しい

ただそれでもやり方はあると思うんだ
ライオンが食べた後の骨についた肉に
ハイエナがかじりつくようなやり方だけど

たとえば海外のサイトで有用な情報があって
そのサイトの翻訳に特化したアプリを作って
（公開するのは翻訳権の問題があるけど）
個人的に何かの商売に生かすとかね

そういう風に正面突破できなくても迂回したら
成立するアプリとかサービスとかあるはず

**ことのは** · 2020/03/08(日) 01:07:40.15

グーグルのディープラーニングで
AIブームが来て自然言語処理も
周辺だけど波が来てるはず

この世界的ビッグウェーブに乗るしかない
逃したらまたAI冬の時代みたいになるかも
というかすでにピーク過ぎてる恐れもある

なのにこのスレは年中
「チンポでシコシコ」とか
ブツブツ言ってるだけで
世の中の流れに乗れてない

けどそれだと人生損する恐れがあるので
みんなでブレインストーミングというか
ちょっとずつ情報を持ち寄って
見通しを立てる位はできる場にしたい

と思ってコテハンになった訳だけど
もう少し話題を出していくね

**ことのは** · 2020/03/08(日) 01:14:04.80

たとえばスマートスピーカーの普及と
それに伴う音声認識や自然言語処理の需要はある
ってのはこの分野に関わってれば自然と分かるはず

だけどそこからもうひとひねりして
たとえば最近ブームになったRPAと
結びつけられるアプリやサービスはできないかとか

まあRPAもピーク過ぎた感もあるけど
付加価値があれば生き残れるかもしれない

**ことのは** · 2020/03/08(日) 01:18:54.01

もちろんRPAはたとえばの話で
他にも色々あるだろう
思いついたら書いていくけど

たぶんグーグルとかIT大資本と
正面から勝負するのは厳しい
まずサーバとかのインフラが違うから
もちろん技術の理解の深さとか全部違うけど

開発リソースが限られている中で
最終的にビジネス的に成功するには
既存の要素の組み合わせで
差別化していくしか生き残る道はないと思う

**デフォルトの名無しさん** · 2020/03/08(日) 02:51:55.21

日本は国家プロジェクトとしてGoogleに対抗するくらいの本気度みせてほしいね
１９５０年頃はコンピュータ産業を育成するために産業編成までやって通産省が主導した歴史がある

中国は国を挙げてリソースを投入するから、後発といえども侮れない

**デフォルトの名無しさん** · 2020/03/08(日) 05:25:44.76

>>747
livedoorとかは?

**デフォルトの名無しさん** · 2020/03/08(日) 10:06:53.38

それ失敗した奴じゃん。。。

今は翻訳バンクやってるけど
コーパスに容易にアクセスできない代物だし

**デフォルトの名無しさん** · 2020/03/08(日) 14:01:27.38

●●省が主導すると碌なことにならない

**デフォルトの名無しさん** · 2020/03/08(日) 15:17:22.02

今更富士通がawsに対抗するクラウドを出すそうで(笑)

官公庁の仕事をとれるだろうけど
サービスの質悪いだろうなあ

**デフォルトの名無しさん** · 2020/03/08(日) 15:21:57.90

>>747
戦後と比較して高度な理系人材は半減している上に
極少の対応できそうな人材も全てGAFAに引き抜かれ済みだから無理っしょ

少子化な上に文系大卒ばかり量産して何をしたいんだろうね、日本は

**デフォルトの名無しさん** · 2020/03/08(日) 15:39:50.62

オブジェクトの多重継承だが？

>>744
>なのにこのスレは年中
>「チンポでシコシコ」とか
>ブツブツ言ってるだけで
>世の中の流れに乗れてない

511 デフォルトの名無しさん 2018/10/29(月) 23:32:40.68 ID:LL+W6ENh
随意筋←implements─チンポ─implements→不随意筋

チンコの随意筋と不随意筋
http://d.hatena.ne.jp/tottokotokoroten/touch/20130516/1368716650

**デフォルトの名無しさん** · 2020/03/08(日) 15:42:10.97

チンポは主格であって手段では無いぞ？

>>744
>なのにこのスレは年中
>「チンポでシコシコ」とか

格助詞「で」（手段）
https://www.tomojuku.com/blog/particle-de/

**ことのは** · 2020/03/09(月) 04:31:00.91

>>747
＞国家プロジェクト
「第五世代コンピュータ」計画が失敗したからね

ただ個人的には失敗覚悟でもいいから
また挑戦して欲しい位に思ってる

日本のIT産業はGAFAに支配されてジリ貧だし
ハコモノとかは日常的に税金投入してるから

**ことのは** · 2020/03/09(月) 04:32:31.19

>>748
livedoor ニュースコーパス
https://www.rondhuit.com/download.html#ldcc

何の話？　ググったら
これだけ見つかったけど
なるべくリンク貼って

**ことのは** · 2020/03/09(月) 04:35:09.72

>>749
翻訳バンク
https://h-bank.nict.go.jp

『翻訳バンク』の運用開始 NICT
https://www.nict.go.jp/press/2017/09/08-1.html

NICT、翻訳エンジン安価に提供「翻訳バンク制度」日経
https://www.nikkei.com/article/DGXMZO20926660Y7A900C1000000/

これね

**ことのは** · 2020/03/09(月) 04:39:37.77

>>751
富士通が政府向けのクラウド事業に本格参入、AWSに対抗へ日経XTECH
https://xtech.nikkei.com/atcl/nxt/news/18/07236/

官公庁専用のプライベートクラウドみたいなのか？

こういうのは「御用クラウド」って感じで
利権の温床になりそうな気もする
ハコモノがITのインフラになっただけで

でも外資から海外に資金が逃げるよりは
国内に金を落としてくれた方がいいよね
やたら割高でなければという前提だけど

個人的な結論としては
GAFAのIT植民地よりは御用クラウドの方がマシ！

**ことのは** · 2020/03/09(月) 04:43:10.17

雑談も普通の開発に近づいてるね
スレが前よりマシになってきたと思う

AIブームもピーク過ぎてるし
ここ数年が勝負な気がしてる

その間くらいスレが機能してて欲しい

**ことのは** · 2020/03/09(月) 04:58:35.38

>>745
このアイディアにもうちょいつけ足しておくと
たとえばチャットボットをRPAの
インターフェイスにするのはどうか？

何となくRPAのスクレイピングとかと
ボットの相性が良さそうな気がしてる

それ昔から言われてる「対話システム」じゃん
って思うかもしれないけど
文脈を業務に限定してるから
一般的な会話よりは作りやすいはず

こういうのあまり手の内を明かすと
先を越して作られちゃうから
思わせぶりにキーワードだけ言うしかなくて
深く説明できなくてもどかしいんだけど
察することができる人はイメージできるはず

**ことのは** · 2020/03/09(月) 05:19:14.75

なんでオレがこのスレを再興しようとしているかというと
自然言語処理ってどんな方向性で何を作るかが
大きいジャンルだなって気がしてるから

過去をふり返るとそれが分かりやすくなる
ここが2ちゃん（5ちゃん）だけど
開設者のひろゆきが2ちゃんを作った頃は
普通の掲示板とか作っただけで成功できたよね？

ただ今はもうAIとか付加価値ないと後発は厳しい
だから自然言語処理を武器にしたいんだけど
自然言語処理って方向性でかなり違うものができるよね？

テキストマイニングだとほとんど統計だし
逆に文法をつつく分野もあるし機械学習もある

もちろん自然言語処理の論文とかも読んでるんだけど
そういうのは文法とかの細かい重箱の隅をつついてて
全体像がつかみにくいんで
あたりを見渡せる広場みたいな所が欲しいと思った次第

**デフォルトの名無しさん** · 2020/03/10(火) 09:39:50.57

NLPは人に説明してアイデアを出してもらうのも難しい
今やってるインタラクション2020の猫の咀嚼音で個体識別なんかまさに良い意味で素人の発想であり、画像や音声の機械学習による分類がいかにモジュール化可能でわかりやすいことか
それに対し、NLPはどこからどこまでがNLPで情報学との境界もわかりにくく、さらには抽象度も高くドメイン特化アプリも想像し難い
ぜひ違った視点があれば教えてほちい

**デフォルトの名無しさん** · 2020/03/10(火) 11:55:05.84

AIブームはピークを過ぎたが、打つ手が無くて収束した感じ

ハードルの低い画像認識ですら業務に適用できずに、
データ入力や目視検査も自動化出来ずに人頼み

**デフォルトの名無しさん** · 2020/03/10(火) 12:41:48.11

どのように使えない?

**デフォルトの名無しさん** · 2020/03/10(火) 13:41:30.99

>>763
ブームだったのは真似っこAIだけでしょ

**デフォルトの名無しさん** · 2020/03/10(火) 17:39:33.18

BLEU88だそうで（笑）
https://www.rozetta.jp/download/2020030901.pdf

**ことのは** · 2020/03/11(水) 00:23:49.18

>>762
良いよ！　だいぶ生産的な雰囲気が出てきたね？

＞猫の咀嚼音で個体識別
面白い研究だな！　実用性は不明だけど
将来的に家畜の管理とかに使えるかもね

で、NLPの話に戻るとたとえば
その画像や音声の力を借りちゃうとか？

表情や声色を画像認識や音声認識して
感情を読み取って文脈の情報として与えるとか

「マルチモーダル」みたいな概念も昔からあるけど
文脈解析が難航してるからそういう道もありそう

**ことのは** · 2020/03/11(水) 00:25:00.07

>>762
NPLが分かりにくいっていう話への応答としては
NPLの技術を始点にしてどう使うかか考えるだけでなく
実用シーンから逆算して当てはまる技術を使うのも有効そう

っていうのもたとえばさっきの話で言うと
サポセンで使うソフトなら
感情（とくに怒り）を読み取ることも有効だろうし

文法とか辞書から正攻法で攻めるのも大事だが
研究でなくビジネスアプリだと他との競争だから
実用化にはどっか抜け道を探さないといけない

**ことのは** · 2020/03/11(水) 00:30:53.18

>>763
AIブームのピークは過ぎても
まだ打つ手はあると思うけどな？

たとえば掃除ロボットに消毒液を噴霧させれば
感染症の対策になる（中国が実際やってる）し

同じ技術にどう付加価値を付けていくかという
「枯れた技術の水平思考」みたいなことだと思う

あとAI単体で完結せず人間の作業支援ソフトにするとか
人間が関わることで問題が解決できることもよくある

たとえば画像認識でAIだけだと100％補足できないけど
取りこぼしたものを人間がチェックするとかで
トータルの生産性が上がるなら導入するだろうし

そして自然言語処理はもっとハードル高いんだから
そういう人間との共同作業の余地は大きいと思う

**ことのは** · 2020/03/11(水) 00:36:03.13

>>766
ロゼッタのソフトで「翻訳メモリ」を利用して
自動翻訳を生成するって工夫はなるほどだね！
（「超絶」って言葉は煽り過ぎだと思うけどw）

少し前に機械翻訳とエンドツーエンドの話があったけど
まだ難しい部分は残ってるし、もしできたとしても
グーグルの機械学習ライブラリをそのまま使うだけで
グーグル翻訳の精度を抜くとかちょっとありえないはず

だから機械学習が強力なエンジンだとしても
既存の技術との組み合わせが必要だと個人的に考えてる
この翻訳メモリ利用なんかはまさしくその例だね

あとこの例は機械翻訳だけじゃなくて
別の分野に応用できそうだね
たとえばだけど自動要約でも
欲しい情報が残せるようになるとか？

**デフォルトの名無しさん** · 2020/03/11(水) 02:41:57.04

AIにプログラミングさせろよ

いずれはAIプログラマが人間プログラマを超えるはず

今のプログラマはみんな失業だわ

**デフォルトの名無しさん** · 2020/03/11(水) 08:07:34.21

それneubigさんのグループがやってた気がする

**デフォルトの名無しさん** · 2020/03/11(水) 17:31:54.14

頭が赤い魚を食べる猫
https://i.imgur.com/c8wOw6D.jpg

**デフォルトの名無しさん** · 2020/03/11(水) 18:04:39.92

コンテクストで周辺化すれば解決する？

**デフォルトの名無しさん** · 2020/03/11(水) 19:04:49.09

黒い瞳の大きな女の子

**デフォルトの名無しさん** · 2020/03/11(水) 22:44:18.45

作者の気持ちを考えろ
複数の意味に捉えられるのが正解だ

**ことのは** · 2020/03/12(木) 01:15:14.09

>>771
昔はコンパイラだとかの言語処理も
人工知能の研究範囲だったらしいね？
人間がしてた最適化を機械でできた

だから全部いっぺんに生成するのは
AIではできないけど部分的な自動化
できる部分は拡大していくだろうよ

また前からしてるRPAの話につなげると
プロセスマイニングとかでより効率的な
RPAの命令を生成するのはそれに近くて
実現可能性もそこそこある領域だと思う

「翻訳メモリ」の利用っていうのと
「プロセスマイニング」って
データベース化した知識って点で
じつは共通するからね？

でも結論としては今すぐ失業はしない
プログラミング全自動化できる位に
強いAIがまだ実現していないから

>>772
カーネギーメロン大は昔から自然言語処理が得意だね

**ことのは** · 2020/03/12(木) 01:33:02.43

>>773
「曖昧な日本の私」みたいな
日本語の係り受けの曖昧さの問題だね！

これは二番目が一番標準的な解析になるべきだと考える

なぜならまず係り受けが最小で連続しててキレイでしょ？
それから日常的にも一番出現確率が高そうな場面だよね？

だけどそれだけが唯一の正解って訳じゃなくて……

**ことのは** · 2020/03/12(木) 01:33:20.86

>>774
前後の文を見てコンテクストを拡張しよう
っていうのももちろんあるやり方だし

また「マルチモーダル」や「人間との共同作業」が
実現できる環境なら、たんにそれらの画像を生成して
ユーザに選択させれば意図は確実に分かる

まあこの例だとナンセンスな気がするけどたとえば
「A社のようにコストが高くつかないシステム」で
A社のシステムのコストが高いか高くないかが
ビジネスで重要な問題になるかもしれないとかだと
いちいち選択させるだけの動機はあるはず

**ことのは** · 2020/03/12(木) 01:40:21.76

>>775
だからこれも一番自然に読むなら
「瞳」が「黒」で
「女の子」が「大きい」はずだね

「瞳」が「大きい」
「女の子」が「黒い」とかだと
係り受けが飛ぶしやや不自然だから

**ことのは** · 2020/03/12(木) 01:40:37.23

>>776
＞作者の気持ち
＞複数の意味
これは難しいが高度な自然言語処理としてはありうる

たとえばお世辞で褒めてるとか
皮肉で逆の意味を示してるとか

今のテキストマイニングの
感情表現とかの情報抽出は
まだそのレベルまで行ってないだろうけど

Prologの自由変数の非決定性みたいな
多義性を保持する何らかの言語上の仕組みと
文脈解析する何らかのアルゴリズムが
必要になってくるだろうね？

**デフォルトの名無しさん** · 2020/03/12(木) 02:11:31.16

１から１００までの足し算を求めよ　　くらいのプログラムなら現時点でもAIプログラマでできるはず

ちょっと進化して、
電気回路の電流求めるみたいなｎ元１次方程式も多分AIプログラマは出来るだろう

**デフォルトの名無しさん** · 2020/03/12(木) 02:15:05.32

文法ではすり抜けるけど
事例で統計を取れば尤もらしい解釈が得られる

**デフォルトの名無しさん** · 2020/03/12(木) 02:21:35.62

GoogleのBERTなら今でも
このくらい↓のことはできるぞ（英語のみだが）

質問
「Where do water droplets collide with ice crystals to form precipitation?」
（水滴が氷の結晶と衝突して雨を形成するのはどこですか？）

Wikipedia
「-Precipitation forms as smller droplets coalesce via collision with other rain drops or ice crystals within a cloud」
（雨粒は、雲の中で他の雨粒や氷の結晶と衝突して合体し、小さな水滴として形成されます）

答え
「within a cloud」（雲の中）

**デフォルトの名無しさん** · 2020/03/12(木) 04:22:39.56

>>782
こんな簡単なプログラムでも解くのはなかなかむずかしい

入力＝”１から１００までの和sを求めよ”
出力例＝
”
s=0
for i in range(100):
s=s+i+1

print(s)

”

こんな数行のプログラミングでも難しい
AIにやらせると多分こうなる

"s=1+2+3+4+5+6+.…+99+100"

これも確かに答えだからなあ

**デフォルトの名無しさん** · 2020/03/12(木) 09:13:16.75

MTに大量のコーパスが必要、というのが解せない

人間は1000万文なんて読まなくても翻訳できるのに

**デフォルトの名無しさん** · 2020/03/12(木) 09:52:53.59

人間は文字や文章だけじゃなく様々な情報から知識や知能を身に付けてるのだから、違いがあるのは当然だろう

**デフォルトの名無しさん** · 2020/03/12(木) 10:52:14.52

>>785
プログラムコードの文字数を制限すれば
AIもfor文で書くかもしれない
ひょっとするとググって
s=(100+1)*50
とかいう答えをだすかもしれない

**デフォルトの名無しさん** · 2020/03/12(木) 12:59:44.57

それはどうでもいいかな

**デフォルトの名無しさん** · 2020/03/12(木) 13:37:54.15

>>788
AIが自分で解をみつけるんじゃなきゃAIにならんでしょ

積み木のパーツを組み合わせてオブジェクトを作るみたいに、
コンピュータ言語の構文組み合わせてプログラムを作る

試行錯誤から求めた解が答えになる、例えば
モンテカルロであらゆる組み合わせを探索して、生き残った組み合わせの中から
解の集合を絞り込む

解が２通り以上あるのは当然で（>>785みたいに）
その場合は評価関数で優劣を与えるんだろう

**デフォルトの名無しさん** · 2020/03/12(木) 14:18:44.24

「ブカンもういいね」と近平が言ったから三月十二日はコロナ記念日

**ことのは** · 2020/03/12(木) 20:11:20.59

>>782
汎用性を求めず限定すればできるだろうね
つまり強いAIじゃなくて弱いAIでいいなら

>>784
＞GoogleのBERT
は非常に有力だね

ただいくら機械学習の精度が上がろうとも
「A社のようにコストが高くつかないシステム」で
A社のシステムのコストが高いか高くないかは
本人に聞ける場面なら聞いた方が確実だから
どういうシステムにするかっていう問題は残る

結局の所は自然言語の不確実性は残るんで
人間がどう参加するかっていう部分も残る

**ことのは** · 2020/03/12(木) 20:12:49.70

>>783
>>786
人間も母語を習得するのに
幼少期に何年も掛かるから
大量のコーパスに触れてる

**ことのは** · 2020/03/12(木) 20:15:37.61

>>785
>>788
＞"s=1+2+3+4+5+6+.…+99+100"
これは「足し算の項が十以上になったら
For文で書け」みたいなルールを課せばいい

機械学習の流行でルールベースは
もうオワコンみたいな風潮だけど
たとえ機械学習で知識獲得させても
それと並行してルールも有効だと思う

**ことのは** · 2020/03/12(木) 20:19:56.04

>>787
人間は学習の質が違うからね
質より量が機械学習

>>790
＞積み木のパーツを組み合わせてオブジェクトを作るみたいに
＞コンピュータ言語の構文組み合わせてプログラムを作る

それは「遺伝的プログラミング」だね
今あまり流行らないがLispが得意な奴

＞組み合わせを探索して
＞解の集合を絞り込む
解集合の探索はPrologがやってきたことだな

**ことのは** · 2020/03/12(木) 20:24:55.80

あとRPAの話題を続けて言えば
プロセスマイニングと
テキストマイニングを合わせて使うことで
シナジーが生じないか考えてる

たとえばRPAの操作ごとに
自然文を入力もしくは出力して
ログを溜めておき
定期的にマイニングすると

操作データと文章データを比較することで
何か得る物があるかもしれない

それからWebサービスに
チャット（ボット）をつけても
同じようなことができるだろう
というかつけてる所はログを解析してるだろう

**デフォルトの名無しさん** · 2020/03/12(木) 20:55:07.53

ググルのアシスタントはそういうフィードバックを収集してるみたい

**ことのは** · 2020/03/12(木) 21:06:48.68

>>797
スマートスピーカーとかは
当然のように情報収集してるだろうね

そもそも昔から検索エンジンの
クエリが情報源になってると思うけど

「データイズキング」で
ビッグデータを取れる
プラットフォームがAIには有利だな

このままだとグーグルやアマゾンに
全産業が寡占されそうで危機感ある

**ことのは** · 2020/03/12(木) 21:08:12.01

reCAPTCHA - Wikipedia
https://ja.wikipedia.org/wiki/ReCAPTCHA

あんまりマニアックな論文とか紹介すると
手口がバレちゃうけどこれは有名な例だからいいかな

このreCAPTCHAはシステムの裏で
人間から情報収集する典型例だと思う

さっきのRPAでプロセスとテキストを
両方マイニングすればいいのでは
っていう発想の元ネタになってる

あとこれもカーネギーメロン大だね
自然言語処理に強いことで有名

**デフォルトの名無しさん** · 2020/03/12(木) 21:20:03.96

コンピュータサイエンスでは
バークレーとcmu強いよね

カーネギーメロンて聞くと
メロンを思い出しちゃう

**デフォルトの名無しさん** · 2020/03/12(木) 21:28:51.90

>>796
RPAとまでゆかずともExelの操作やショートカットを発話でできたら、老人やスマホ世代には確実にウケるよ
類義語辞典の作成とdialogflowのAPIだけ借りて
複雑になり過ぎたGUIを音声の意味理解が吸収するのは合理的だし、ok googleや音声入力する人が（周りにはいないが）結構いるデータも後押ししてる
マイクロソフトとアドビの操作を覚えるなんて時間の無駄って世界にすべきだわ

**デフォルトの名無しさん** · 2020/03/12(木) 22:11:34.53

>>798
AIが人物の画像をゼロから自己生成できるようになったように、
学習用の自然言語も既に収集不要

**ことのは** · 2020/03/12(木) 22:17:52.11

>>801
GUIからCUI（音声認識含む）に戻す
っていうのはシンプルだけど
大きな需要があると思ってる

たとえばスマートスピーカーは
とくにキッチンとかで手が離せない
状況の時に役立つからね

PCのGUIは残ると思うが
スマホも画面小さいから
複雑な操作はしにくいし

**ことのは** · 2020/03/12(木) 22:28:44.13

>>802
囲碁AIが「独学」で最強に　グーグル、産業応用探る　日経
https://www.nikkei.com/article/DGXMZO22407340Y7A011C1TI1000/

最近の機械学習は自己学習できるようになってるよね

ただ囲碁や画像処理みたいに
公開された情報だけで白黒つく分野と
そうでない分野があるから
情報収集が全部不要になるとは限らないんだ

たとえば株価なんかはいくら学習の精度が上がっても
株価だけで正確に予測できるようになるのは難しい

もしそうだったらプログラマが
ジャンジャン金持ちになってるはずだから

企業やその評価についての情報を入手する必要がありそう
つまりテクニカルだけでは不足でファンダメンタルな情報が必要

株の話はひとつの例だけどマーケティングは
人間の行動の予測だから
やはり自己学習だけで完結できると思えない

となるとやっぱりデータイズキングだし
やっぱりGAFAが有利なんじゃないかと思う

**デフォルトの名無しさん** · 2020/03/13(金) 00:32:07.48

>>804
私はプログラミングの世界は本来「完全情報ゲーム」だと思ってる

情報が完全でなければプログラミングは不可能だ

現実にはプログラミングの時点でも仕様が確定しないということはあるだろう
プログラマはその都度、仕様確定に奔走し、情報を完全にしようとする

しかしその多くは人間の不完全さから起こることであって、本来は完全な情報を与えるのがミッションのはずだ

もしプログラミングが「完全情報ゲーム」であるとすれば、AIとの親和性はいいはずだ
AIプログラマはいずれ実現すると思う

株価変動のような「不完全情報ゲーム」とは分けて考えるべきだろう

**デフォルトの名無しさん** · 2020/03/13(金) 01:04:33.05

私も囲碁のアマ高段者のはしくれなので、「アルファ碁」の出現には驚いた

初期の「アルファ碁」は教師あり学習で、プロ棋士の棋譜を多数学習して強化された
そのうちに「アルファ碁」同士で対局し、経験値を上げて人間より強くなった

現在の「アルファ碁ゼロ」は教師なし学習らしい
「アルファ碁ゼロ」は「「アルファ碁」よりもさらに強く、１００勝０敗である

アルファ碁は入力情報は棋譜である
棋譜とは１９×１９のマス目に白黒の石の配置と手順記録したものである
こんな感じ
１）先手　黒４－四　２）後手　白１６－一七　３）先手　黒………

入力情報は１９×１９の画像情報である
探索空間は１手進むごとに探索木が決定する木構造となる
ある局面の瞬間のスナップショットが１９×１９の画像となりニューラルネットへの入力となる

アルファ碁はある局面での優劣判断を過去の学習結果から計算できる
その計算により次の１手を割り出していく

http://home.q00.itscom.net/otsuki/alphaZero.pdf

https://www.slideshare.net/suckgeunlee/alphago-zero

**デフォルトの名無しさん** · 2020/03/13(金) 01:23:15.89

いずれにせよ滅び行くゲームだな。

**デフォルトの名無しさん** ◆aPqBDZ8KLvOt · 2020/03/13(金) 17:52:49.28

面白いのは初代の「アルファ碁」は時々読み落としをしていたこと
これは人間がよくやる間違いと同質のミスである

探索空間が木構造である以上、少なくとも（１９×１９）の階乗　程度の組合わせとなり
組合せ爆発が起こるので、スーパーコンピュータでも到底解けない
宇宙年齢より時間がかかってしまうだろうから

そこで教師あり学習によって経験を積み、無用な探索を行わないように探索空間を枝刈りするというテクニックを採用した
しかし枝刈りされた探索木の中にも最適解や局所解は存在するかもしれない

実際そういうことが稀に起こって人間に負けることがあった
注目を浴びた韓国プロ棋士との５番勝負で４勝１敗になったのはそのケースだ

しかし強化学習を積上げることで、そのようなまぐれ負けは起こらなくなった

アルファ碁は１日に何万局もの自己対局を行うことができるので、
経験値を積み上げた結果、
人間が何百年もかけて築いてきた経験と知識を凌駕してしまったのだ

**デフォルトの名無しさん** · 2020/03/13(金) 18:11:34.44

コピペされた文章を添削するスレか？ここは

**ことのは** · 2020/03/13(金) 19:50:32.30

>>805
＞プログラミングの世界は本来「完全情報ゲーム」
＞株価変動のような「不完全情報ゲーム」とは分けて考えるべき
その前提がよく分からないな？

人間の社会や市場は不完全情報で動いているので
ビジネスアプリの開発はそれに対応せざるをえない

いや別に「完全情報のゲーム」になるよう
囲碁や将棋のアプリとかだけ作っていてもいいんだけど
それはなんか個人の美学みたいな感じになっちゃうから
匿名掲示板だしオレは生産性を基準にする立場に立つね？

「～すべき」みたいな限定する前提はなるべく
生産性を高める場合に使うと生産性が高まるから

もし株式市場の予測ソフトで儲かるなら
不完全でも何でも単にそれを作ればいいことでしょ？

**ことのは** · 2020/03/13(金) 19:53:58.87

>>806
＞アルファ碁は入力情報は棋譜
＞入力情報は１９×１９の画像情報

たしかに言語（棋譜）とも言えるし画像とも言えるね

究極的にはコンピュータが扱うデータは
1と0のバイナリだからみんな同じとも見なせる

じっさい機械学習では単語をベクトルにしたりするよね？

**ことのは** · 2020/03/13(金) 19:55:32.58

>>807
はたしてどうかな？

チェスや将棋でプロ棋士に勝った時もよく言われたけど
自動車の方が人間より早いけど陸上競技はなくならない

ゲームが残るかどうかは人間が面白いかどうかじゃない？
ただプロの世界が消えてしまうことは想定できるかもね

**デフォルトの名無しさん** · 2020/03/13(金) 19:56:27.57

>>810
意味が分からない
あなたはプログラミングの経験がないのでは？

仕様が確定すればプログラミングは可能になる　という前提なんだけど　ここを否定するの？
ビジネスアプリでも同じだよ

**ことのは** · 2020/03/13(金) 20:08:11.39

>>808
＞組合せ爆発が起こるので
＞スーパーコンピュータでも到底解けない
総当たりだとそうなるだろうね

だから局所的なパターンを学習することで
組み合わせ爆発を避けるのがAIの基本になる

しかも自然言語の場合は19×19どころではなく
五十音（漢字を入れれば数千）×文字数
になるのだから、なおさら組み合わせ数は多い

そしてそのすべての文字の組み合わせで
文脈が決まるから文脈解析が難しいのも自然

その上で人間同士の会話では文字以外の情報も
参照してマルチモーダルな学習になっている

株価が株価だけで決まらないのと似たようなもの

で、難しいからどうするかだけど
一番シンプルな解決法としては
最初に文脈を限定してしまうのが早い

たとえば問い合わせのテキストマイニングなんかは
もっぱら特定の商品やサービスに
文脈が限定されているから解析しやすい

最初の話に戻ると囲碁だって棋譜っていう制限された文法で
自然言語処理ではなく人工言語処理だから解析できた訳でしょ？