【統計分析】機械学習・データマイニング22

2019/01/13(日) 09:13:37.19

機械学習とデータマイニングについて語れ若人

■関連サイト
機械学習の「朱鷺の杜Wiki」
http://ibisforest.org/
DeepLearning研究 2016年のまとめ
http://qiita.com/eve_yk/items/f4b274da7042cba1ba76

■前スレ
【統計分析】機械学習・データマイニング21
https://mevius.5ch.net/test/read.cgi/tech/1541309676/

VIPQ2_EXTDAT: default:vvvvv:1000:512:----: EXT was configured

2019/02/04(月) 00:10:31.49

>>424
それにいくら出せる？

2019/02/04(月) 00:19:49.06

>>424 やはり身につまされて使う場面を作らないとやる気にならないな。

株の予想には使うなよ。

2019/02/04(月) 00:41:34.21

機械学習やりたいです！っていうのと、プログラミングやりたいです！ていうのちょっと似てる
どの分野のプログラミングやるかでだいぶ違うのと同じように、機械学習で何やるかでだいぶ違う

2019/02/04(月) 00:48:03.93

>>425
論文一つ500円
半年で10本かな。

2019/02/04(月) 00:51:04.42

>>417
ほんそれ
田所裕美子がギリギリセーフ
今はほんと恵まれてる
初撮るるちゃん最高

2019/02/04(月) 01:01:34.10

>>421
データ集めるのが一番面倒

2019/02/04(月) 08:00:35.80

>>426
なんで？

2019/02/04(月) 08:33:30.59

株価は後付
株価の変動だけで予測しても意味が無い

2019/02/04(月) 09:04:31.51

なら競馬で

2019/02/04(月) 09:09:14.97

競馬はニコニコがやってるね
結構勝っているようだ

2019/02/04(月) 09:18:56.98

トレーディングの場合はむしろテキストマイニング重視してる。
まだ実験段階だけどｗ
もちろん変動自体も大切だけどこっちは未来予測より現状分析的なものがメインで
機械学習は不要な気がする。
両者連動させたいなと思っていろいろやってるよｗ

2019/02/04(月) 11:08:38.76

>>391
何かに似てる気がしたがピカソの絵か

2019/02/04(月) 11:09:46.29

昨日のサイエンスZEROの
鬱病の薬探すのにML使うのって面白いな

2019/02/04(月) 12:19:40.14

GAFAの後追いでいいから、エロ系作ればユニークにはなれそう。

**デフォルトの名無しさん** (ｽﾌｯ Sd9f-iyvX) · 2019/02/04(月) 12:42:30.49

ディープラーニングの今後について教えて下さい。
これには、2つの意見があって

あくまでも機械学習の一種に過ぎず
一時的なブームにすぎない。という立場。

もう一方は
特徴表現学習が出来るのだから
言語理解まで出来て、人間のように言語理解が出来るAIが誕生する可能性。

どちらの方が可能性高いのでしょうか？

2019/02/04(月) 12:58:50.61

前者

2019/02/04(月) 13:58:39.07

>>439
今の技術じゃ前者だね
あくまでも一度に大量のデータを使って分類してるだけなので

人間のように応用までするには
全く違う設計の学習システムが必要になる
この辺はgoogleも課題にしてたはず

**sage** (ｻｻｸｯﾃﾛﾚ Spb3-9Pyw) · 2019/02/04(月) 14:51:20.28

>>439
東大受験で国語とかが比較的成績悪かったって結果が出ていたはす

**デフォルトの名無しさん** (ｽﾌｯ Sd9f-iyvX) · 2019/02/04(月) 15:11:16.24

>>442
『AI vs 教科書が読めない子どもたち』ですね。
国語は言語理解が必要なので、現状のAIでは無理だと。

でも、今のAIは言語理解ができないことは最初から分かりきっていたことだと批判がある。
なんで、東ロボくんやったのかな。

2019/02/04(月) 16:08:31.67

分かりきっていたことでもベンチマークは必要でしょう

2019/02/04(月) 16:13:11.59

人間の知能は2階建てで、いまのディープラーニングブームは1階部分に相当する。
昔、第1次AIブームの時は1階部分をすっ飛ばして2階部分(記号論理学的なところ)ばかりやっていた。
だからブームが一段落したら、二つを結合させようという研究へ進むと思う。

2019/02/04(月) 16:19:18.64

ベンチマークとして
とりあえずしゃぶれよ

2019/02/04(月) 16:21:25.66

>>422
>>423
>>430
誰かが作った学習モデルとか汎用的な学習モデルじゃ結局実運用には使えないんだよね？

これから機械学習やりたい！って奴多いけど挫折しそう

2019/02/04(月) 16:36:12.33

・金出して専門家に外注する
・専門家を直接雇う
・自分が専門家になる
このどれかでなければ実務では成功しない
一番ダメなのは専門知識無い人がお手軽AIツールとやらをポチポチやってモデル作れたぜ！というパターン

2019/02/04(月) 18:06:13.05

心配するなブームは終わっている

2019/02/04(月) 18:21:06.83

>>439
あくまで一時的なブームだからその時できなかった奴は、そのまま忘れて
出来る奴はひたすら深度を深めて、ある日突然実用度に達して特定業種の
仕事を奪い取る。
翻訳者とか会議の文字起しとか、あるいは医師の診断とか。

＞言語理解まで出来て、人間のように言語理解が出来るAIが誕生する可能性。

こんな物のの可能性はない。

◆QZaw55cn4c (ﾜｯﾁｮｲ 7f47-UFcY) · 2019/02/04(月) 19:09:08.20

>>450
＞翻訳者とか
google 翻訳の結果をみるかぎり現状は悲惨だと思います、google 翻訳による wikipedia の記事の日本語は、母語話者として全く「共感」できませんね…

2019/02/04(月) 19:11:45.84

日本語は特殊なので・・・
アメリカ・ロシア間の翻訳は凄いらしいけどね

2019/02/04(月) 19:16:46.39

>>450 あのさ、日本語を聞いて漢字の文章までかなり現実的に使える状態になってるのを知らないの？

そこまでできてるから、Siri でもAlexa でも日本人の言葉を理解してくれるんだよ。
もっとも複雑な文章を理解するにはもう少し時間がかかるだろうけど。

2019/02/04(月) 19:21:11.99

>>453
翻訳と言語理解は、かなり別の世界だと思うけど

2019/02/04(月) 19:28:03.77

言語理解AIとかまじSFの世界ですやん
AIを嫁にするやつ爆増しそう

2019/02/04(月) 19:40:51.19

別にプロの翻訳家に並ぶ必要はない
プロの仕事からの乖離が許容範囲内かどうか、コストとの兼ね合いでプロの仕事を奪うかどうかが決まる
プロの7割ぐらいのクオリティーしか提供できなくてもネットで広告収入で稼ぐ基本無料サービスなら一般には受け入れられるだろう

2019/02/04(月) 19:44:21.57

ディープラーニングの大御所が書いた

『人工知能は人間を超えるか』という本では後者の立場を取っています。

今まで人工知能が出来なかったのは、記号と概念の結びつけが出来なかったから。と説明されています。

コンピュータがデータから特徴量を取り出し、それを使った概念を獲得した後に、そこに名前を与えれば、シンボルグラウンディング問題はそもそも発生しない。とある。

2019/02/04(月) 19:45:58.56

>>449
好意的に捉えるなら、世間がディープラーニングで出来る事出来ない事を理解してきたとも取れる
エンジニアにとっては仕事しやすくなるかも

2019/02/04(月) 19:51:27.63

自然言語処理の研究者は, Deep Learning をそれほど万能にとらえていない気がする

2019/02/04(月) 19:54:07.88

>>458
世間がお前に仕事を発注し、金を払ってくれるのかアホ

◆QZaw55cn4c (ﾜｯﾁｮｲ 7f47-UFcY) · 2019/02/04(月) 20:32:03.07

>>456
＞プロの仕事からの乖離が許容範囲内かどうか
>>451
機械翻訳の出力は、現時点では私には「悲惨」な日本語としか写りません、英文和訳の授業で「日本語として共感できない訳はするな」と言われたものですが…

2019/02/04(月) 20:35:36.91

共感できなくても理解さえ出来れば十分というケースなど山ほどあるが

2019/02/04(月) 20:37:58.51

共感ごときのために数十倍・数百倍の金と時間をかけることが許されるケースと許されないケースのどちらが多いか

◆QZaw55cn4c (ﾜｯﾁｮｲ 7f47-UFcY) · 2019/02/04(月) 20:43:58.25

>>463
＞共感ごときのために数十倍・数百倍の金と時間をかけること
1000 倍でも 100万倍でも、いくら金と時間をかけても不可能でしょうね

2019/02/04(月) 20:55:11.99

> コンピュータがデータから特徴量を取り出し、それを使った概念を獲得した後に、そこに名前を与えれば、シンボルグラウンディング問題はそもそも発生しない
これ松尾先生はよく言ってるけどコンピュータが獲得した「概念」が人間のコモンセンスな概念と同じものである保証がないと思うんだよな
人間とはまったく異なる理(ことわり)で動くAIが、人間が期待するような賢さを発揮するだろうか？

2019/02/04(月) 21:36:13.17

>>465
人間とは特徴量が違っててもかまわないと書いてたよ。

2019/02/04(月) 21:43:54.81

ディープラーニングの解説動画調べてたらこんな気になる動画を発見

https://youtu.be/dNZ-JqEq7x4

この人、何者だよw
顔はDQNっぽいけど、丁寧に説明している。
なんかDQNっぽい人がディープラーニングについて説明しているギャップに違和感w

2019/02/04(月) 21:51:21.22

>>466
特徴量は違ってていいだろうけど、概念が違ったらダメだろ

2019/02/04(月) 22:00:17.50

>>468
特徴と概念は違うのでは？
人間も、コンピューターも概念は同じになるのでは？
猫は猫だよ。

例えばロボットだと、人間には見えない可視光以外を検知して
別の特徴を掴む可能性はあるということで
それは、それでかまわないと。

2019/02/04(月) 22:01:54.30

>>465
人間だってひとりひとりある言葉なりに抱くイメージや概念が違うことはあるだろ

2019/02/04(月) 22:10:33.20

>>439-443
理解の定義にもよるが、Word2vecはヒトの言語理解の概念に近いような気がする

というか、「AI vs 教科書が読めない子どもたち」の作者は、
AIもプログラムもよく解ってないから、専スレで話題にするような人ではない

2019/02/04(月) 22:19:49.92

>>451
完璧ではない日本語翻訳でも、正しく意味をとるのに差し支えない程度の精度があれば多くのケースでは十分実用に足るだろう。意味の伝達だけでなく美しい自然な日本語が必要なら、そのときはそれが出来る翻訳者の仕事だろう。
カタコトの外国人が一生懸命に日本語で意図を伝えようとしている様は共感を感じると思う。相手によって、場面によって、どこまでのレベルを求めるかはケースバイケースのはず。
お前さんの｢共感｣という感覚には共感できないと個人的には思うよ。

2019/02/04(月) 22:29:57.18

映画の字幕や翻訳でも意見割れたりするから、人間だからできるってわけでも無いよね。

2019/02/04(月) 22:31:51.88

技術書とか実用書は意味さえつかめれば、まずはokだからね
80%の精度でも翻訳してくれるとだいぶ助かる
文学的な表現が求められる小説や映画の翻訳とはまた違うし、そこは人の出番だろうね

2019/02/04(月) 23:57:49.74

>>469
>>470
同じ人間でも文化によって概念が異なるために相互理解が進まない例があるのに、特徴量や学習方法まで違ったら、習得される概念はもっと大きく異なる可能性があるのでは？と言いたい。

2019/02/05(火) 00:01:36.86

>>474
大体の翻訳はもうできるんだけど、肝心なところで完全に逆の翻訳をしてくれる時がある
あれは本当に困る

**sage** (ﾜｯﾁｮｲ 7f7c-zGAl) · 2019/02/05(火) 00:04:30.67

概念の定義を与えないといけないが、ひとまず「もの・ことをどうカテゴライズするか」が概念だとしてみよう。
例えば英語で「私」はIしかないが日本語には「俺、私、わたくし、我輩…」と多数存在する。
どこぞのエスキモーの種族の言語には雪の状態を表す名詞が30以上あるとか。
そういう「何をどう区切るか」が概念なわけだ。
で、ロボットが(おおまかな)人間の間で共有されている概念とはまったく違った概念体系を習得してしまうと、それは人間からは理解できないし、もしかすると人間の役には立たないかもしれない。
それを避けるためには、赤子を育てるがごとく人間社会の中でちまちまと人間の手で育てていく必要があるのではないか…とね。

2019/02/05(火) 00:11:43.90

すまんsage間違えたわ

2019/02/05(火) 01:49:00.58

>>477
それを解決するために「教師ありデータ」という概念があるんだろ。

2019/02/05(火) 08:24:33.95

対象を見たり聞いたりセンシングして
それを目的に合わせて分類した結果が概念じゃね？

分類するときの判断材料が特徴

センシング、特徴、目的、概念が関係する

概念と目的が妥当なら
センシングと特徴は人間と違うものでも
問題ないんじゃ無いの？

2019/02/05(火) 08:55:48.62

赤子からちまちま勢って総じて昨今のAI技術知らない無能だよな。

2019/02/05(火) 11:02:47.01

AVの動画のカットから女優の名前とか作品名を教えてくれるツールが欲しい
出来ればまんこから女優が判るとか
究極は女優からまんこが判るとか
あったらいいな

2019/02/05(火) 11:07:59.58

>>482
スケベ博士
で検索

＞まんこから女優が判る
＞女優からまんこが判る
これはちょっと厳しそうだ

2019/02/05(火) 14:17:15.43

467

既に知ってる人が観て自分の知識で補完しながら判る(というより変なこと言ってるなーと確認)だけの糞動画
知らない人はこんなの観ても判らないだろうから役に立たない

しかも読んだことない本を他人に薦めるとか基地外レベル

不動産とか詐欺師要素満載

2019/02/05(火) 14:59:16.82

>>479
自分はそもそも >>457 からの流れで書いてるから、いまのディープラーニングブームがこのまま進んで、AGI(汎用人工知能)へ発展していく可能性はあるか? という話をしている。
その観点から言うと、人間が教師データをすぐに与えられるような問題はすでに解決されつつあるし、今回のブーム内で遠からず解決するでしょう。

でも、AGIに求められるのはアブダクション(仮説形成)で仮説を立ててそれを演繹的に適用していくようなことだから、特徴量が違ったら(センサーが違ったら)その過程で人間とはまったく違うものになっていったりしないのかな? と。

2019/02/05(火) 15:08:27.57

教師データを与えられないような問題とは何かというと、例えば、対話破綻検出チャレンジで、
人間とBotが雑談対話したログについて、Botの発言が「破綻していない、破綻している、どちらともいえない」で○×△のアノテートを付けた教師データを用意したわけだけど、
複数のアノテータ間で○×△がぜんぜん一致しない、みたいな。

2019/02/05(火) 15:08:46.86

このスレにTPU使える人ってどれぐらいいるの？
TPU使える人はレスして欲しい
俺？使えない。勉強中。

2019/02/05(火) 15:54:41.38

このスレでDQNて見るとDeep Q Networkかなって思っちゃう

2019/02/05(火) 16:22:43.88

Deep Que Network、つまり超遅延ネットワークか

2019/02/05(火) 17:19:44.79

>>486
ランダムとか分布に従って○×△を出力すればいいのでは？
分布を学習するくらいかな

2019/02/05(火) 17:52:32.16

particular convolution をやろうとしてるけど、GPUよりTPUの方が遅くなってしまう。
バッチサイズの上手い上げ方が分からん。。。

2019/02/05(火) 20:39:31.43

GAN関連まとめ
https://urusulambda.wordpress.com/2018/07/09/%E4%BD%95%E3%82%92%E3%81%97%E3%81%9F%E3%81%84%E3%81%8B%E3%81%A7%E6%9C%89%E5%90%8D%E3%81%A9%E3%81%93%E3%82%8D%E3%81%AEgan%E3%81%AE%E7%A8%AE%E9%A1%9E%E3%80%81%E6%B4%BE%E7%94%9F%E3%82%92%E6%95%B4/

2019/02/05(火) 20:43:51.48

>>443 >>442 >>439
東ロボは失敗したわけではない。
Google最新技術「BERT」と「東ロボ」との比較から見えてくるAIの課題
https://hbol.jp/179474

2019/02/05(火) 21:24:10.02

>>493
サイドバーに安倍総理と統一教会の関係とかあるのがなぁ
信憑性低すぎる

2019/02/05(火) 21:47:10.77

え？それって昔からそうじゃん。
今更ｗ

2019/02/06(水) 08:14:07.00

>>494
ハーバービジネスっって、扶桑社系列でちょっとオカルト的な色彩と政治色があり
あの菅野完とか持ち上げたりというメディアですよ。
信用して読む雑誌じゃ～ない。ま、宝島みたいなものかな。
名前からハーバードビジネスに勘違いしそうだけど、まるきり関係ない。

2019/02/06(水) 08:17:24.24

>>495
それは左巻き洗脳にだまされてるよ。
統一教会は中東で人質になった人などに関係がある、西早稲田の
教会などとの関係が深い。
日本ではいわゆるリベラルグループに見せかけてる。

2019/02/06(水) 09:44:52.91

>>496
やっぱりそういうサイトだよね、ありがとう

2019/02/06(水) 12:18:03.19

【スパコン】「京」、8月に運用を停止し、その後撤去
https://asahi.5ch.net/test/read.cgi/newsplus/1549414089/

2019/02/06(水) 20:08:00.76

>>497
安倍の親父の岳父は岸信介だから洗脳も何も
ないじゃん。

2019/02/07(木) 06:06:55.76

kaggleは成績ランキング見れないんだな
見れるのは上位三人だけか。
外人じゃ仕事ふるの面倒くさいし、これじゃ仕事がくるわけないな

2019/02/07(木) 09:29:31.79

kaggleのタイタニックが80%行かない
webで80超えたって行ってる人たちとそんなに変わったことしてないはずなんだけどな
100%がチートなのはすぐわかるけど、90%行くのも信じられない

**デフォルトの名無しさん** (ｽﾌｯ Sd22-JzIx) · 2019/02/07(木) 11:56:40.72

未経験からAI人材になれる
Neural Network Console スターターパック19万8000円は買いですか？
http://www.itmedia.co.jp/news/spv/1902/04/news003.html

2019/02/07(木) 12:11:05.30

それを使いこなせてもAI人材ではなくNeuralNetworkConsoleという内部的にディープラーニングを利用したソフトウェアのオペレーターにしかなれないだろ

2019/02/07(木) 12:16:25.54

>>503
今はまだ時期早々って感じ
「工場の傷の検品」ぐらい超簡単な判別機ぐらいなら作れると思う
ただ、判別した結果を別のシステムにつなげるのはハードル高そう

>>504
日本人が使うと、エクセルがAIに変わるだけのような気がする
AIよりも手作業の方が早い、みたいな

2019/02/07(木) 14:17:07.43

>>505
時期尚早かも知れないが今のDeep Learningは所詮はこんなもんだからいいんじゃない？
コンポーネント組み合わせているだけだしね
途中の出力結果をモニタリングできればTensorboardの代わりになる

2019/02/07(木) 14:25:14.03

>>506
そうだねぇ
今は結果がでなくて良い、将来の投資と考えれば20万は全然アリだろうね
恐らくそういうのは主流になっていくから、良いスタートダッシュが出来ると思う
結果を求めて20万を投資するのは止めたほうが良い

2019/02/07(木) 18:21:38.91

>>503
その金額だとGoogle colabを使った方が良い。

2019/02/07(木) 18:44:00.55

>>508
いやいや本１冊とGPU１つの方が全然いいだろ。
５万円で終わって１から１０まで全て自分でできる。
そのサービスが何をやっているかは動画見ればもう分ったろ？
しかも１９万円「から」って何だよｗ

2019/02/07(木) 18:49:24.57

youtubeで
アメリカ VS 中国　"未来の覇権"
を検索。

2019/02/07(木) 19:03:30.40

>>509
要はこのサービスはpython使えない人用ってことでしょ

python使えればGPUで済むけど、
大企業になるほど企業の担当者がpythonから覚えるってのは時間的にも人件費的にもコストが高く付く

2019/02/07(木) 20:21:51.37

>>511
大企業なら社内で研修とか外部に元々委託している研修とかあると思うけどな

2019/02/07(木) 20:36:00.25

>>512
上場クラス・事務がメインの銀行なんかは絶対にやると思う
効果半端ないからな

小売とかは導入が遅そうだ

2019/02/07(木) 23:51:27.14

これって過学習？
https://raw.githubusercontent.com/sssste/DeepLeraningNotes/master/pic/stage1.jpg

2019/02/08(金) 06:36:02.42

>>514
Stack GANのStage-1だから低解像度なのでは？

2019/02/08(金) 06:56:58.65

>>511
論文読んでSEnet組むような場合にMATLAB/SIMLINKのようにGUIで線を伸ばせば実装されるくらいの出来であればpython使いでも有用かな

もしGUIで組んでpythonコードやC++コードが出力されるなら価値はグンと上がるけどどうかな

価格設定は高いように見えるけど、このレベルのソフトウェアはいくらでもあるし、お試しで導入するところはあるだろう

2019/02/09(土) 00:07:31.20

dcganとかのGANSって誤差がどんな推移すればいいの？
調べてもみんな言うこと違っててわからん

やっぱり生成画像みて判断するしかない？

**数おたさらり** (ｽｯｯﾌﾟ Sd22-xmfE) · 2019/02/09(土) 01:10:09.52

>>517
>>221

2019/02/09(土) 01:24:39.56

>>517
誤差推移っとかもう職人ワザ

極論
＞生成画像みて判断
これで何も問題なければ良い

2019/02/09(土) 01:30:13.00

ロスが突然0になるってどういう状態？
https://i.imgur.com/HUwZbEi.png

2019/02/09(土) 09:29:36.35

GANやってるのかな？
多分、generateする方よりも検出する方が強すぎる状態になってるってこと。
つまり失敗しとるってことだね。

2019/02/09(土) 09:56:17.78

>>521
ありがとう！
「奇跡の設定に成功してしまったのか！？」なんて考えていよ！失敗だよね、うん

2019/02/09(土) 11:04:05.64

>>517
wasserstein ganは誤差が綺麗に収束して学習が上手く行ったか分かりやすいのでおすすめ

2019/02/09(土) 12:08:32.81

>>518,519,523
やっぱり実際に画像みて判断するしかないか

あと気になってるのはたまに誤差が負の値になるんだけどありえないよね？
なんで負が出てくるんだろ