【統計分析】機械学習・データマイニング22

2019/01/13(日) 09:13:37.19

機械学習とデータマイニングについて語れ若人

■関連サイト
機械学習の「朱鷺の杜Wiki」
http://ibisforest.org/
DeepLearning研究 2016年のまとめ
http://qiita.com/eve_yk/items/f4b274da7042cba1ba76

■前スレ
【統計分析】機械学習・データマイニング21
https://mevius.5ch.net/test/read.cgi/tech/1541309676/

VIPQ2_EXTDAT: default:vvvvv:1000:512:----: EXT was configured

2019/02/04(月) 20:37:58.51

共感ごときのために数十倍・数百倍の金と時間をかけることが許されるケースと許されないケースのどちらが多いか

◆QZaw55cn4c (ﾜｯﾁｮｲ 7f47-UFcY) · 2019/02/04(月) 20:43:58.25

>>463
＞共感ごときのために数十倍・数百倍の金と時間をかけること
1000 倍でも 100万倍でも、いくら金と時間をかけても不可能でしょうね

2019/02/04(月) 20:55:11.99

> コンピュータがデータから特徴量を取り出し、それを使った概念を獲得した後に、そこに名前を与えれば、シンボルグラウンディング問題はそもそも発生しない
これ松尾先生はよく言ってるけどコンピュータが獲得した「概念」が人間のコモンセンスな概念と同じものである保証がないと思うんだよな
人間とはまったく異なる理(ことわり)で動くAIが、人間が期待するような賢さを発揮するだろうか？

2019/02/04(月) 21:36:13.17

>>465
人間とは特徴量が違っててもかまわないと書いてたよ。

2019/02/04(月) 21:43:54.81

ディープラーニングの解説動画調べてたらこんな気になる動画を発見

https://youtu.be/dNZ-JqEq7x4

この人、何者だよw
顔はDQNっぽいけど、丁寧に説明している。
なんかDQNっぽい人がディープラーニングについて説明しているギャップに違和感w

2019/02/04(月) 21:51:21.22

>>466
特徴量は違ってていいだろうけど、概念が違ったらダメだろ

2019/02/04(月) 22:00:17.50

>>468
特徴と概念は違うのでは？
人間も、コンピューターも概念は同じになるのでは？
猫は猫だよ。

例えばロボットだと、人間には見えない可視光以外を検知して
別の特徴を掴む可能性はあるということで
それは、それでかまわないと。

2019/02/04(月) 22:01:54.30

>>465
人間だってひとりひとりある言葉なりに抱くイメージや概念が違うことはあるだろ

2019/02/04(月) 22:10:33.20

>>439-443
理解の定義にもよるが、Word2vecはヒトの言語理解の概念に近いような気がする

というか、「AI vs 教科書が読めない子どもたち」の作者は、
AIもプログラムもよく解ってないから、専スレで話題にするような人ではない

2019/02/04(月) 22:19:49.92

>>451
完璧ではない日本語翻訳でも、正しく意味をとるのに差し支えない程度の精度があれば多くのケースでは十分実用に足るだろう。意味の伝達だけでなく美しい自然な日本語が必要なら、そのときはそれが出来る翻訳者の仕事だろう。
カタコトの外国人が一生懸命に日本語で意図を伝えようとしている様は共感を感じると思う。相手によって、場面によって、どこまでのレベルを求めるかはケースバイケースのはず。
お前さんの｢共感｣という感覚には共感できないと個人的には思うよ。

2019/02/04(月) 22:29:57.18

映画の字幕や翻訳でも意見割れたりするから、人間だからできるってわけでも無いよね。

2019/02/04(月) 22:31:51.88

技術書とか実用書は意味さえつかめれば、まずはokだからね
80%の精度でも翻訳してくれるとだいぶ助かる
文学的な表現が求められる小説や映画の翻訳とはまた違うし、そこは人の出番だろうね

2019/02/04(月) 23:57:49.74

>>469
>>470
同じ人間でも文化によって概念が異なるために相互理解が進まない例があるのに、特徴量や学習方法まで違ったら、習得される概念はもっと大きく異なる可能性があるのでは？と言いたい。

2019/02/05(火) 00:01:36.86

>>474
大体の翻訳はもうできるんだけど、肝心なところで完全に逆の翻訳をしてくれる時がある
あれは本当に困る

**sage** (ﾜｯﾁｮｲ 7f7c-zGAl) · 2019/02/05(火) 00:04:30.67

概念の定義を与えないといけないが、ひとまず「もの・ことをどうカテゴライズするか」が概念だとしてみよう。
例えば英語で「私」はIしかないが日本語には「俺、私、わたくし、我輩…」と多数存在する。
どこぞのエスキモーの種族の言語には雪の状態を表す名詞が30以上あるとか。
そういう「何をどう区切るか」が概念なわけだ。
で、ロボットが(おおまかな)人間の間で共有されている概念とはまったく違った概念体系を習得してしまうと、それは人間からは理解できないし、もしかすると人間の役には立たないかもしれない。
それを避けるためには、赤子を育てるがごとく人間社会の中でちまちまと人間の手で育てていく必要があるのではないか…とね。

2019/02/05(火) 00:11:43.90

すまんsage間違えたわ

2019/02/05(火) 01:49:00.58

>>477
それを解決するために「教師ありデータ」という概念があるんだろ。

2019/02/05(火) 08:24:33.95

対象を見たり聞いたりセンシングして
それを目的に合わせて分類した結果が概念じゃね？

分類するときの判断材料が特徴

センシング、特徴、目的、概念が関係する

概念と目的が妥当なら
センシングと特徴は人間と違うものでも
問題ないんじゃ無いの？

2019/02/05(火) 08:55:48.62

赤子からちまちま勢って総じて昨今のAI技術知らない無能だよな。

2019/02/05(火) 11:02:47.01

AVの動画のカットから女優の名前とか作品名を教えてくれるツールが欲しい
出来ればまんこから女優が判るとか
究極は女優からまんこが判るとか
あったらいいな

2019/02/05(火) 11:07:59.58

>>482
スケベ博士
で検索

＞まんこから女優が判る
＞女優からまんこが判る
これはちょっと厳しそうだ

2019/02/05(火) 14:17:15.43

467

既に知ってる人が観て自分の知識で補完しながら判る(というより変なこと言ってるなーと確認)だけの糞動画
知らない人はこんなの観ても判らないだろうから役に立たない

しかも読んだことない本を他人に薦めるとか基地外レベル

不動産とか詐欺師要素満載

2019/02/05(火) 14:59:16.82

>>479
自分はそもそも >>457 からの流れで書いてるから、いまのディープラーニングブームがこのまま進んで、AGI(汎用人工知能)へ発展していく可能性はあるか? という話をしている。
その観点から言うと、人間が教師データをすぐに与えられるような問題はすでに解決されつつあるし、今回のブーム内で遠からず解決するでしょう。

でも、AGIに求められるのはアブダクション(仮説形成)で仮説を立ててそれを演繹的に適用していくようなことだから、特徴量が違ったら(センサーが違ったら)その過程で人間とはまったく違うものになっていったりしないのかな? と。

2019/02/05(火) 15:08:27.57

教師データを与えられないような問題とは何かというと、例えば、対話破綻検出チャレンジで、
人間とBotが雑談対話したログについて、Botの発言が「破綻していない、破綻している、どちらともいえない」で○×△のアノテートを付けた教師データを用意したわけだけど、
複数のアノテータ間で○×△がぜんぜん一致しない、みたいな。

2019/02/05(火) 15:08:46.86

このスレにTPU使える人ってどれぐらいいるの？
TPU使える人はレスして欲しい
俺？使えない。勉強中。

2019/02/05(火) 15:54:41.38

このスレでDQNて見るとDeep Q Networkかなって思っちゃう

2019/02/05(火) 16:22:43.88

Deep Que Network、つまり超遅延ネットワークか

2019/02/05(火) 17:19:44.79

>>486
ランダムとか分布に従って○×△を出力すればいいのでは？
分布を学習するくらいかな

2019/02/05(火) 17:52:32.16

particular convolution をやろうとしてるけど、GPUよりTPUの方が遅くなってしまう。
バッチサイズの上手い上げ方が分からん。。。

2019/02/05(火) 20:39:31.43

GAN関連まとめ
https://urusulambda.wordpress.com/2018/07/09/%E4%BD%95%E3%82%92%E3%81%97%E3%81%9F%E3%81%84%E3%81%8B%E3%81%A7%E6%9C%89%E5%90%8D%E3%81%A9%E3%81%93%E3%82%8D%E3%81%AEgan%E3%81%AE%E7%A8%AE%E9%A1%9E%E3%80%81%E6%B4%BE%E7%94%9F%E3%82%92%E6%95%B4/

2019/02/05(火) 20:43:51.48

>>443 >>442 >>439
東ロボは失敗したわけではない。
Google最新技術「BERT」と「東ロボ」との比較から見えてくるAIの課題
https://hbol.jp/179474

2019/02/05(火) 21:24:10.02

>>493
サイドバーに安倍総理と統一教会の関係とかあるのがなぁ
信憑性低すぎる

2019/02/05(火) 21:47:10.77

え？それって昔からそうじゃん。
今更ｗ

2019/02/06(水) 08:14:07.00

>>494
ハーバービジネスっって、扶桑社系列でちょっとオカルト的な色彩と政治色があり
あの菅野完とか持ち上げたりというメディアですよ。
信用して読む雑誌じゃ～ない。ま、宝島みたいなものかな。
名前からハーバードビジネスに勘違いしそうだけど、まるきり関係ない。

2019/02/06(水) 08:17:24.24

>>495
それは左巻き洗脳にだまされてるよ。
統一教会は中東で人質になった人などに関係がある、西早稲田の
教会などとの関係が深い。
日本ではいわゆるリベラルグループに見せかけてる。

2019/02/06(水) 09:44:52.91

>>496
やっぱりそういうサイトだよね、ありがとう

2019/02/06(水) 12:18:03.19

【スパコン】「京」、8月に運用を停止し、その後撤去
https://asahi.5ch.net/test/read.cgi/newsplus/1549414089/

2019/02/06(水) 20:08:00.76

>>497
安倍の親父の岳父は岸信介だから洗脳も何も
ないじゃん。

2019/02/07(木) 06:06:55.76

kaggleは成績ランキング見れないんだな
見れるのは上位三人だけか。
外人じゃ仕事ふるの面倒くさいし、これじゃ仕事がくるわけないな

2019/02/07(木) 09:29:31.79

kaggleのタイタニックが80%行かない
webで80超えたって行ってる人たちとそんなに変わったことしてないはずなんだけどな
100%がチートなのはすぐわかるけど、90%行くのも信じられない

**デフォルトの名無しさん** (ｽﾌｯ Sd22-JzIx) · 2019/02/07(木) 11:56:40.72

未経験からAI人材になれる
Neural Network Console スターターパック19万8000円は買いですか？
http://www.itmedia.co.jp/news/spv/1902/04/news003.html

2019/02/07(木) 12:11:05.30

それを使いこなせてもAI人材ではなくNeuralNetworkConsoleという内部的にディープラーニングを利用したソフトウェアのオペレーターにしかなれないだろ

2019/02/07(木) 12:16:25.54

>>503
今はまだ時期早々って感じ
「工場の傷の検品」ぐらい超簡単な判別機ぐらいなら作れると思う
ただ、判別した結果を別のシステムにつなげるのはハードル高そう

>>504
日本人が使うと、エクセルがAIに変わるだけのような気がする
AIよりも手作業の方が早い、みたいな

2019/02/07(木) 14:17:07.43

>>505
時期尚早かも知れないが今のDeep Learningは所詮はこんなもんだからいいんじゃない？
コンポーネント組み合わせているだけだしね
途中の出力結果をモニタリングできればTensorboardの代わりになる

2019/02/07(木) 14:25:14.03

>>506
そうだねぇ
今は結果がでなくて良い、将来の投資と考えれば20万は全然アリだろうね
恐らくそういうのは主流になっていくから、良いスタートダッシュが出来ると思う
結果を求めて20万を投資するのは止めたほうが良い

2019/02/07(木) 18:21:38.91

>>503
その金額だとGoogle colabを使った方が良い。

2019/02/07(木) 18:44:00.55

>>508
いやいや本１冊とGPU１つの方が全然いいだろ。
５万円で終わって１から１０まで全て自分でできる。
そのサービスが何をやっているかは動画見ればもう分ったろ？
しかも１９万円「から」って何だよｗ

2019/02/07(木) 18:49:24.57

youtubeで
アメリカ VS 中国　"未来の覇権"
を検索。

2019/02/07(木) 19:03:30.40

>>509
要はこのサービスはpython使えない人用ってことでしょ

python使えればGPUで済むけど、
大企業になるほど企業の担当者がpythonから覚えるってのは時間的にも人件費的にもコストが高く付く

2019/02/07(木) 20:21:51.37

>>511
大企業なら社内で研修とか外部に元々委託している研修とかあると思うけどな

2019/02/07(木) 20:36:00.25

>>512
上場クラス・事務がメインの銀行なんかは絶対にやると思う
効果半端ないからな

小売とかは導入が遅そうだ

2019/02/07(木) 23:51:27.14

これって過学習？
https://raw.githubusercontent.com/sssste/DeepLeraningNotes/master/pic/stage1.jpg

2019/02/08(金) 06:36:02.42

>>514
Stack GANのStage-1だから低解像度なのでは？

2019/02/08(金) 06:56:58.65

>>511
論文読んでSEnet組むような場合にMATLAB/SIMLINKのようにGUIで線を伸ばせば実装されるくらいの出来であればpython使いでも有用かな

もしGUIで組んでpythonコードやC++コードが出力されるなら価値はグンと上がるけどどうかな

価格設定は高いように見えるけど、このレベルのソフトウェアはいくらでもあるし、お試しで導入するところはあるだろう

2019/02/09(土) 00:07:31.20

dcganとかのGANSって誤差がどんな推移すればいいの？
調べてもみんな言うこと違っててわからん

やっぱり生成画像みて判断するしかない？

**数おたさらり** (ｽｯｯﾌﾟ Sd22-xmfE) · 2019/02/09(土) 01:10:09.52

>>517
>>221

2019/02/09(土) 01:24:39.56

>>517
誤差推移っとかもう職人ワザ

極論
＞生成画像みて判断
これで何も問題なければ良い

2019/02/09(土) 01:30:13.00

ロスが突然0になるってどういう状態？
https://i.imgur.com/HUwZbEi.png

2019/02/09(土) 09:29:36.35

GANやってるのかな？
多分、generateする方よりも検出する方が強すぎる状態になってるってこと。
つまり失敗しとるってことだね。

2019/02/09(土) 09:56:17.78

>>521
ありがとう！
「奇跡の設定に成功してしまったのか！？」なんて考えていよ！失敗だよね、うん

2019/02/09(土) 11:04:05.64

>>517
wasserstein ganは誤差が綺麗に収束して学習が上手く行ったか分かりやすいのでおすすめ

2019/02/09(土) 12:08:32.81

>>518,519,523
やっぱり実際に画像みて判断するしかないか

あと気になってるのはたまに誤差が負の値になるんだけどありえないよね？
なんで負が出てくるんだろ

2019/02/09(土) 13:36:37.83

前に書き込んだモザイク消しを試そうとしてた者だけど、ぼかしよりはマシな感じなのができた。もっと学習させれば実用化までいけそう。

2019/02/09(土) 14:00:27.71

>>525
応援してます！w

2019/02/09(土) 14:11:22.61

モザイク消しって公開・販売できるのかな

2019/02/09(土) 14:27:00.81

みんなKaggleとかSignateやってんの？
Signateは賞金安いのに権利全部よこせとか、優秀だけど安く雇える学生だけ探してるわとか、
訓練画像20枚な、とかで絶望しか感じないんだが

2019/02/09(土) 14:34:37.19

ついにこのスレからAI戦士が生まれてしまうのか

2019/02/09(土) 14:48:19.38

AI戦士参上、シャキーン

2019/02/09(土) 15:02:24.59

>>527
「わいせつ物頒布罪」はあるが、このプログラム自体はわいせつでもなんでもない
しかし、モザイク付きの画像・動画とセットで配布した場合、
それは単に特殊な圧縮形式と看做されるかもしれない
どうなるかは其の時にならないと分からない

2019/02/09(土) 15:18:53.88

納得はできないが、重み付きのモデルデータ配布はグレーな気はする。
学習装置のみ配布だったらクリアだろうよね。

2019/02/09(土) 15:30:03.48

よく考えたらモザイクなんてpix2pixで簡単に実装できそうな気がしてきた

2019/02/09(土) 15:30:24.79

モザイクじゃなくて、モザイク解除だった

2019/02/09(土) 17:47:46.95

>>528
たまにやるけど最適化競争より面白いモデルや新しいモデルを試してる感じ
良いスコアが出そうなら頑張るけど工数はそれなりにかかるんでね

それでもSIGNATEを日本の企業はもっと活用すべきだと思うけどね
同じ仕事を外部に発注したら賞金の10倍以上の予算使ってもコンテスト以上の物は絶対に出て来ない
コンテスト終わったらデータ全部消せとかプログラムの版権寄越せというなら上位以外にも賞金出さないとダメだと思うし、いろいろと改善の余地はあるんじゃないかな

2019/02/09(土) 18:42:16.00

>>531
昔モザイクかけるFLMaskの作者が捕まってたよね
あんまりきわどいとこで目立つと何されるかわからん

2019/02/09(土) 19:28:51.64

モザイク除去はcyclegan出て真っ先に試されてたな
やはりエロは技術を進める

2019/02/09(土) 19:39:09.50

エロ系ってコーディングしてるうちにムラムラしてくるのが厄介だよね

2019/02/09(土) 21:44:47.21

好みの画像だけで学習させれば、微妙な画像を良い感じの画像に変換できるんだよな。
マジでAVやIVがモーションデータみたいに使われるのが普通になっていくかもしれん。

2019/02/09(土) 22:54:16.11

やっぱり今のディープラーニングはGANSが流行ってるのかな
やってる人多いね

2019/02/09(土) 23:48:24.43

GANは正直収束させるのが激ムズだけど、出てくる画像とか見てると面白いんだよね。

2019/02/10(日) 00:48:54.78

深層学習ってなんでちゃんといい解求まるのか不思議
自分でコード書いて実行してちゃんと学習してるのみるともっと不思議
たまに盛大に失敗するけど、どういうときにちゃんと学習するのか経験と勘が必要だなって感じる

2019/02/10(日) 01:37:52.39

>>536
そりゃーただの復元可能なマスクだからな
あんまり意味ない・・・

＞わいせつ図画公然陳列幇助

2019/02/10(日) 01:38:42.68

>>542
楽しいっちゃ楽しいんだけど、デカイ事やろうとすると2,3日かかるのが辛い
もっとテンポよくやりたいけど、精度が下がるんだよね

2019/02/10(日) 12:26:32.09

tensorflowの公式サイトがIEやedgeだとレイアウトがうまく表示できないようになってて笑った
chrome以外のブラウザでは観るなってことか

2019/02/10(日) 12:33:17.40

Microsoftは老害と成り果てたか
この前のアプデでレジストリいじってもCortana消せなくなったしよぉ

2019/02/10(日) 16:10:37.32

参考コード探してるんだけどKerasがなかなかなくて辛い

ライブラリシェアはtensorflow以下はどの程度なんだろ

2019/02/10(日) 16:13:45.99

>>511
分析だけならデータ放り込めば良いだけのツールが有るし、
機械学習でモデルだけ作っても実装にはPGが必要なので、
Neural Network Consoleは中途半端

パラメータを自動で最適化してるらしいが、
同一の学習データに対して、他のライブラリの方が明らかに良い結果が出てた

2019/02/10(日) 17:10:47.85

keras使うくらいならpytorth使えよ

2019/02/10(日) 17:18:21.64

>549
知らずに言ってるのが良く分かるぞぉ～
大抵は両立している。kerasで学習中にpytorch、その逆、等

2019/02/10(日) 18:19:58.29

>>548
構造の自動最適化はちょっと羨ましい
自分で書くと面倒なんだよね
交換可能なモジュールのグループ化とかね
みんな自分用の最適化ツール作ってるのかな

2019/02/10(日) 19:22:40.50

>>545
GoogleはChromiumに仕掛けしているようで、たとえばYoutube
なども稼働するOSの上で弄っているらしい。それはChromiumで吸収してい
ようで、たとえば各種のOSじょうに独自のブラウザ提供しYoutubeも支障なく
見られるようにするには、一つ一つ別途に弄るか、Chromiumをレンダリング
エンジンに使うかの選択が必要になるようだ、マイクロソフトは今後の方向と
して主要OSにさまざまなものを提供する方向にあるが、その際に開発負荷を
減らすためにレンダリングエンジンをChromiumに変更した。
とのことらしい。

これと同じようなことだとしたら、Vivaldiで動かしてみたら使えるかも
しれんよ。暇だったら試してみて。

2019/02/10(日) 19:24:05.44

改行きもいけどどこからコピペしてきたん？

2019/02/10(日) 19:29:33.73

＞＞５４２
＞深層学習ってなんでちゃんといい解求まるのか不思議

解が求まっているっというわけでもないんだが
ま、求めているものに近いものが他より効率よく出力される
と言った方がいいのかな？

だから、深層学習も、自分で出した結果を見て
「真相はいかに？」と思ってんだと思うよ

2019/02/10(日) 19:32:49.87

藪の中

2019/02/10(日) 19:36:56.56

飼い主にとってきたものを見せる猫

2019/02/10(日) 19:46:23.77

>>542
誤差曲面には局所解や鞍点が無数にある筈なのにSGDのような単純な方法で良い解に辿り着けるのは長い間謎だったけど最近になってこの辺が理論的に解明され始めてる

2019/02/10(日) 20:05:40.24

バッチサイズを大きくすると学習効果が低いというのもよくわからん話だな。
これって人間でいえばドリルを一気にやってから答え合わせするよりもちょこちょこ
答え見て解答してった方が勉強効率が良いってことだよね？

2019/02/10(日) 20:39:31.71

>>558
バッチサイズの大きさと学習効果については相反する議論が展開されていて、バッチサイズが大きくても学習率を下げれば性能は変わらないとする論文がある

更新分は

(epsilon / batch_size) * (sum of grad)

なのでbatch_sizeを倍にしたら学習率を半分にするといい
勾配分だけがbatch_sizeの影響を受けるので、モデルおよびデータ次第ではどっちにも転ぶことになる

2019/02/10(日) 20:49:45.78

最近勉強し始めた超初心者だけど、なんとか学習モデル生成出来るとこまできた
(ほとんど参考サイトのコピペだけど…)

が、マシンスペックが全然足りなくて学習が進まない…
↓この参考サイトの著者は100epochsで12時間かかったらしいが、俺は7時間かけて2epochsだけ
http://app.m-cocolog.jp/t/typecast/603293/510034/88662045

「ちょっと自分でモデル作って味見してみようかな」っ人には着手しづらいなぁ

2019/02/10(日) 21:00:11.02

>>560
cpuで動かしてない？
tensorflowがgpuで動いてるか試してみて

from tensorflow.python.client import device_lib
device_lib.list_local_devices()

https://qiita.com/yt6t6t/items/5df4a83f3223c6a8c600

2019/02/10(日) 21:03:00.43

>>560
そこそこ良いGPUないと面白さは半減だねぇ
Google Colaboratryでもいいけど長い時間の学習は処理を分割させる必要があるし、画像系はデータが巨大になりがちだし、趣味でやるには少しハードル高いよね

2019/02/10(日) 21:07:42.13

ColaboratryのGPU性能はGTX970ぐらいだったかな
結構微妙な性能な上に、制約が多いから買ったほうが良い

TPU使えるなら凄いんだけど、俺は無理だった