【統計分析】機械学習・データマイニング22

2019/01/13(日) 09:13:37.19

機械学習とデータマイニングについて語れ若人

■関連サイト
機械学習の「朱鷺の杜Wiki」
http://ibisforest.org/
DeepLearning研究 2016年のまとめ
http://qiita.com/eve_yk/items/f4b274da7042cba1ba76

■前スレ
【統計分析】機械学習・データマイニング21
https://mevius.5ch.net/test/read.cgi/tech/1541309676/

VIPQ2_EXTDAT: default:vvvvv:1000:512:----: EXT was configured

2019/02/11(月) 13:39:32.95

>>569
こないだ暇だったからmnistで計測してみたから間違いない
スペックも実測値も、ほぼGTX960～GTX970当たりの性能
K80のGPUが1/2になる事を考慮すると、スペック的にも大体合うはず

2019/02/11(月) 13:58:09.69

>>572
それはすまない。GTX1060Tiよりも速かったので、俺の組み方が悪かったのだろうな。メモリが少なかったせいかもしれない。

2019/02/11(月) 16:51:58.13

mnistとかなんのベンチマークにもならんわ。imagenetくらい回してくれ。

2019/02/11(月) 17:06:00.23

GPUに辿り着く以前にラーニングの前処理で異様に時間がかかる
ひょっとしてcolaboratoryのCPU1コア？
データ読み込んで特徴量増やしてるだけなんだが・・・

2019/02/11(月) 17:38:33.08

>>575
zip解凍も結構時間かかってるよ。CPUやファイルアクセスは貧弱っぽい。

2019/02/11(月) 19:02:48.18

>>573
モデルによるかな
小さなモデルでバッチサイズ大きめな学習はK20速いけどモデルが大きくなると遅い

2019/02/11(月) 19:32:19.07

>>568
ネタなのは分かるけど、共感できなくてどこがおもしろいのかわからない

2019/02/11(月) 19:40:25.03

>>568
Correction
If it is written by Kyoto Common Lisp, it maybe AI.

2019/02/12(火) 00:17:48.23

>>552
いや会社でIEとedgeでしかブラウザ使えないからchromeもvivaldiも使えなくて困ってるのよ
もちろん、家では普通にchromeで読めるんだけどな

2019/02/12(火) 03:51:36.70

まず何から始めればいいの？
なんちゃって理系で高校で数ⅢCまではやったけど数学がとても苦手
とりあえず機械学習のための数学って本は買った

2019/02/12(火) 03:57:39.08

大して知らない人だが。
大して数学しらなくてもできるとはおもうが。
数学部分はライブラリに内蔵されてて、ブラックボックスでも操作はできるかと。
環境設定と動かし方では。

2019/02/12(火) 08:02:51.01

何やりたいかによる

2019/02/12(火) 08:59:01.00

英語の勉強

2019/02/12(火) 09:00:26.03

機械学習

2019/02/12(火) 11:12:28.75

大事なのは「読む」力だ！～4万人の読解力テストで判明した問題を新井紀子・国立情報学研究所教授に聞く
https://news.yahoo.co.jp/byline/egawashoko/20180211-00081509/

論理的に考えろと言ってるだけｗ

2019/02/12(火) 11:27:35.35

>>581
まず

・目的
を決める
mnist（チュートリアル）なら後述のグラボは無しでも良い

・予算の設定
mnist以降はグラボ必須
既にあるならそれを使えば良いが、無ければ買う必要がある
無いままやろうとすると人生が終わるゾ

・環境設定
ある意味恐らく一番の難関
windows、mac、linux、それぞれで設定の仕方が違う
とにかく最初は聞きまくり検索しまくりながら気合でやりきる

2019/02/12(火) 12:07:54.70

>>586
2・3日前にテレビの報道特集みたいなやつでそれやってたわ
言葉の定義があいまいなまま中学校で教育してるのが問題らしい

教師のレベルが全国的に可笑しいんだろうな

**デフォルトの名無しさん** (ｽﾌｯ Sd22-JzIx) · 2019/02/12(火) 12:41:32.35

ディープラーニングには
CNNだのRNNだのLSTMだのオートエンコーダだのGANだの色んなアルゴリズムがありますけど

「よくこんなに色々と考えるよなあ」と感心しますよ！
考えた人、天才かよ！

2019/02/12(火) 12:46:44.05

大勢の人が研究してるからね

**デフォルトの名無しさん** (ｽﾌｯ Sd22-JzIx) · 2019/02/12(火) 12:46:51.02

あと、深層学習には画像や文章生成といった
一種の創作も出来るみたいですけど、質問。

ディープラーニングは4コマ漫画が描けますか？

例えば『コボちゃん』のデータを大量に学習させて
絵と台詞を自動生成させて、面白い4コマ漫画を自動で生み出せますか？

2019/02/12(火) 12:50:32.70

>>591
もうあるよ
https://konogi.com/bot/bot_spec.html
https://twitter.com/henjo_official
https://twitter.com/5chan_nel (5ch newer account)

2019/02/12(火) 13:32:14.68

>>588
色々な観点があるけど、高校までの国語教育がひどい、読書感想文意味不明ｗ

2019/02/12(火) 13:57:52.97

>>586
次の文を読みなさい。

アミラーゼという酵素はグルコースがつながってできたデンプンを分解するが、
同じグルコースからできていても、形が違うセルロースは分解できない。

この文脈において、以下の文中の空欄にあてはまる最も適当なものを選択肢のうちから１つ選びなさい。

　
　セルロースは（　　　　　）と形が違う。

（1）デンプン　　(2)アミラーゼ　　（3）グルコース　（４）酵素

1-4 どれ選んでも正解やな

2019/02/12(火) 14:02:34.39

>>594
ネタであることを祈る

2019/02/12(火) 14:03:26.51

ああ江川紹子の記事なんか

2019/02/12(火) 14:41:03.61

>>594
読んだ

**デフォルトの名無しさん** (ｽﾌｯ Sd22-JzIx) · 2019/02/12(火) 15:09:35.75

>>594
答えは(1)デンプン

2019/02/12(火) 15:13:40.35

>>594
次の文を読んで問いに答えなさい

2019/02/12(火) 16:08:14.72

前提知識がなくても正しく答えられるだろうか

次の文を読みなさい。

?アルパド・イロというバルギルはプレブルがつながってできたニヤ鎮をアラーモンするが、
同じプレブルからできていても、Ap4Aが違う?ダヤナラ・トレスはアラーモンできない。

この文脈において、以下の文中の空欄にあてはまる最も適当なものを選択肢のうちから１つ選びなさい。

　
　?ダヤナラ・トレスは（　　　　　）とAp4Aが違う。

（1）ニヤ鎮　　(2)??ダヤナラ・トレス　　（3）プレブル　（４）バルギル

2019/02/12(火) 16:12:10.07

>>600
解なし

2019/02/12(火) 16:23:30.25

>>600
1
名詞に「?」等の記号が入ると読むのが辛い

2019/02/12(火) 17:00:50.66

田中というコックさんは思いやりがつながってできたシチューを調理するが、
同じ思いやりからできていても、色が違うタンポポは調理できない。

この文脈において、以下の文中の空欄にあてはまる最も適当なものを選択肢のうちから１つ選びなさい。

タンポポは（　　　　　）と色が違う。

（1）シチュー　(2)田中　　（3）思いやり　（４）コックさん

作ってみた

2019/02/12(火) 17:16:15.75

AIの立場だと簡単に解けるが
人間だと解けない問題もいっぱいあるな

2019/02/12(火) 18:04:27.41

「買い物にいって牛乳を1つ買ってきてちょうだい。卵があったら6つお願い！」

2019/02/12(火) 18:11:37.53

読解力とか論理的把握力を問うとか言ってるけど現実でこんな文章書いたり会話してたらちょっと頭おかしい？ってなるだろうな

2019/02/12(火) 18:41:50.19

どっちも1だな
解けないほうがおかしいわ

2019/02/12(火) 19:35:30.07

>>607
603の問題で言うとどれを選択しても色が違うは真になるんじゃないかな？

2019/02/12(火) 19:36:47.44

>>605
卵があったらの条件付きで
買う対象の分布を学習すれば解決するんじゃね？
卵なのか牛乳なのか

2019/02/12(火) 19:54:17.42

>>608
「同じ思いやりからできていても」がそれ以降の文の対象を思いやりから出来てるものに制限する用法だから、
「（〇〇とは）色が違うタンポポ」の〇〇に田中や思いやりが来ることは無いんじゃないかな

2019/02/12(火) 20:46:29.82

>>610
思いやりは思いやり1つから出来ているし
田中が思いやりから出来ているか出来ていないかはこの文章からだけでは特定できないんじゃね？

2019/02/12(火) 20:53:01.17

>>611
ひねくれ過ぎててワロタ

2019/02/12(火) 21:02:46.53

>>612
無意識の先入観で可能性を限定しすぎている

2019/02/12(火) 21:06:44.61

>>613
選択肢から一つ選ぶんだからよりソフトマックスかけるなりしてより蓋然性の高いものを選べよ
この場合文中で100％思いやりから出来てるって確定してるシチューがあるのに他の選択肢選ぶのは人間としておかしいわ

2019/02/12(火) 21:38:29.65

>>614
蓋然性が高いってどうやって数値化できるの？

2019/02/12(火) 21:47:00.80

ベイズ推定

2019/02/12(火) 22:15:46.91

AIにどうやって学習させるのか？ってこと

2019/02/13(水) 00:09:06.00

上位概念形成はアプリオリ情報がないときついぞ

2019/02/13(水) 06:59:27.41

シチューを黄色くしたらタンポポになるみたいに学習しそう

2019/02/13(水) 10:41:56.81

>>618
その通りだと思うし、そもそも現在AIを使うときは
大きな枠組みがまず必要と思う。
そこではアプリオリな情報が必要となる。
制約があるからこそ最適化が成り立つところに似ている。

いかに周辺（仕事なら業務知識）が重要かってなところかな。

2019/02/13(水) 13:17:36.03

>>528
>Signateは賞金安いのに権利全部よこせとか、優秀だけど安く雇える学生だけ探してるわとか、
>訓練画像20枚な、とかで絶望しか感じないんだが
画像データ20枚ってのはファインチューニング用のコンペってこと？

2019/02/13(水) 15:15:56.51

NHKの方から来ましたって言われて
集金詐欺に引っかかりそう

2019/02/13(水) 16:27:53.63

AIカーが来てる！自動運転でラジコンカーを走らせよう！
https://weekly.ascii.jp/elem/000/000/422/422742/
おもちゃの自動車がAI で動く時代。
これもRaspberry Pi とpython で学習して自動運転してる。

2019/02/13(水) 19:12:35.32

関係ない質問なんだけどみんなはDBとかネットワークとかフロントエンドとかの技術も持ってるの？
色々出来る人はすげーよ…

2019/02/13(水) 19:14:16.01

必要になった時に勉強する程度

2019/02/13(水) 19:33:02.13

>>624
DBなんてどうとでもなるぞ
joinが鬼門って程度だし、そもそも機械学習はDBほとんど使わない
セキュリティと速度求めだすと底なし沼だけどな

フロントとか更にどうでもいい
bootstrap辺りいれときゃそれっぽく見えるし、まぁ見えなくてもいい

2019/02/13(水) 19:34:24.58

モザイク消しを試している者だけど、なかなか良い物ができた。
機械学習にあんまり詳しくない俺でもここまでの画像ができるんだから、実はみんな隠れてやってるだろ。
俺はこの重み付きのモデルを公開する事は決してないが、ググれば初学者でもすぐに作れるようになる物なので、時間の問題だと思っている。
マジで悪用厳禁だ。これは気軽に使えるようにしちゃいけない。

2019/02/13(水) 20:11:22.61

>>624
出来るやつはここにはこないよ

2019/02/13(水) 20:43:16.24

>>627
モザイク消すのはあんまり魅力感じないけど、強化学習みたいな感じで学習して気持ちよくマッサージしてくれるオナホを作りたいとかは考えてる

2019/02/13(水) 20:52:01.97

なかなか身体張った研究すな
研究の副作用でそう

2019/02/13(水) 20:55:21.41

顔分類面白そうと思ってスポーツ選手の画像集めてみたところまでは良いけどopenCVの正面顔のカスケード分類器？使ってみたら400枚で4枚しか顔の識別してくれなくて驚いた
一枚一枚トリミングするわけにも行かないしどういうやり方が良いんだろう

2019/02/13(水) 21:07:48.83

>>629
HMDと合わせて神名器作ったら天下取れそう

2019/02/13(水) 21:08:43.48

>>631
一枚一枚トリミングする
「python 顔抜き出し」
辺りで検索すれば、それなりなものが出てくると思うけど、アカンか

2019/02/13(水) 21:08:52.21

>>631
そんなもんかもね
訓練データを自動収集したいなら動画がいいね
秒間30枚あるので1分でも頑張れる

2019/02/13(水) 21:24:40.21

動画いいよね
スクレイピングでネット画像収集するより手っ取り早い
ただ小数の動画だと偏りが生じるから、いい感じの塩梅が必要

2019/02/13(水) 21:44:53.16

>>624
組み込み、DB、ネットワーク、サーバ周りは出来るけどフロントエンドは無理だなぁ
最近のJavaScript事情に全然ついて行けてない
機械学習はそれなりにやれる方だと思うけど、確かにDBやサーバの知識はほとんど使ってない
スキルセットが違いすぎるから別物と考えた方が良いね

2019/02/14(木) 09:53:57.10

>>631 です

>>633
>>634
その辺ひと通り検索して真似してみるんだけど処理の部分はopenCVで用意してる分類器使うからスクレイピングしてくる部分以外は大差ないように感じる…
記事で見かけるのはアイドルの写真が多いみたいだけど、グラビアとかも顔見せるのが仕事だから正面向いてるのが比較的多いのも良い点なのかもしれない(自分はスポーツ選手の画像でやって動きの中のものが多い)

あとはdetectMultiScaleのパラメータもminNeighborsとかminSizeとか指定出来るんだけど何も指定しない方が画像は多く検出してくれるからこの辺の設定も難しい上によく分からない…(検出出来るだけで顔以外のところがほとんど)

2019/02/14(木) 14:11:14.03

>>633
>一枚一枚トリミングする

AI使ったらどうだ？
(--;

2019/02/14(木) 22:33:20.70

皆さんどんなグラボ積んでますか？
購入検討の参考にさせて頂きたく

私は今はGTX650という化石のようなグラボです…　
趣味でMLを楽しむくらいなので下記が今のところ購入対象です。

GTX 1050ti
GTX 1060
GTX 1660(今月発売予定の1060後継機)

2019/02/14(木) 23:05:31.36

>>639
参考にならないかもしれないけど一応
GTX 1080
RTX 2080Ti
業務ではP100x2

2019/02/14(木) 23:32:50.64

>>640
豪華で羨ましいですw
本格的にMLにハマったら上級機を買いたいです

2019/02/14(木) 23:57:01.36

>>640
1080 と 2080Ti の差はどんなものですか？
今1080を使ってるけど、
2080Ti の 11GBメモリと TensorCore に惹かれる・・・

2019/02/15(金) 00:14:27.89

>>639
GTX1070
以前は750辺り使ってたけど、仕事前や就寝前に回し始める→帰ってきたら完成、
のサイクルが楽しかった
回してる間は勉強できるしな

今はすぐに終わってしまうから超大変

2019/02/15(金) 00:22:19.91

>>624
あたりめーだろ、AI以前、ITの基礎、飯の種だぞ

2019/02/15(金) 00:26:55.06

>>628
確かに、たまに暇つぶしで
一攫千金山師の戯言を眺めに来ているだけだわｗ

2019/02/15(金) 07:13:05.59

DCGANって何の役に立つの？

2019/02/15(金) 08:42:13.39

>>642
同じくTensorCoreにものすごい期待していたので、期待よりは低かったというのが正直なところ
ディープラーニングばかりでもないしね

2019/02/15(金) 10:18:32.53

>>646
GANはあくまで学習方法の一つ
簡単に超精度があがるから利用者が多い

2019/02/15(金) 10:36:15.91

みんなバックプロパゲーションの数式とか分かるの？
微分祭りで訳が分からない…

2019/02/15(金) 11:36:48.77

CNNの上位互換なGANは無いの？
学習データが少なくても学習成功するようなの

2019/02/15(金) 11:51:10.65

>>646
自動運転の研究で用いられている例
道路画像から特徴を抽出してセグメンテーションするネットワークを学習するときに
道路画像から抽出した特徴から道路画像が実画像かシミュレータ画像か判定するDiscriminator入れて、抽出器(Generator)をそのadversarial lossで学習すれば
実画像とシミュレータ画像の違いによらない本質的な特徴を抽出することができる
結果的にシミュレータでの学習をそのまま実世界で利用することができる

**デフォルトの名無しさん** (ｽﾌｯ Sd7f-C859) · 2019/02/15(金) 12:22:10.48

>>651
なるほど。
気になるのは本物と見分けがつかない実在しない人の顔や動物のリアルな画像生成ですけど
凄い技術だけど、人や動物の場合は何の役に立つの？

同時に恐ろしさも感じます。
写真に証拠能力はなくなるのかな？

2019/02/15(金) 16:54:25.53

>>650
モデルの上位互換なアルゴリズムってどういう事？

2019/02/15(金) 18:16:11.96

>>652
最近そんな記事が出てたような

2019/02/15(金) 18:31:16.88

アクセスするたびに架空の顔が出てくるサイト
https://thispersondoesnotexist.com/

>>652
AVの場合は女性の苦痛がなくなる

2019/02/15(金) 20:10:11.93

>>647
そうなんですね・・・
ここは冷静になって、GCPあたりで TensorCore を試してから
考えることにします。

2019/02/15(金) 20:46:12.53

>>649
余裕

2019/02/15(金) 22:54:09.02

TPUはコードい自体をTPUに最適化すれば猛烈な速さを誇るんだが
いかんせんそこまではなかなか

2019/02/16(土) 01:50:02.45

>>650
CNNとGANは比較できるレイヤーにない

2019/02/16(土) 01:53:10.98

>>649
よくわかってないけど、勾配さえわかれば確率的勾配降下法で局所最適に引っかかるだろうけど
一応何かしら解はでるだろうなぁ程度の理解

2019/02/16(土) 09:38:43.73

DRPAが2018年から二年でAIに二十億ドルの予算、もしかしたらAIブームは続くのかな
https://www.darpa.mil/work-with-us/ai-next-campaign

2019/02/16(土) 10:27:52.64

>>649
微分の記号が連なっているのが分かりにくいって人はいるよね
はっきり言って難しいことは一つも言っていない
三次元で絵にするとアホみたいに簡単
数式でより汎用性高く記述すると本質と違うところで分からない人が発生する
アルファベットをロシア語アルファベットにしたら理解に時間がかかるようなもん

2019/02/16(土) 11:48:10.46

>>652
ドラマとか映画の制作で使われるようになるよ、
俳優使わずにだれでも簡単に生成できるようになる

2019/02/16(土) 13:13:29.89

GANの応用で幾つかのドラえもんの道具が現実化するな

映画の登場人物をしずちゃんやジャイアンに変える秘密道具があったはず

2019/02/16(土) 13:26:10.07

エロ動画の顔を挿げ替えるソフトあるよね

2019/02/16(土) 13:45:15.61

>>655
ベッキーが生成された・・・

https://i.imgur.com/RC026fl.jpg

2019/02/16(土) 14:11:30.68

想像以上にベッキーだったｗ

2019/02/16(土) 15:50:18.44

>>666　　オーメンナンバーだな

>ベッキーが生成された・・・

納得。混ざり合うとそうなるかも

2019/02/16(土) 15:52:26.42

お、両親の顔画像から子供の顔を生成するアプリあればうれんじゃね！？
→あった

「子供の顔 AI」で検索検索ぅ・・・

2019/02/16(土) 16:19:53.42

>>656
gcpでもawsでもまずはクラウドでいくらか使ってみるのが一番良いと思う。
変な環境依存問題で悩まされることも少ないし、本格的なグラボ買うくらいの金額使う前に
だいたい飽きたりもういいやってなるから。

2019/02/16(土) 17:46:28.12

保存されたモデルを読み込むのにメッチャ時間がかかっちゃう
コマンドラインでの使用だったらinput関数で次々渡していけるのですが、モデル読み込み済みの別プロセスに引数わたして、標準出力を得るにはどうすればいいでしょうか