【統計分析】機械学習・データマイニング20

2018/08/07(火) 18:56:37.59

機械学習とデータマイニングについて何でもいいので語れ若人

※ワッチョイだよん

次スレ立ての際は、一行目冒頭に
!extend:on:vvvvv:1000:512つけてね

■関連サイト
機械学習の「朱鷺の杜Wiki」
http://ibisforest.org/
DeepLearning研究 2016年のまとめ
http://qiita.com/eve_yk/items/f4b274da7042cba1ba76

■前スレ
【統計分析】機械学習・データマイニング19
http://mevius.2ch.net/test/read.cgi/tech/1520586585/

VIPQ2_EXTDAT: default:vvvvv:1000:512:----: EXT was configured

2018/10/16(火) 18:17:43.89

>>772
すいませんちょっと質問の仕方を変えさせていただきます。
入力画像に対して「犬」、「猫」、「それ以外」の3クラスで分類を行いたい場合、
「それ以外」のクラスとしてどのようなデータセットを与えるべきでしょうか？

2018/10/16(火) 18:25:20.10

one
near
threeee

2018/10/16(火) 18:49:53.13

与えないという手もあります

2018/10/16(火) 19:13:11.22

cifar-10やimagenetの犬猫以外のクラスを与えたら？

2018/10/16(火) 19:50:22.81

この質問２ヶ月くらい続いてるやつではｗ

2018/10/16(火) 19:51:50.12

>>774
>「それ以外」のクラスとして
2クラス分類で
犬　 1 0
猫　　 0 1
それ以外 0 0
とする。やったことないけど。

2018/10/16(火) 20:00:36.33

データセットって訓練データとテストデータに分けるんだな

2018/10/16(火) 20:00:36.96

>>779
確率として解釈出来なくなるから
犬 100
猫 010
他 001
とすべき

2018/10/16(火) 20:07:12.15

>>777
与えた結果よい成果を生んだ参考文献か何かはありますでしょうか？
直感ですと特徴を捉えきれないと思うのですが上手く作用したりするのですかね。

>>779
そんなラベルの付け方もあるのですか？？
出力層の正規化はどうやるのでしょうか？

2018/10/16(火) 22:36:45.28

>>782
文献は知らないけど
スクラッチで学習するんじゃなくGoogLeNetとかをファインチューニングしたらどうかな

2018/10/17(水) 00:11:27.64

>>778
同じ話しを延々とやってるわな、根本的に向いてないわ

2018/10/17(水) 01:24:59.40

ゴチャゴチャ言ってるけど、実験結果とか全然書かないんだもんw

**デフォルトの名無しさん** (JP 0Hab-4Hut) · 2018/10/17(水) 09:22:23.63

>>774
yoloとかssdなら犬検出、猫検出
どちらも検出しないで3クラス分類できるよ
それ以外のデータセットなんていらない

2018/10/17(水) 18:06:30.59

実験結果
CPU使用

MNISTでソフトマックス関数使ってやってみた結果
100エポック
92%

フィードフォワードネットワーク利用
300エポック
98％

MNISTぐらいならCPUでもそこまで時間かからないな
人工知能用にPC買う予定だけど
GPU使用が楽しみだ

2018/10/17(水) 20:25:47.05

>>786
分類やりたいだけなのにわざわざ検出アルゴリズム持ち出すのって大仰過ぎないか

2018/10/17(水) 20:58:04.44

普通のニューラルネットで猫なら[1,0]、犬なら[0,1]と出力するように学習させれはどちらの特徴も持たないものは[0,0]と出力されるはずだろう

2018/10/17(水) 21:23:30.00

最小二乗確率的分類器ってどうなん？

2018/10/17(水) 22:36:58.67

>>789
そうなるかな。どっちかを出力するんじゃない。。。

2018/10/17(水) 23:52:28.66

>>787
適当に3~4階層で作ったので
MNIST87%行ったから
DLチョロいじゃんとか思って
Karasの他のapplicationに手を出したら
学習終わるまで300時間とか言われて泣きが入って
RTX2080Ti買おうと思ったら高過ぎﾜﾛﾀ

2018/10/18(木) 18:22:42.59

どうも・・・。俺です

AIを否定する記事見てムカついた

絶対に女を裸にするアプリ作ってやる
クソが

2018/10/18(木) 18:26:21.08

誰だよお前

2018/10/18(木) 18:29:04.82

>>786
yoloから検出機能を取ったようなネットワークがあれば良いのですが・・
最悪全クラスに対して識別器を作ってもいいので、
犬の画像が入力された時だけ発火して1を返すようなネットワークでもいいのですがそんなのありませんかね？

>>789
多クラス分類のためソフトマックス正規化を使っているので0,0にはならないですね。
この例で言うと0.5,0.5になってくれると大万歳なのですが大体そうはなりません。
上の人が言ってるようにどっちか推して来やがります。

>>792
そこまで高いの買わなくても、
サブ機に1050Ti積んでますけど
inceptionv3の199層～のファインチューニングでも
32000枚を100エポック回して大体5時間で終わりますよ
低価格でいろいろ試すには悪くない性能だと思うので検討してみてはいかがでしょうか。

2018/10/18(木) 19:39:03.34

1000クラス分類のImageNet使えば云いだろ…
それこそkerasやpytorchならなんの苦労もなく呼び出せるわ

2018/10/18(木) 21:08:27.70

>>795
ソフトマックスを使う限り、出力が[0.5, 0.5]というのは犬の確率と猫の確率が同程度であるという意味しか持たない
同程度に高いのかもしれないし同程度に低いのかもしれないわけだが、この両者は分離できなければならない
ということで出力層にソフトマックスは使わずに例えば単にシグモイドを使えば出力される2つの数はそれぞれ犬・猫の確率を独立に算出したものとなる
適当な閾値を決めて一方のみが大きければ犬or猫と判定、共にゼロ近くならどちらでもないと判定すればいい
それ以外の中途半端な出力が頻発するならそもそも犬猫の特徴を学習できていないので出力層を工夫したところで無駄であり、学習データを増やしたり出力層以前の層の構造を改良するしかない

2018/10/18(木) 22:55:11.05

>>789
犬猫だけで分類学習したネットワークにそれ以外のデータを入力することがナンセンス
学習した分布から外れたデータだから出力がどうなるかは分からない
犬でも猫でもない画像だとしても高い確度でどちらかに分類され得る

2018/10/19(金) 01:42:27.71

>>798
最近傍距離でやったらそうなるよね．
本当にナンセンスと言うことに同意．

2018/10/19(金) 01:51:18.44

>>795
元々の目的が人か否かを検出したいんだよね？
yoloを使えば良いと思うけど，それを使いたくないなら
>>760 の通りの方法でも汎化性能は悪くなるはずだけど行けなくもない(実運用はやめてね）

人のように見えるオブジェクトを誤検出するだろうし，人のポスターを人と判断するだろうし
多クラス分類にして，より確率の高い分類器ｘを選ぶじゃ駄目なの？2値分類は汎化性能という意味では極端に弱いから自動運転に関しては辞めた方が良いと思うよ

2018/10/19(金) 01:55:24.05

>>760
言い忘れたけど，人以外の物体が何を指すのかよく分からないけど
人が写って無い道路の画像で学習させるのが一般的だと思うよ．
それ以外の画像だと潜在空間における人とotherの距離が不明になるし辞めた方がいいよ

2018/10/19(金) 05:34:08.20

もう完全に教えてちゃんスレになったなｗ立ち寄る必要なさそうだ

2018/10/19(金) 05:50:40.44

課題をただで人に聞きまくって何とかしたいという日本人のテンプレ。わりと良くいる

2018/10/19(金) 06:33:27.67

研究を議論したいなあ，だれかスレ作って

2018/10/19(金) 07:35:08.81

AIっていかに論文をたくさん読んで、どれだけパクるかの勝負じゃん

2018/10/19(金) 07:37:52.55

どんな分野でも基本は既存研究の発展で、ごく稀に全く新しい発明が登場するものだ

2018/10/19(金) 09:32:23.71

研究と応用の距離が近いのね

2018/10/19(金) 13:50:41.29

>>797
なるほど、凄く答えに近いこと聞いた気がします。
アクティベートをシグモイドにするだけでその挙動が得られるのですか？
条件反射でソフトマックス使ってたので盲点でした。
少し試してみます。

2018/10/19(金) 13:56:34.41

>>798
なるほどそういうものなのですね。
しかし疑問なのが、どうして犬を検出する検出器は学習させることが出来るのに
犬の画像が入力された時だけ1を返すネットワークを学習させることができないかです。
明らかに後者の方が簡単なように思うのですが。。
お詳しそうなのでよければ教えていただけませんか？

2018/10/19(金) 14:13:06.61

>>807
パラメーター変えてみました、別のに応用して見ましたということかｗ

2018/10/19(金) 14:15:57.11

>>809
機械学習の一般論として、なにかを判定するには教師データとして正例と負例をおなじ数だけ与えるのが基本でしょう
「googleが猫を検出するDNNを作った」事例がよく取り上げられるけど、あれだって大量の猫画像とそうでない画像を与えている

2018/10/19(金) 14:38:27.78

>>810
そこまでは言ってない。
ダークマターの質量が判りました。ってのより基礎研究の利用が応用に近いなあと

2018/10/19(金) 15:33:05.18

>>809
前者は1000クラスの分類器がベースになってる
日常的に身の回りにある物は大体この1000クラスに含まれるので犬を(も)検出できる
当然その1000クラス以外が入力された時にどうなるか保証はない
後者は犬以外のどんな画像が入力されても0を返すのが難しい
これは犬以外に対応する潜在空間が圧倒的に広いから

でもまあ実用的には1000クラス分類器の流用で十分な気もするな

2018/10/19(金) 15:55:18.03

>>805

＞　AIっていかに論文をたくさん読んで、どれだけパクるかの勝負じゃん

ということは、AIが何か知っているんか？
じゃ、AIとは何か言ってみ？

2018/10/19(金) 16:05:15.03

>>812
難しいことご存知でｗ

2018/10/19(金) 16:20:57.94

絵描き
「性的対象判定機にこの白黒の線画を判定させたらすごいスコアでた！」

2018/10/19(金) 16:54:39.13

>>813
なるほど。。
それなら素人考えですと、
imagenetの画像を犬とそれ以外の2クラスに分けて
2クラス分類で学習させたネットワークは
その検出器と比べて認識力ではほぼ等価と見なせますか？

2018/10/19(金) 16:59:37.79

>>811
なるほど。
ではそのように猫だけを検出するネットワークを作りたいとしたら、
ネガティブとしてどんな画像を与えるのですか？
上の方も言ってる通り潜在空間が広すぎると思うのですが、
例えばimagenetの猫以外の画像を全てネガティブとして1クラスに押し込んで特徴って捉えれるのですか？

2018/10/19(金) 17:18:26.23

>>817
普通にそれをやると犬以外のデータが圧倒的に多いので多分上手くいかない
何も考えず全て犬以外に分類するだけで正解率99.9%を達成できるので、単純に分類誤差最小化で学習するとそうなる
学習済みネットワークの出力を加工するかファインチューニングするのがいいと思う

2018/10/19(金) 17:38:40.69

>>819
なるほど、、ためになります。
そういう実用的な事が書いてある書籍か何かありませんか？
ディープラーニングの本いろいろみて回ったのですが、
理論(数式)責めでドヤってる本か、
ネット見れば分かる程度の初歩的な実装方法書いたような本しかなくて困ってるのですが・・
欲しいのは数式でもチュートリアルでもなく実用性のあるものなのですが。
これ1冊あれば数式読まなくてもモデル選定からチューニングのコツまで分かるみたいな本ないですか？

2018/10/19(金) 17:55:39.31

>>820
そんなうまい話ないぞ
学習したいデータや問題毎に色々な試行錯誤がある
仮に望むような本があって表面だけなぞったとしても同じ悩みにぶつかるよ

2018/10/19(金) 18:30:36.19

今CycleGANの学習をCPUでやってる
何時間かかるんだろう・・・。

2018/10/19(金) 18:39:27.03

cycleganは夢が広がるほど万能感あるけど実際はなかなか上手く学習しない

2018/10/19(金) 20:03:10.47

>>823
形状を変化させるのは苦手みたいだね
テクスチャ系なら上手くできる

それにしてもCPUで1時間半やったけど1エポックも進まないわ・・・

2018/10/19(金) 21:18:55.91

>>818
そういうこと(猫画像とそれ以外画像とに分ける)で学習してる例が多いと思うけどね。ただ指摘があるように正例と負例の数は揃えないと。
あなたが実際にその分類器を使う段階になって、猫以外の画像としてどういうものが入力されるのか？それに近い分布のものを負例としなきゃ

「仕事ではじめる機械学習」あたり読んでみては(自分は読んでないけどw)

2018/10/19(金) 22:14:56.20

>>821
まあそうですよね。
でもいかんせん素人だと何をどう試行錯誤していいかすら分からないので
行き詰まった時に試してみるチェックリストみたいな感覚で使いたいのですが・・

2018/10/19(金) 22:16:47.09

>>825
ありがとうございます。
入力に近い分布のものなら1クラスにまとめて放り込んでも大丈夫なんですね。勉強になりました
本もチェックしてみます。

2018/10/19(金) 22:17:32.42

誰かコンサルしてあげなきゃ。素人が機械学習使えないだけなのに機械学習自体が評価されなくなる未来が見える

2018/10/19(金) 23:05:52.00

https://towardsdatascience.com/build-your-first-deep-learning-classifier-using-tensorflow-dog-breed-example-964ed0689430

上記のリポジトリ
https://github.com/udacity/dog-project

2018/10/19(金) 23:52:54.51

>>820
数式から逃げるな。
機械学習の数学程度でうろたえてるようじゃ人生きついぞ

2018/10/20(土) 00:58:23.13

正例と負例の訓練データ数が全く桁違いの場合って割と多いと思うんだけど
例えば機械の故障判定とか製品の不良判定とか、正常データが大量にあって異常データは僅かになるのが典型的
その場合全て正常と判定するモデルの正解率は高くなるが、混同行列見たりF1値を評価指標にすればそんなのは非常に悪い学習結果と判断できるから排除できる

2018/10/20(土) 13:39:51.48

Macbook ProのCore i7 CPUで半日やったが、
1エポックしか学習できなかったわ
Geoforce GTX 1080 Ti買うことにした
27万ぐらいするけどもっと安く買えねーかな

2018/10/20(土) 16:25:47.62

MacBookProなら一応グラフィックカード付いてるはずだけど呼び出せてなくない？
2016年モデルだけどついてるよ、スペックはお情け程度かもしれないけど

2018/10/20(土) 16:36:17.04

>>830
理解出来ない訳では無いですけど無駄手間じゃないですか？
ただツールとして使いたいだけで理論を開発しようって訳ではないので(そもそも数式には興味ない)、
数式見るのは研究者がやればいいと思うのですが。
ガウシアンぼかしの式すら知らない素人でもリファレンス見て試行錯誤で華麗にフォトショップ使いこなしますよね？
あんな感じに早くなればいいと思うこの頃です

2018/10/20(土) 16:48:12.80

proでもディスクリートGPUが載ってるかどうかはモデルによる。

2018/10/20(土) 16:55:13.15

>>834
それはない。数式読まずに避けてたら本質は理解できない

2018/10/20(土) 16:58:22.99

特定のものを認識させて物理空間上の位置（座標）を出力値とする場合って
SSDやYoloのような物体認識を使った方が早いかな？

>>883
882が何のライブラリを使ってるか知らんけど、tensorflowのMac版はCPUしか対応してない

2018/10/20(土) 17:04:33.60

最先端の研究結果の数式が必ずしも理解できる必要はないが
機械学習の基礎になる線形回帰、ロジスティック回帰、ニューラルネットワークの全結合層の原理程度は分かっていなければ厳しい
これが理解できていなければ自分の手持ちデータで何かやろうにもどんな手法を使うべきか見当も付けられず、
名前を知ってるものを適当に使ってみて精度が良かった・悪かった、と錬金術的にやるしかなくなる

2018/10/20(土) 17:09:48.35

機械学習ではな
自分よりお利口なもんはできない

まず自分がなんでﾊﾞｶで頭悪いかを考えたほうが有意義だからな

ﾊﾞｶのくせになんで自分よりお利口なもんができると思うのか
そこが不思議でならない

2018/10/20(土) 17:17:07.08

ﾊﾞｶでなければ
どうやったら自分が効果的に学習できるか考えるからな

自分が効果的な学習ができないのに
計算機で効果的な学習とかまずﾑﾘ

2018/10/20(土) 17:42:16.87

以上、ﾊﾞｶの主張でした

2018/10/20(土) 18:39:36.65

>>834
フォトショップを知識がなくても使いこなせるのはアルゴリズムが成熟していて大半の処理は裏方で自動でこなしてくれてるから
機械学習では自動で問題毎に自動で最適な処理をできる技術がまだ確立されていないから、ツール的に軽く触っただけで良い結果を得るのは難しいよ

2018/10/20(土) 18:49:17.27

知識って。。。
画像処理ｿﾌﾄとか画像ﾃﾞｰﾀのﾋﾟｸｾﾙ加工やってるだけやんけ

で、見た目がそうなってる
とりあえず見た目こんな感でいいや

ｺﾚを機械学習と同じと思ってる時点でもうね

2018/10/20(土) 20:39:27.85

>>836
本質を理解しようとはあまり思っていませんね。
とりあえずツールとしてﾗｸﾁﾝに使えたらそれだけでよいので・・
>>837
そうだったんですね、自分winでブートしてるのでそれは知りませんでした。
>>838
そうなんですよ、そこなのです。
だから手持ちデータとやりたいこと等から使うべき手法やモデルを教えてくれる本とかがあればいいんですけどねえ

2018/10/20(土) 20:44:45.92

>>842
そうですよね。
だから最適な処理を見つけるためのバイブル的なものがあればなあと思っています。

>>843
本質的にはあまり変わらないと思うのですが。
上の人が言っている通り自動化する技術が確立されていないだけで、
学習自体はデータに対して同じ処理を繰り返してるだけですし、
フォトショップでいう見た目=テストaccなりlos、という感じで使えても悪くないと思いますし
最近でいうならそれこそGANなんて見た目だけの話なのでとりあえずこんな見た目でいいや、で解決すると思います。

2018/10/20(土) 21:05:27.07

それはそうかもしれないがそうだとするとプログラム板の話題ではなくなるな

2018/10/21(日) 03:09:43.34

まあ発展途上よな
実用も含めて

2018/10/21(日) 05:50:34.84

>>845
>だから最適な処理を見つけるためのバイブル的なものがあればなあと思っています。
これは最先端の研究なので論文を読んでパラメータの設定はどうするとか学ぶ必要がある．
いくら機械学習の出版が早いとはいえ待ってたら2，3年は遅れた知識になる．

後結局手法はAutoMLとかで大体今でも自動化できてるんだけど，データから推定した結果の解釈とかの問題もあるし，
全部が全部バイブル通り行くとは行かないのが現実．「全てのモデルは間違ってる．完全なる解釈はない」というのが統計学の鉄則だよ

2018/10/21(日) 05:53:12.18

赤池先生の経歴をと尊敬を持って機械学をやるべきだと僕は思ってる．

汎化誤差の最小化だけじゃあまりにもつまらないし．最近のAmazonの差別AIみたいなのができるのが落ち．
未来はどうなるか分からないけど数式から逃げることはできないと覚悟した方が良いと思う．

2018/10/21(日) 08:11:33.22

lossの定義の仕方さえ分かれば良いだけの話だろ
昔なんか自動微分を手前で実装してたんだぞ

2018/10/21(日) 08:40:17.71

>>833
俺のは2018モデルだけどNVIDIAだったかな？

あと
2080 Tiの方がコスパ高い
https://i.imgur.com/SfoNEyI.png

2018/10/21(日) 08:54:49.06

あー最新版TensorflowではmacのGPUサポートしてないわ

2018/10/21(日) 09:46:27.36

>>849
AICはねｗ

2018/10/21(日) 10:11:18.91

最近edX初めてめっちゃいいよな

2018/10/21(日) 10:24:19.90

courseraの"How to Win a Data Science Competition: Learn from Top Kagglers"っての始めたけど、
これはムズいわ

まず、ロシア人が何を言ってるのか聞き取れない

2018/10/21(日) 10:38:57.18

ロシア語はきついわ

2018/10/21(日) 11:29:45.72

>全部が全部バイブル通り行くとは行かないのが現実．「全てのモデルは間違ってる．完全なる解釈はない」

ほんそれ

2018/10/21(日) 13:35:30.75

>>848
最先端のネットワークはモチロンそうでいいと思うのですが、
DropoutやらReLUとか組み込んだCNNならもう流行りだして2,3年は経ってると思うので
それくらいの構造のCNNでimagenetのような分類タスクしようと思った時にモデル選定とかどうチューニングしたらいいとかある程度まとめてくれてるような書物があったらいいなと思いました。

2018/10/21(日) 14:04:50.88

>>858
あるのでは

2018/10/21(日) 14:07:48.83

最近の書籍だと直感ディープラーニングとか

2018/10/21(日) 16:57:03.15

あれこれ楽すること考える前にCourseraの有名な機械学習コースのシラバスの各項目をざっくりとでも他人に説明できないレベルならCourseraやるのが一番手っ取り早い

2018/10/21(日) 17:34:54.29

Coursera教に入信すれば救われます

2018/10/22(月) 13:50:58.13

なんかスレ面白くなくなったな

2018/10/22(月) 14:08:49.04

じゃ、chainerの話でもするか！
日本の会社なのに公式に日本語ドキュメントがないやん、とか

2018/10/22(月) 14:26:31.01

>>864
世界を狙っとるんやない？

2018/10/22(月) 14:37:01.74

CEATECでPFNが出してた片付けロボットすごいよな

2018/10/22(月) 14:48:12.27

いい感じのクロスモーダルモデル考えたけど適用事例が思い付かない

2018/10/22(月) 19:35:15.84

>>866
物体検出、物体判別、位置特定は他の所でも出来るんじゃね？
その正確さとかが実用になるかどうかだろうけど

2018/10/22(月) 19:59:52.03

>>868
それらを現実世界のロボットの動作に結びつけるのは難しい
あと口頭で指示も出せるらしい

2018/10/22(月) 22:45:23.68

PFNロボのアピールポイント:
・衣類の画像認識ができる(衣類、布は置き方によって形状が大きく変わるため難度が高かった)
・対象によって掴む位置、掴み方を変える(けん玉は棒の部分を掴むなど)
・日本語の命令に従い行動できる
・ラフな言い方、ジェスチャーを認識できる(指差しながら「あそこに片付けて」で認識できる)
・展示会の騒音、変化する照明環境で1日連続稼働できる

2018/10/23(火) 09:47:19.57

どこもかしこも画像データを扱う事を前提として文章書いてるから嫌になってくる

2018/10/23(火) 10:02:16.82

二ーズは疑問だけど、頭の固い機械制御の業界には良い刺激

2018/10/23(火) 10:19:26.64

緩い機械制御（LOL）