【統計分析】機械学習・データマイニング20

■ このスレッドは過去ログ倉庫に格納されています
2018/08/07(火) 18:56:37.59ID:sGPH9ejna
機械学習とデータマイニングについて何でもいいので語れ若人

※ワッチョイだよん

次スレ立ての際は、一行目冒頭に
!extend:on:vvvvv:1000:512つけてね

■関連サイト
機械学習の「朱鷺の杜Wiki」
http://ibisforest.org/
DeepLearning研究 2016年のまとめ
http://qiita.com/eve_yk/items/f4b274da7042cba1ba76

■前スレ
【統計分析】機械学習・データマイニング19
http://mevius.2ch.net/test/read.cgi/tech/1520586585/
VIPQ2_EXTDAT: default:vvvvv:1000:512:----: EXT was configured
2018/10/07(日) 14:57:55.33ID:pk8THtng0
著作権先進国(笑)
2018/10/07(日) 17:38:31.02ID:QNVjJiYJ0
医療用プログラムは医療用機器つくってた会社しかつくれないように規制されてるから入れん
認可とるのも大金かかるし
2018/10/07(日) 20:31:31.21ID:JgS2v7in0
GANのdiscriminatorの次元減らしていくのに全結合無い方がいい理由ってなんで?
2018/10/07(日) 20:35:00.63ID:JgS2v7in0
DCGANの話です
717デフォルトの名無しさん (アウアウエー Sa6a-VI3z)
垢版 |
2018/10/07(日) 20:45:05.75ID:RqIyj36Sa
>>708
個人情報を収集するときに
利用目的や利用の範囲とかを示して
合意して貰えばいいだけじゃね?
おと要求に応じて開示修正破棄できるようなシステムにしておく
ほかの個人情報でも同じ
718デフォルトの名無しさん (ワッチョイ d980-A6IM)
垢版 |
2018/10/07(日) 21:24:55.65ID:mIq+f5AO0
https://arxiv.org/pdf/1312.4400.pdf
> 3.2 Global Average Pooling

> ・・・
> However, the fully connected layers are prone to overfitting, thus hampering the generalization ability
> of the overall network. Dropout is proposed by Hinton et al. [5] as a regularizer which randomly
> sets half of the activations to the fully connected layers to zero during training. It has improved the
> generalization ability and largely prevents overfitting [4].

> In this paper, we propose another strategy called global average pooling to replace the traditional
> fully connected layers in CNN.
2018/10/07(日) 21:52:22.17ID:7A10mDJxa
>>718
全結合いれたら汎化性が落ちるから他の方法でってことか
ありがとう
720デフォルトの名無しさん (アウウィフ FF3a-HYg0)
垢版 |
2018/10/08(月) 11:31:11.61ID:+5qyKWRvF
そろそろ大目玉か
https://www.anaconda.com/blog/developer-blog/tensorflow-in-anaconda/
2018/10/08(月) 11:41:22.65ID:99LuQJTy0
なんと!あのアナコンダが!
っていうほどのもんじゃないな
722デフォルトの名無しさん (アウアウエー Sa6a-TFgJ)
垢版 |
2018/10/08(月) 11:44:43.55ID:tjiQ7o9Aa
>>717
これから集める分ならそうだろうな
でも今まで蓄積してきたデータは?
契約上使っても問題ないデータが十分集まる頃にはとっくに置いてかれている
723デフォルトの名無しさん (アウアウエー Sa6a-VI3z)
垢版 |
2018/10/08(月) 13:07:36.75ID:DvqFh1SLa
>>722
再確認すれば良い
利用規約の改定とか普通によくあることじゃね?
724デフォルトの名無しさん (アウアウエー Sa6a-TFgJ)
垢版 |
2018/10/08(月) 14:02:39.08ID:tjiQ7o9Aa
>>723
その再確認を既に退院した人含めて一人一人にするのは結構大変なのでは
2018/10/08(月) 14:31:20.58ID:4tTMXMXFM
arxivのML・DL論文読んでて、日本人の論文少ないよね
2018/10/08(月) 15:01:42.20ID:aB+juQlj0
意味不明な日本語を使う奴に言われてもw
2018/10/08(月) 21:08:44.54ID:ND0ntmkA0
英語でわざわざ論文書くのがめんどくさい
2018/10/08(月) 22:37:44.37ID:6UIbz9ua0
外人嫌いだし
729デフォルトの名無しさん (アウアウエー Sa6a-VI3z)
垢版 |
2018/10/09(火) 08:09:06.14ID:CcNKGFP6a
>>724
新たに同等のデータを取るのに比べたら手軽じゃね?
現状の法律でも個人情報の開示や削除要請には応じる必要があるからその準備はできているはず
2018/10/09(火) 23:49:18.73ID:++HOLxfb0
分類するときにA,B,C,その他みたいに分類できるアルゴってないですか?
学習してない似たやつをどや顔で間違えて分類するのでなんとかしたい
2018/10/10(水) 00:05:38.82ID:RHyHT8b9d
何回同じ話ししてるんだよw
2018/10/10(水) 00:28:20.33ID:egfM8dTJa
one vs allかone vs restで検索
もしこれで分類できないならそもそも使っている特徴量的にA,B,Cとその他が区別できていないのだろうから特徴量の選定からやり直す
2018/10/10(水) 00:36:06.65ID:FD95EKzWa
このネタ同じ人?
2018/10/10(水) 22:38:14.62ID:3fNWNg5+0
http://www.atmarkit.co.jp/ait/spv/1810/10/news009.html
2018/10/10(水) 23:37:18.54ID:CBzJzHEZ0
文系PG抱えてる会社を食い物にしてる商売多すぎぃ
2018/10/10(水) 23:58:52.97ID:Z3r4I6WRd
>>735
文系PGを抱えてる会社を食い物にする商売ってどんなの?
2018/10/11(木) 00:28:18.10ID:DY6agtqn0
PGに文系もくそもねぇwww
2018/10/11(木) 12:18:02.31ID:vTh9hgF00
土方PGで大儲け(過去形)
2018/10/11(木) 13:19:56.51ID:WWqvoXS50
AI(人工知能)で既存のホワイトカラーの仕事がなくなっていく一方、
孫正義が言うように「AIのエンジニア」の需要は増加する。

そこで画像生成について学習してるんだが、
DCGANは知ってたけどCycleGANというものがあることを知った。
CycleGANはかなり面白そうだったので、

自前で人工知能作ろうと思う。
GTX1080で3時間学習させたCycleGANがあったんだが、
男性のトーク動画を女性に変換しててすごいと思った。

これから購入するパソコンのスペックはGTX1080以上あればいいかな?
2018/10/11(木) 14:28:42.63ID:jOTiaxUqd
http://www.atmarkit.co.jp/ait/spv/1810/10/news039.html
2018/10/11(木) 14:31:15.98ID:jOTiaxUqd
アトラクター?
ポアンカレ断面の不動点でも求めてんのかね
2018/10/11(木) 15:17:36.46ID:ZiWr81AM0
孫正義(笑)、Nスペ見るの止めた
2018/10/11(木) 15:46:57.01ID:jc3fQN7m0
これからの時代、人とのコミュニケーションを鍛えた方が生き残れると思うよ
2018/10/11(木) 16:57:44.01ID:HpbFK8lR0
小学生並みの感想
2018/10/11(木) 20:26:53.34ID:CtLR6CRw0
メモリ8GBでやってたら訓練データメモリに載せるだけでPCカックカクでわろた
一応モデルとバッチはGPUのメモリが足りてるからいいけど訓練データ増えたらきついな
2018/10/11(木) 21:10:29.30ID:1ID+fdJTF
tensorflowなら訓練データをtfrecordにして非同期読み込みすることで解決できるけど
2018/10/11(木) 22:57:22.95ID:4qCh5/Foa
もちろんTFRecord にしてもいいけど、
クラウドでやれば最低でも50GB くらいはメモリついてるぞ
748デフォルトの名無しさん (アウアウエー Sa9f-0CBk)
垢版 |
2018/10/13(土) 01:09:59.51ID:I1iISO8ka
訓練データ全部メモリに乗せてやるなんてMNISTくらいでは
2018/10/13(土) 02:24:00.24ID:jEm+mxu1d
前処理段階でメモリ食うことは良くある
2018/10/13(土) 07:45:13.94ID:43imppejM
GANを勉強してるんだけど識別者の方は基本的に偽物だと判別し続けるってことで合ってる?
751デフォルトの名無しさん (アウアウエー Sa9f-0CBk)
垢版 |
2018/10/13(土) 10:31:45.96ID:I1iISO8ka
>>750
本物を本物と言えることも必要
2018/10/13(土) 11:04:08.69ID:43imppejM
>>751
じゃあどうやって識別者は学習していくの?
教師ありではないんだよね
753デフォルトの名無しさん (アウアウエー Sa9f-0CBk)
垢版 |
2018/10/13(土) 12:02:40.35ID:I1iISO8ka
>>752
ジェネレータが生成したデータか本物のデータかってラベルはGANの枠組みとして付けられるよね
GAN自体は教師なしだけど、識別者はこのラベルを使って教師あり学習する
2018/10/13(土) 12:44:21.13ID:Ttma0+8g0
識別側の学習には教師ラベルを使ってるってこと?
識別の学習では普通の分類NNのように本物の画像と正解ラベルを使ってそれらが本物であることを学習させていくってことか
じゃあ生成側の学習はどういうしくみ?
2018/10/13(土) 12:46:04.58ID:Ttma0+8g0
>>753
安価つけ忘れた
ID変わったけど>>752です
756デフォルトの名無しさん (オッペケ Sr9b-0CBk)
垢版 |
2018/10/13(土) 12:50:36.89ID:i0XDn4SOr
>>754
識別側はデータが本物なら1、偽物なら0を出力するように学習するので、生成側は自分が出力した画像に対して識別側に1を出力させるように学習する
2018/10/13(土) 23:46:17.79ID:H2kFVs7yM
>>750
偽物だと判別し続けるモデルに何の価値がある?何にも判別してないではないか?
言ってておかしいと思わないのか?
2018/10/14(日) 00:18:48.06ID:/A1DvWgqM
GCPのAutoMLを利用しようと思ったんですけど、プロジェクトを選んでSET UP NOW押すとCustomer bucket missingって出てセットアップ完了しないのですが、今ってAutoML使えないんですか?
2018/10/14(日) 00:27:21.52ID:Zxcto2qXM
自己解決
自分で "プロジェクト名-vcm"のバケット作ったら行けました
何故自動で作ってくれないのか…
2018/10/15(月) 17:10:25.47ID:XOcEM3KAa
CNNの分類による検出器の作り方ですが、
例えばドラレコの映像から人を検出したいとして、
例えば映像を適当な矩形でラスターして人か否かの2出力CNNにかける場合、
学習時にネガティブとして与える映像はどうすればよいですか?
人以外のあらゆる一般物体を集めてきてネガティブにすれば効果が高いのでしょうか?
2018/10/15(月) 17:26:36.70ID:pLFxHPPwH
>>760
それだと分類じゃなくて
YoloとかSSDとか検出器使ったほうがよくない?
2018/10/15(月) 17:33:34.17ID:DA9AnZKj0
自動運転ってyoloとかでオブジェクトを単体で視認したあとってif文とかでやってるのそれとも論理プログラミングとか?
2018/10/15(月) 17:55:37.84ID:slolOmKf0
強化学習
2018/10/15(月) 17:58:33.61ID:XOcEM3KAa
>>761
検出器を使っていない理由は画像全体にラベリングしたいからです。
それだとsegnetとかをファインチューニングしろ、と言われそうですが
ピクセル単位のラベル付けが困難なためです。
結局のところsegnetのようなものをCNN分類を矩形走査することで画像単位ラベルのデータセットのみで作ってみたいということです。
2018/10/15(月) 18:19:52.50ID:9QRJdq2GM
>763
あーそうだよね。その存在が脳からドロップアウトしてたわ、ありがとう
766デフォルトの名無しさん (ワッチョイ df09-a1T9)
垢版 |
2018/10/15(月) 20:07:31.69ID:E7SbL8Og0
BERTの成功とその方向性から垣間見える
脳構造の模倣における連続的時間情報の把握の重要性
俺が>>650で指摘している状態

>おそらくは完璧を求めると
>階層的にAttentionによる時間情報とポジション付与をしつつ、それらを考慮したCNNで畳み込み
>なおかつそれらすべての層を参照しながら、動的に再帰的処理する必要性がある
>これにGAN的な世界モデルによる強化学習手法を取り入れれば汎用AIができるだろう

これとBERTで使われている、transformerよりも更に多層化して各層の参照密度を増したAttentionとの間に
共通性を認識できる人がいれば、俺の言い分を理解してもらえるだろう
2018/10/15(月) 20:39:32.75ID:hN5zazbp0
深層学習の話ばっかりだなあ。
2018/10/15(月) 21:31:32.65ID:E6pr56BO0
 私たち日本人の、日本国憲法を改正しましょう。
総ム省の、『憲法改正國民投票法』、でググって
みてください。拡散も含め、お願い致します。
2018/10/15(月) 23:56:03.72ID:9aG3IWOmd
>>767
じゃあ違うネタ出してみるとか

確率モデルのpythonライブラリは何使うのが良いかしら
2018/10/16(火) 10:26:37.31ID:EErsLIkGH
>>764
画像全体にラベリングってマルチラベリングしたいってこと?
yoloもssdもラベル作成は矩形単位だよ
2018/10/16(火) 11:20:41.82ID:LVmCdvc6a
>>770
例えば、
2cm四方の正方形の画像があった場合
その正方形を1cmの正方形で4分割して
分割した4枚それぞれの正方形の画像が人か人でないか分類したい、
ということです。
2018/10/16(火) 11:48:54.78ID:EErsLIkGH
>>771
その分割から分類までやってくれるのが
まさにyoloとかssdなんだけど
だめなの?
2018/10/16(火) 15:38:43.59ID:QWtfESi60
そこんとこyoloしく
2018/10/16(火) 18:17:43.89ID:LVmCdvc6a
>>772
すいませんちょっと質問の仕方を変えさせていただきます。
入力画像に対して「犬」、「猫」、「それ以外」の3クラスで分類を行いたい場合、
「それ以外」のクラスとしてどのようなデータセットを与えるべきでしょうか?
775デフォルトの名無しさん (アウウィフ FFeb-NsMu)
垢版 |
2018/10/16(火) 18:25:20.10ID:YLHbxnbGF
one
near
threeee
2018/10/16(火) 18:49:53.13ID:UuSrgkCV0
与えないという手もあります
777デフォルトの名無しさん (アウアウエー Sa9f-Zhpk)
垢版 |
2018/10/16(火) 19:13:11.22ID:mtK6WYc4a
cifar-10やimagenetの犬猫以外のクラスを与えたら?
2018/10/16(火) 19:50:22.81ID:tz34EJAO0
この質問2ヶ月くらい続いてるやつではw
2018/10/16(火) 19:51:50.12ID:Mw6GhB3d0
>>774
>「それ以外」のクラスとして
2クラス分類で
犬  1 0
猫   0 1
それ以外 0 0
とする。やったことないけど。
2018/10/16(火) 20:00:36.33ID:REwKrz4C0
データセットって訓練データとテストデータに分けるんだな
781デフォルトの名無しさん (オッペケ Sr9b-Zhpk)
垢版 |
2018/10/16(火) 20:00:36.96ID:BMUJGI05r
>>779
確率として解釈出来なくなるから
犬 100
猫 010
他 001
とすべき
2018/10/16(火) 20:07:12.15ID:Yv68lSL8a
>>777
与えた結果よい成果を生んだ参考文献か何かはありますでしょうか?
直感ですと特徴を捉えきれないと思うのですが上手く作用したりするのですかね。

>>779
そんなラベルの付け方もあるのですか??
出力層の正規化はどうやるのでしょうか?
783デフォルトの名無しさん (アウアウエー Sa9f-Zhpk)
垢版 |
2018/10/16(火) 22:36:45.28ID:mtK6WYc4a
>>782
文献は知らないけど
スクラッチで学習するんじゃなくGoogLeNetとかをファインチューニングしたらどうかな
2018/10/17(水) 00:11:27.64ID:iaDlPipOa
>>778
同じ話しを延々とやってるわな、根本的に向いてないわ
2018/10/17(水) 01:24:59.40ID:7+LkzvLlD
ゴチャゴチャ言ってるけど、実験結果とか全然書かないんだもんw
2018/10/17(水) 09:22:23.63ID:/KG9iA6xH
>>774
yoloとかssdなら犬検出、猫検出
どちらも検出しないで3クラス分類できるよ
それ以外のデータセットなんていらない
2018/10/17(水) 18:06:30.59ID:c6ApCslj0
実験結果
CPU使用

MNISTでソフトマックス関数使ってやってみた結果
100エポック
92%

フィードフォワードネットワーク利用
300エポック
98%

MNISTぐらいならCPUでもそこまで時間かからないな
人工知能用にPC買う予定だけど
GPU使用が楽しみだ
788デフォルトの名無しさん (アウアウエー Sa9f-Zhpk)
垢版 |
2018/10/17(水) 20:25:47.05ID:aGL7TZ3Ma
>>786
分類やりたいだけなのにわざわざ検出アルゴリズム持ち出すのって大仰過ぎないか
2018/10/17(水) 20:58:04.44ID:luoOlS94a
普通のニューラルネットで猫なら[1,0]、犬なら[0,1]と出力するように学習させれはどちらの特徴も持たないものは[0,0]と出力されるはずだろう
2018/10/17(水) 21:23:30.00ID:ef/wXGoVr
最小二乗確率的分類器ってどうなん?
2018/10/17(水) 22:36:58.67ID:KdQY5VHb0
>>789
そうなるかな。どっちかを出力するんじゃない。。。
2018/10/17(水) 23:52:28.66ID:bpF2/qnc0
>>787
適当に3~4階層で作ったので
MNIST87%行ったから
DLチョロいじゃんとか思って
Karasの他のapplicationに手を出したら
学習終わるまで300時間とか言われて泣きが入って
RTX2080Ti買おうと思ったら高過ぎワロタ
2018/10/18(木) 18:22:42.59ID:10LrZVzjM
どうも・・・。俺です

AIを否定する記事見てムカついた

絶対に女を裸にするアプリ作ってやる
クソが
2018/10/18(木) 18:26:21.08ID:XeUf991ya
誰だよお前
2018/10/18(木) 18:29:04.82ID:WjJlstdVa
>>786
yoloから検出機能を取ったようなネットワークがあれば良いのですが・・
最悪全クラスに対して識別器を作ってもいいので、
犬の画像が入力された時だけ発火して1を返すようなネットワークでもいいのですがそんなのありませんかね?

>>789
多クラス分類のためソフトマックス正規化を使っているので0,0にはならないですね。
この例で言うと0.5,0.5になってくれると大万歳なのですが大体そうはなりません。
上の人が言ってるようにどっちか推して来やがります。

>>792
そこまで高いの買わなくても、
サブ機に1050Ti積んでますけど
inceptionv3の199層〜のファインチューニングでも
32000枚を100エポック回して大体5時間で終わりますよ
低価格でいろいろ試すには悪くない性能だと思うので検討してみてはいかがでしょうか。
2018/10/18(木) 19:39:03.34ID:0jTuf2pp0
1000クラス分類のImageNet使えば云いだろ…
それこそkerasやpytorchならなんの苦労もなく呼び出せるわ
2018/10/18(木) 21:08:27.70ID:3WNLz9C3a
>>795
ソフトマックスを使う限り、出力が[0.5, 0.5]というのは犬の確率と猫の確率が同程度であるという意味しか持たない
同程度に高いのかもしれないし同程度に低いのかもしれないわけだが、この両者は分離できなければならない
ということで出力層にソフトマックスは使わずに例えば単にシグモイドを使えば出力される2つの数はそれぞれ犬・猫の確率を独立に算出したものとなる
適当な閾値を決めて一方のみが大きければ犬or猫と判定、共にゼロ近くならどちらでもないと判定すればいい
それ以外の中途半端な出力が頻発するならそもそも犬猫の特徴を学習できていないので出力層を工夫したところで無駄であり、学習データを増やしたり出力層以前の層の構造を改良するしかない
798デフォルトの名無しさん (アウアウエー Sae2-6bZA)
垢版 |
2018/10/18(木) 22:55:11.05ID:E8jILIgaa
>>789
犬猫だけで分類学習したネットワークにそれ以外のデータを入力することがナンセンス
学習した分布から外れたデータだから出力がどうなるかは分からない
犬でも猫でもない画像だとしても高い確度でどちらかに分類され得る
799デフォルトの名無しさん (ワッチョイ 53c3-+WKx)
垢版 |
2018/10/19(金) 01:42:27.71ID:heGbLBdq0
>>798
最近傍距離でやったらそうなるよね.
本当にナンセンスと言うことに同意.
800デフォルトの名無しさん (ワッチョイ 53c3-+WKx)
垢版 |
2018/10/19(金) 01:51:18.44ID:heGbLBdq0
>>795
元々の目的が人か否かを検出したいんだよね?
yoloを使えば良いと思うけど,それを使いたくないなら
>>760 の通りの方法でも汎化性能は悪くなるはずだけど行けなくもない(実運用はやめてね)

人のように見えるオブジェクトを誤検出するだろうし,人のポスターを人と判断するだろうし
多クラス分類にして,より確率の高い分類器xを選ぶじゃ駄目なの?2値分類は汎化性能という意味では極端に弱いから自動運転に関しては辞めた方が良いと思うよ
801デフォルトの名無しさん (ワッチョイ 53c3-+WKx)
垢版 |
2018/10/19(金) 01:55:24.05ID:heGbLBdq0
>>760
言い忘れたけど,人以外の物体が何を指すのかよく分からないけど
人が写って無い道路の画像で学習させるのが一般的だと思うよ.
それ以外の画像だと潜在空間における人とotherの距離が不明になるし辞めた方がいいよ
2018/10/19(金) 05:34:08.20ID:8J26xkWMa
もう完全に教えてちゃんスレになったなw 立ち寄る必要なさそうだ
2018/10/19(金) 05:50:40.44ID:rn6AXKJQd
課題をただで人に聞きまくって何とかしたいという日本人のテンプレ。わりと良くいる
804デフォルトの名無しさん (ワッチョイ 53c3-+WKx)
垢版 |
2018/10/19(金) 06:33:27.67ID:heGbLBdq0
研究を議論したいなあ,だれかスレ作って
2018/10/19(金) 07:35:08.81ID:/W+GDYNa0
AIっていかに論文をたくさん読んで、どれだけパクるかの勝負じゃん
2018/10/19(金) 07:37:52.55ID:568QDdW/a
どんな分野でも基本は既存研究の発展で、ごく稀に全く新しい発明が登場するものだ
2018/10/19(金) 09:32:23.71ID:TrVy4dze0
研究と応用の距離が近いのね
2018/10/19(金) 13:50:41.29ID:R1ndva0Ba
>>797
なるほど、凄く答えに近いこと聞いた気がします。
アクティベートをシグモイドにするだけでその挙動が得られるのですか?
条件反射でソフトマックス使ってたので盲点でした。
少し試してみます。
2018/10/19(金) 13:56:34.41ID:R1ndva0Ba
>>798
なるほどそういうものなのですね。
しかし疑問なのが、どうして犬を検出する検出器は学習させることが出来るのに
犬の画像が入力された時だけ1を返すネットワークを学習させることができないかです。
明らかに後者の方が簡単なように思うのですが。。
お詳しそうなのでよければ教えていただけませんか?
2018/10/19(金) 14:13:06.61ID:LAG8930r0
>>807
パラメーター変えてみました、別のに応用して見ましたということかw
2018/10/19(金) 14:15:57.11ID:gl4kTOSHd
>>809
機械学習の一般論として、なにかを判定するには教師データとして正例と負例をおなじ数だけ与えるのが基本でしょう
「googleが猫を検出するDNNを作った」事例がよく取り上げられるけど、あれだって大量の猫画像とそうでない画像を与えている
2018/10/19(金) 14:38:27.78ID:TrVy4dze0
>>810
そこまでは言ってない。
ダークマターの質量が判りました。ってのより基礎研究の利用が応用に近いなあと
813デフォルトの名無しさん (オッペケ Srb3-6bZA)
垢版 |
2018/10/19(金) 15:33:05.18ID:pogP5zPXr
>>809
前者は1000クラスの分類器がベースになってる
日常的に身の回りにある物は大体この1000クラスに含まれるので犬を(も)検出できる
当然その1000クラス以外が入力された時にどうなるか保証はない
後者は犬以外のどんな画像が入力されても0を返すのが難しい
これは犬以外に対応する潜在空間が圧倒的に広いから

でもまあ実用的には1000クラス分類器の流用で十分な気もするな
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況