【統計分析】機械学習・データマイニング20

2018/08/07(火) 18:56:37.59

機械学習とデータマイニングについて何でもいいので語れ若人

※ワッチョイだよん

次スレ立ての際は、一行目冒頭に
!extend:on:vvvvv:1000:512つけてね

■関連サイト
機械学習の「朱鷺の杜Wiki」
http://ibisforest.org/
DeepLearning研究 2016年のまとめ
http://qiita.com/eve_yk/items/f4b274da7042cba1ba76

■前スレ
【統計分析】機械学習・データマイニング19
http://mevius.2ch.net/test/read.cgi/tech/1520586585/

VIPQ2_EXTDAT: default:vvvvv:1000:512:----: EXT was configured

**デフォルトの名無しさん** (ｽﾌｯ Sd70-rfKm) · 2018/10/05(金) 10:49:42.25

頑張ります

2018/10/05(金) 14:37:40.34

えいえいおー！

2018/10/06(土) 11:03:04.25

>>687
TPUも作れるといいね(棒)

2018/10/06(土) 11:16:45.87

NHK教育を見て56088倍賢く三連休
http://nhk2.5ch.net/test/read.cgi/liveetv/1538780245/

2018/10/06(土) 11:26:12.82

>>686
もう CUDA 10.0 かよ…

2018/10/06(土) 15:40:12.76

会社の技術発表で機械学習をやってみたいんだけど、
例えば、複数ユーザーのツイートを元に学習したアカウントで人間っぽく自動ツイートする、みたいなことって可能ですかね？
使用したことある言語はjavaくらいで、Pythonとかは始めてなんですけど

2018/10/06(土) 15:55:25.36

可能

2018/10/06(土) 16:33:50.86

>>694
よっしゃ、ありがとうございます
1ヶ月あればなんとかなるかな、頑張ってみます

2018/10/06(土) 20:05:00.50

>>695
ところで業務にはどう役に立つのかね？
って言われそう

2018/10/06(土) 20:07:01.15

日立なんかは一年目に技術発表会やると聞いた。上の人がどこの人か知らんけど

2018/10/06(土) 20:27:28.89

>>696
自分が興味あることを発表する、みたいな場だから業務に役立つかどうかは大丈夫
ゲーム作ってきたやつもいたし

2018/10/06(土) 23:01:16.24

>>698
著作権的にいいのかな？社内向けとはいえそれをツイートまでするのはアウトな気がする。
自分のアカウントを２つ作ってやるならいいだろうけど。

2018/10/07(日) 00:40:28.21

日本の会社はぬるくて羨ましいなw

2018/10/07(日) 00:41:29.35

Twitterはツイートした時点でその内容を誰がどう使ってもいいよ、っていう規約だったはずだから権利侵害とかの問題はないだろう

2018/10/07(日) 00:47:51.09

独学で機械学習やってるけど、おっさんの腐った脳味噌じゃもうダメだな
大学入り直すか

2018/10/07(日) 00:53:53.77

2chの方が著作権移動が厳しい

2018/10/07(日) 01:05:46.09

CS系の大学の講座取ってみたい

2018/10/07(日) 05:08:20.65

>>701
著作権で言えば
著作者人格権とか著作権に関する権利の一部は
日本の法律ではなくならないはず

2018/10/07(日) 08:15:30.42

そもそも、機械学習で生成されたデータが
元にしたデータの著作権侵害になるという法律屋の指摘に違和感を感じる

2018/10/07(日) 10:47:04.83

日本は法律面で先進国としては非常に珍しい機械学習パラダイスなんだぞ

進化する機械学習パラダイス～改正著作権法が日本のAI開発をさらに加速する～
https://storialaw.jp/blog/4936

2018/10/07(日) 11:49:44.59

個人情報保護とかで医療関連はデータ集めるのが大変だそうな

2018/10/07(日) 13:26:13.70

その辺りは医療機関自体がデータサイエンティスト雇うか業務提携するしかないだろう

2018/10/07(日) 14:08:13.17

ワイのレントゲン写真使うなら肖像権高うつきまっせ

2018/10/07(日) 14:14:45.59

>>707
つまりこういうことだな
現在：「学習用データ収集→諸々の処理→学習モデル作成」を個人や自社だけで完結させる場合は商用・非商用問わず著作権者の許可を取る必要なし
2019/1/1以降：収集した学習用データを他人・他社に公開・販売するのも著作権者の許可を取る必要なし
※もちろんデータ解析という本来の目的外に使用されることが明らかなら違法なので、漫画データの学習のためと謳って漫画スキャン画像を公開するとかはNG

ということで、明らかに悪用するような使い方でない限りデータ解析において著作権を気にする必要はない

2018/10/07(日) 14:39:39.25

日本の会社はそもそもデータが足りていないらしい
今まで何をやっていたのか

https://www.nikkei.com/article/DGXMZO35932210Q8A930C1MM8000/

2018/10/07(日) 14:57:55.33

著作権先進国（笑）

2018/10/07(日) 17:38:31.02

医療用プログラムは医療用機器つくってた会社しかつくれないように規制されてるから入れん
認可とるのも大金かかるし

2018/10/07(日) 20:31:31.21

GANのdiscriminatorの次元減らしていくのに全結合無い方がいい理由ってなんで？

2018/10/07(日) 20:35:00.63

DCGANの話です

2018/10/07(日) 20:45:05.75

>>708
個人情報を収集するときに
利用目的や利用の範囲とかを示して
合意して貰えばいいだけじゃね？
おと要求に応じて開示修正破棄できるようなシステムにしておく
ほかの個人情報でも同じ

2018/10/07(日) 21:24:55.65

https://arxiv.org/pdf/1312.4400.pdf
> 3.2 Global Average Pooling

> ・・・
> However, the fully connected layers are prone to overfitting, thus hampering the generalization ability
> of the overall network. Dropout is proposed by Hinton et al. [5] as a regularizer which randomly
> sets half of the activations to the fully connected layers to zero during training. It has improved the
> generalization ability and largely prevents overfitting [4].

> In this paper, we propose another strategy called global average pooling to replace the traditional
> fully connected layers in CNN.

2018/10/07(日) 21:52:22.17

>>718
全結合いれたら汎化性が落ちるから他の方法でってことか
ありがとう

2018/10/08(月) 11:31:11.61

そろそろ大目玉か
https://www.anaconda.com/blog/developer-blog/tensorflow-in-anaconda/

2018/10/08(月) 11:41:22.65

なんと！あのアナコンダが！
っていうほどのもんじゃないな

2018/10/08(月) 11:44:43.55

>>717
これから集める分ならそうだろうな
でも今まで蓄積してきたデータは？
契約上使っても問題ないデータが十分集まる頃にはとっくに置いてかれている

2018/10/08(月) 13:07:36.75

>>722
再確認すれば良い
利用規約の改定とか普通によくあることじゃね？

2018/10/08(月) 14:02:39.08

>>723
その再確認を既に退院した人含めて一人一人にするのは結構大変なのでは

2018/10/08(月) 14:31:20.58

arxivのML・DL論文読んでて、日本人の論文少ないよね

2018/10/08(月) 15:01:42.20

意味不明な日本語を使う奴に言われてもｗ

2018/10/08(月) 21:08:44.54

英語でわざわざ論文書くのがめんどくさい

2018/10/08(月) 22:37:44.37

外人嫌いだし

2018/10/09(火) 08:09:06.14

>>724
新たに同等のデータを取るのに比べたら手軽じゃね？
現状の法律でも個人情報の開示や削除要請には応じる必要があるからその準備はできているはず

2018/10/09(火) 23:49:18.73

分類するときにA,B,C,その他みたいに分類できるアルゴってないですか？
学習してない似たやつをどや顔で間違えて分類するのでなんとかしたい

2018/10/10(水) 00:05:38.82

何回同じ話ししてるんだよw

2018/10/10(水) 00:28:20.33

one vs allかone vs restで検索
もしこれで分類できないならそもそも使っている特徴量的にA,B,Cとその他が区別できていないのだろうから特徴量の選定からやり直す

2018/10/10(水) 00:36:06.65

このネタ同じ人？

2018/10/10(水) 22:38:14.62

http://www.atmarkit.co.jp/ait/spv/1810/10/news009.html

2018/10/10(水) 23:37:18.54

文系ＰＧ抱えてる会社を食い物にしてる商売多すぎぃ

2018/10/10(水) 23:58:52.97

>>735
文系PGを抱えてる会社を食い物にする商売ってどんなの？

2018/10/11(木) 00:28:18.10

PGに文系もくそもねぇｗｗｗ

2018/10/11(木) 12:18:02.31

土方PGで大儲け（過去形）

2018/10/11(木) 13:19:56.51

AI（人工知能）で既存のホワイトカラーの仕事がなくなっていく一方、
孫正義が言うように「AIのエンジニア」の需要は増加する。

そこで画像生成について学習してるんだが、
DCGANは知ってたけどCycleGANというものがあることを知った。
CycleGANはかなり面白そうだったので、

自前で人工知能作ろうと思う。
GTX1080で3時間学習させたCycleGANがあったんだが、
男性のトーク動画を女性に変換しててすごいと思った。

これから購入するパソコンのスペックはGTX1080以上あればいいかな？

2018/10/11(木) 14:28:42.63

http://www.atmarkit.co.jp/ait/spv/1810/10/news039.html

2018/10/11(木) 14:31:15.98

アトラクター？
ポアンカレ断面の不動点でも求めてんのかね

2018/10/11(木) 15:17:36.46

孫正義（笑）、Nスペ見るの止めた

2018/10/11(木) 15:46:57.01

これからの時代、人とのコミュニケーションを鍛えた方が生き残れると思うよ

2018/10/11(木) 16:57:44.01

小学生並みの感想

2018/10/11(木) 20:26:53.34

メモリ8GBでやってたら訓練データメモリに載せるだけでPCカックカクでわろた
一応モデルとバッチはGPUのメモリが足りてるからいいけど訓練データ増えたらきついな

2018/10/11(木) 21:10:29.30

tensorflowなら訓練データをtfrecordにして非同期読み込みすることで解決できるけど

2018/10/11(木) 22:57:22.95

もちろんTFRecord にしてもいいけど、
クラウドでやれば最低でも50GB くらいはメモリついてるぞ

2018/10/13(土) 01:09:59.51

訓練データ全部メモリに乗せてやるなんてMNISTくらいでは

2018/10/13(土) 02:24:00.24

前処理段階でメモリ食うことは良くある

2018/10/13(土) 07:45:13.94

GANを勉強してるんだけど識別者の方は基本的に偽物だと判別し続けるってことで合ってる？

2018/10/13(土) 10:31:45.96

>>750
本物を本物と言えることも必要

2018/10/13(土) 11:04:08.69

>>751
じゃあどうやって識別者は学習していくの？
教師ありではないんだよね

2018/10/13(土) 12:02:40.35

>>752
ジェネレータが生成したデータか本物のデータかってラベルはGANの枠組みとして付けられるよね
GAN自体は教師なしだけど、識別者はこのラベルを使って教師あり学習する

2018/10/13(土) 12:44:21.13

識別側の学習には教師ラベルを使ってるってこと？
識別の学習では普通の分類NNのように本物の画像と正解ラベルを使ってそれらが本物であることを学習させていくってことか
じゃあ生成側の学習はどういうしくみ？

2018/10/13(土) 12:46:04.58

>>753
安価つけ忘れた
ID変わったけど>>752です

2018/10/13(土) 12:50:36.89

>>754
識別側はデータが本物なら1、偽物なら0を出力するように学習するので、生成側は自分が出力した画像に対して識別側に1を出力させるように学習する

2018/10/13(土) 23:46:17.79

>>750
偽物だと判別し続けるモデルに何の価値がある？何にも判別してないではないか？
言ってておかしいと思わないのか？

2018/10/14(日) 00:18:48.06

GCPのAutoMLを利用しようと思ったんですけど、プロジェクトを選んでSET UP NOW押すとCustomer bucket missingって出てセットアップ完了しないのですが、今ってAutoML使えないんですか？

2018/10/14(日) 00:27:21.52

自己解決
自分で "プロジェクト名-vcm"のバケット作ったら行けました
何故自動で作ってくれないのか…

2018/10/15(月) 17:10:25.47

CNNの分類による検出器の作り方ですが、
例えばドラレコの映像から人を検出したいとして、
例えば映像を適当な矩形でラスターして人か否かの2出力CNNにかける場合、
学習時にネガティブとして与える映像はどうすればよいですか？
人以外のあらゆる一般物体を集めてきてネガティブにすれば効果が高いのでしょうか？

**デフォルトの名無しさん** (JP 0Hab-4Hut) · 2018/10/15(月) 17:26:36.70

>>760
それだと分類じゃなくて
YoloとかSSDとか検出器使ったほうがよくない？

2018/10/15(月) 17:33:34.17

自動運転ってyoloとかでオブジェクトを単体で視認したあとってif文とかでやってるのそれとも論理プログラミングとか？

2018/10/15(月) 17:55:37.84

強化学習

2018/10/15(月) 17:58:33.61

>>761
検出器を使っていない理由は画像全体にラベリングしたいからです。
それだとsegnetとかをファインチューニングしろ、と言われそうですが
ピクセル単位のラベル付けが困難なためです。
結局のところsegnetのようなものをCNN分類を矩形走査することで画像単位ラベルのデータセットのみで作ってみたいということです。

2018/10/15(月) 18:19:52.50

>763
あーそうだよね。その存在が脳からドロップアウトしてたわ、ありがとう

2018/10/15(月) 20:07:31.69

BERTの成功とその方向性から垣間見える
脳構造の模倣における連続的時間情報の把握の重要性
俺が>>650で指摘している状態

＞おそらくは完璧を求めると
＞階層的にAttentionによる時間情報とポジション付与をしつつ、それらを考慮したCNNで畳み込み
＞なおかつそれらすべての層を参照しながら、動的に再帰的処理する必要性がある
＞これにGAN的な世界モデルによる強化学習手法を取り入れれば汎用AIができるだろう

これとBERTで使われている、transformerよりも更に多層化して各層の参照密度を増したAttentionとの間に
共通性を認識できる人がいれば、俺の言い分を理解してもらえるだろう

2018/10/15(月) 20:39:32.75

深層学習の話ばっかりだなあ。

2018/10/15(月) 21:31:32.65

　私たち日本人の、日本国憲法を改正しましょう。
総ム省の、『憲法改正國民投票法』、でググって
みてください。拡散も含め、お願い致します。

2018/10/15(月) 23:56:03.72

>>767
じゃあ違うネタ出してみるとか

確率モデルのpythonライブラリは何使うのが良いかしら

**デフォルトの名無しさん** (JP 0Hab-4Hut) · 2018/10/16(火) 10:26:37.31

>>764
画像全体にラベリングってマルチラベリングしたいってこと？
yoloもssdもラベル作成は矩形単位だよ

2018/10/16(火) 11:20:41.82

>>770
例えば、
2cm四方の正方形の画像があった場合
その正方形を1cmの正方形で4分割して
分割した4枚それぞれの正方形の画像が人か人でないか分類したい、
ということです。

**デフォルトの名無しさん** (JP 0Hab-4Hut) · 2018/10/16(火) 11:48:54.78

>>771
その分割から分類までやってくれるのが
まさにyoloとかssdなんだけど
だめなの？

2018/10/16(火) 15:38:43.59

そこんとこyoloしく

2018/10/16(火) 18:17:43.89

>>772
すいませんちょっと質問の仕方を変えさせていただきます。
入力画像に対して「犬」、「猫」、「それ以外」の3クラスで分類を行いたい場合、
「それ以外」のクラスとしてどのようなデータセットを与えるべきでしょうか？

2018/10/16(火) 18:25:20.10

one
near
threeee

2018/10/16(火) 18:49:53.13

与えないという手もあります

2018/10/16(火) 19:13:11.22

cifar-10やimagenetの犬猫以外のクラスを与えたら？

2018/10/16(火) 19:50:22.81

この質問２ヶ月くらい続いてるやつではｗ

2018/10/16(火) 19:51:50.12

>>774
>「それ以外」のクラスとして
2クラス分類で
犬　 1 0
猫　　 0 1
それ以外 0 0
とする。やったことないけど。

2018/10/16(火) 20:00:36.33

データセットって訓練データとテストデータに分けるんだな

2018/10/16(火) 20:00:36.96

>>779
確率として解釈出来なくなるから
犬 100
猫 010
他 001
とすべき

2018/10/16(火) 20:07:12.15

>>777
与えた結果よい成果を生んだ参考文献か何かはありますでしょうか？
直感ですと特徴を捉えきれないと思うのですが上手く作用したりするのですかね。

>>779
そんなラベルの付け方もあるのですか？？
出力層の正規化はどうやるのでしょうか？

2018/10/16(火) 22:36:45.28

>>782
文献は知らないけど
スクラッチで学習するんじゃなくGoogLeNetとかをファインチューニングしたらどうかな

2018/10/17(水) 00:11:27.64

>>778
同じ話しを延々とやってるわな、根本的に向いてないわ

2018/10/17(水) 01:24:59.40

ゴチャゴチャ言ってるけど、実験結果とか全然書かないんだもんw

**デフォルトの名無しさん** (JP 0Hab-4Hut) · 2018/10/17(水) 09:22:23.63

>>774
yoloとかssdなら犬検出、猫検出
どちらも検出しないで3クラス分類できるよ
それ以外のデータセットなんていらない

2018/10/17(水) 18:06:30.59

実験結果
CPU使用

MNISTでソフトマックス関数使ってやってみた結果
100エポック
92%

フィードフォワードネットワーク利用
300エポック
98％

MNISTぐらいならCPUでもそこまで時間かからないな
人工知能用にPC買う予定だけど
GPU使用が楽しみだ