【統計分析】機械学習・データマイニング20

■ このスレッドは過去ログ倉庫に格納されています
2018/08/07(火) 18:56:37.59ID:sGPH9ejna
機械学習とデータマイニングについて何でもいいので語れ若人

※ワッチョイだよん

次スレ立ての際は、一行目冒頭に
!extend:on:vvvvv:1000:512つけてね

■関連サイト
機械学習の「朱鷺の杜Wiki」
http://ibisforest.org/
DeepLearning研究 2016年のまとめ
http://qiita.com/eve_yk/items/f4b274da7042cba1ba76

■前スレ
【統計分析】機械学習・データマイニング19
http://mevius.2ch.net/test/read.cgi/tech/1520586585/
VIPQ2_EXTDAT: default:vvvvv:1000:512:----: EXT was configured
2018/10/03(水) 15:06:45.43ID:6o3Z2FT6a
ニューラルネットワークなんて回帰を多層にしただけの超単純構造
2018/10/03(水) 15:13:09.66ID:sMpk7EKP0
>>653
はったり、生物の進化淘汰なんかどこにもない
2018/10/03(水) 17:49:41.29ID:+58IDnbyd
大事なことなので復唱します。

世に広めるにはイメージが大事です。
ただ研究者はイメージで研究してはダメです。

研究者の中には、脳モデルが最適かどうかという前提を何も示さずに、
『脳の伝達には〜があるから○○を追加したらこうなるはず』
みたいな議論されている方々がおりますが、根拠が薄く滑稽に思います。
657デフォルトの名無しさん (ワッチョイ 17d2-ZVm4)
垢版 |
2018/10/03(水) 17:57:56.16ID:Oh5w9UQA0
>>653
AI関連の話題は、タイトルは大げさなんだけど内容はショボいよね。
俺は頑張りますよ!
2018/10/03(水) 18:01:02.58ID:3Ieh8Fw3a
最適かどうかは完成物があれば評価できるんだからいいでしょ
そもそも分からないから研究して新しいモデルを作るわけで
最初から何が最適か知っている人がいてそれを論理的に説明できるのならばとっくにそれがスタンダードになっているはずだがそうはなっていないんだから最適など誰も知らないと考えるのが自然
2018/10/03(水) 18:05:20.45ID:+58IDnbyd
つまりはまあ、最近の機械学習の論文なんて実績と経験則の積み上げ(帰納)によるものがほとんど。
より良きモデルからスタートしたモデルのアイデア(演繹)を求む
2018/10/03(水) 18:10:02.59ID:+58IDnbyd
アイデアと結果はあるのだかどうやって世に広めたらよい?
661デフォルトの名無しさん (ワッチョイ 9fda-aQox)
垢版 |
2018/10/03(水) 19:13:50.43ID:+7Euz2g60
結果あるなら論文書いてarxivに投稿すりゃいいじゃん
高校生ですらMLの論文書いて投稿してたの昨年話題になったろ
2018/10/03(水) 19:49:21.65ID:+58IDnbyd
とんくす
2018/10/03(水) 20:20:45.13ID:/V77wCG20
くず
664デフォルトの名無しさん (アウアウエー Sadf-jt0n)
垢版 |
2018/10/03(水) 20:46:41.49ID:YGFwuNMda
>>654
単純構造で目的を達成できるならそれでいいんじゃないの?
必要以上に複雑にして何かメリットあるの?
665デフォルトの名無しさん (アウアウエー Sadf-jt0n)
垢版 |
2018/10/03(水) 20:48:04.20ID:YGFwuNMda
>>656
既に実現されてるものを真似するのは方法の一つじゃない?
バイオミメティクスとか
666デフォルトの名無しさん (アウアウエー Sadf-jt0n)
垢版 |
2018/10/03(水) 20:49:11.35ID:YGFwuNMda
>>656
最適かどうかは評価尺度によるところもある
経済的になのか学習コスト的になのか結果の精度的になのかとか
667デフォルトの名無しさん (アウアウエー Sadf-jt0n)
垢版 |
2018/10/03(水) 20:50:21.87ID:YGFwuNMda
>>659
結果が全てじゃね?
モデルを頭で考えても実証しなければ役に立たない
数学とは違うんじゃね?
668デフォルトの名無しさん (アウアウエー Sadf-jt0n)
垢版 |
2018/10/03(水) 20:52:26.70ID:YGFwuNMda
>>660
それが何の役に立つのかとか
どんな課題を解決できるのかとか
あとは面白いかどうかとか
ARの技術もスノーとかに応用することで一般の人は知らずに広まっている
2018/10/03(水) 21:20:45.12ID:nJKVxi/i0
>>665-668
だからそれは問題に対する帰納的なアプローチだってば。
マイナーチェンジでしかパワーアップ出来ない。
2018/10/03(水) 21:23:50.17ID:nJKVxi/i0
また一概には言えないかもしれないが、結果がローカルなものになりがち
671デフォルトの名無しさん (ワッチョイ 9fda-aQox)
垢版 |
2018/10/03(水) 21:59:40.34ID:+7Euz2g60
そもそも、ある程度iter重ねるか、少数サンプルで訓練した結果をプロットしつつ
新しいモデルを模索してくのが、今のMLにおける超大多数の手法であって
最初から論理的組み立て部分で有効性を実証してから研究始めるなんて手法は
明らかにメジャーではない

取り敢えず予測モデルで雑なコーディングして、訓練結果をプロットしてみてから
数理モデルの有効性に論理的説明をつけるって手法がメインなのは
有用な結果を残してる論文の内容からも分かる話

ほとんどだーれも論理的説明を完璧に付けてから研究開始なんざしてない
+58IDnbydの論理展開を適用すると、全員滑稽になっちまわないか?
そういう意味で、既に有効性の確認されている脳っていうクソ速いモデルを模倣するっていうのは
その時点である程度の論理的根拠を示しているとすら言える
2018/10/03(水) 22:50:21.46ID:nJKVxi/i0
>>671
別にメジャーじゃなくてよい
2018/10/03(水) 23:45:59.60ID:23QaCALXd
pytorchのdevcon見たけど、想像以上に大企業がサポートしてて驚いたわ
2018/10/04(木) 02:41:08.39ID:pZO9AOgra
見てみたけど、グローバルなAI 企業オールスターって感じか。
もっとも作ってるのが FBだから別に不思議でもないけど
675デフォルトの名無しさん (アウアウエー Sa6a-VI3z)
垢版 |
2018/10/04(木) 08:08:02.24ID:WxW/ujNfa
>>669
帰納的なアプローチがなぜダメだと判断でしているのか判らない
帰納的に発見した原理を演繹的に適用すれば良いだけじゃね?
676デフォルトの名無しさん (アウアウエー Sa6a-VI3z)
垢版 |
2018/10/04(木) 08:09:50.53ID:WxW/ujNfa
>>671
帰納的に探索する領域の問題でしかないだろ

演繹的に適用する原理に相当するものはどこから発見するのか
2018/10/04(木) 09:59:48.56ID:s8ye5l4L0
>>674
chainerは消えゆく運命だな
678デフォルトの名無しさん (アウアウエー Sa6a-TFgJ)
垢版 |
2018/10/04(木) 10:14:52.99ID:AR+RrRuFa
好きなんだがなあchainer
679デフォルトの名無しさん (シャチーク 0Cde-XM+q)
垢版 |
2018/10/04(木) 12:34:16.99ID:zfP46g3nC
Google Colaboratoryで
!apt -y install libcusparse8.0 libnvrtc8.0 libnvtoolsext1
ができなくなったのだがどうしたらいいのか
680デフォルトの名無しさん (JP 0H9a-2jv+)
垢版 |
2018/10/04(木) 16:03:33.77ID:ux982JKKH
演繹厨うぜえ
2018/10/04(木) 16:06:35.89ID:U2kQDcc/D
>>677-678
tensorflow vs pytorch の構図が完全できちゃったんで他のフレームワークはどれも厳しいけど、
tf の独占を阻止できたのは良かったと思う。 tf が pytorch を滅茶意識してて笑えるw
2018/10/04(木) 21:40:33.09ID:OD7dB/YO0
vs?
683デフォルトの名無しさん (フリッテル MM5e-DXVT)
垢版 |
2018/10/04(木) 22:39:26.90ID:ktsy0FKAM
visual studio
2018/10/04(木) 22:49:09.65ID:Y2bv5t2ed
>>678
良くも悪くも学生の趣味の域をこえてないのが残念。こえる気もないのかもしれんが
2018/10/04(木) 23:03:51.17ID:Y2bv5t2ed
>>681
2.0 はもろにそうだな
2018/10/05(金) 08:18:57.73ID:cSK7i/nT0
NVIDIA RTX 2080 Ti vs 2080 vs 1080 Ti vs Titan V, TensorFlow Performance with CUDA 10.0

https://www.pugetsystems.com/labs/hpc/NVIDIA-RTX-2080-Ti-vs-2080-vs-1080-Ti-vs-Titan-V-TensorFlow-Performance-with-CUDA-10-0-1247/

1080Tiと2080Ti比べるとFP32は1.35倍くらいでゲームのベンチ(レイトレコア・テンサーコア使わない場合)と同じ傾向でガッカリ
FP16ならさすがに速いね
https://i.imgur.com/Dq30VnF.jpg
https://i.imgur.com/2TIiMYA.jpg
687デフォルトの名無しさん (アウアウエー Sa6a-TFgJ)
垢版 |
2018/10/05(金) 10:48:01.81ID:kmGDPqXya
>>684
マルチGPUの分散学習はChainerが速いらしいから頑張ってほしい
2018/10/05(金) 10:49:42.25ID:df1WW8w8d
頑張ります
2018/10/05(金) 14:37:40.34ID:gTNPCIlY0
えいえいおー!
2018/10/06(土) 11:03:04.25ID:BbA86mG7a
>>687
TPUも作れるといいね(棒)
691デフォルトの名無しさん (ワッチョイ d42c-3sDw)
垢版 |
2018/10/06(土) 11:16:45.87ID:KmIbUzui0
NHK教育を見て56088倍賢く三連休
http://nhk2.5ch.net/test/read.cgi/liveetv/1538780245/
2018/10/06(土) 11:26:12.82ID:BbA86mG7a
>>686
もう CUDA 10.0 かよ…
2018/10/06(土) 15:40:12.76ID:638PEvttp
会社の技術発表で機械学習をやってみたいんだけど、
例えば、複数ユーザーのツイートを元に学習したアカウントで人間っぽく自動ツイートする、みたいなことって可能ですかね?
使用したことある言語はjavaくらいで、Pythonとかは始めてなんですけど
694デフォルトの名無しさん (ワッチョイ 5123-HYg0)
垢版 |
2018/10/06(土) 15:55:25.36ID:XsiX8sgh0
可能
2018/10/06(土) 16:33:50.86ID:638PEvttp
>>694
よっしゃ、ありがとうございます
1ヶ月あればなんとかなるかな、頑張ってみます
696デフォルトの名無しさん (アウアウエー Sa6a-VI3z)
垢版 |
2018/10/06(土) 20:05:00.50ID:higGMxdEa
>>695
ところで業務にはどう役に立つのかね?
って言われそう
2018/10/06(土) 20:07:01.15ID:ID0TniNM0
日立なんかは一年目に技術発表会やると聞いた。上の人がどこの人か知らんけど
2018/10/06(土) 20:27:28.89ID:638PEvttp
>>696
自分が興味あることを発表する、みたいな場だから業務に役立つかどうかは大丈夫
ゲーム作ってきたやつもいたし
2018/10/06(土) 23:01:16.24ID:b45hR0RV0
>>698
著作権的にいいのかな?社内向けとはいえそれをツイートまでするのはアウトな気がする。
自分のアカウントを2つ作ってやるならいいだろうけど。
2018/10/07(日) 00:40:28.21ID:ZjjgaVC7d
日本の会社はぬるくて羨ましいなw
2018/10/07(日) 00:41:29.35ID:frJT0RqLa
Twitterはツイートした時点でその内容を誰がどう使ってもいいよ、っていう規約だったはずだから権利侵害とかの問題はないだろう
2018/10/07(日) 00:47:51.09ID:ocS+GJlU0
独学で機械学習やってるけど、おっさんの腐った脳味噌じゃもうダメだな
大学入り直すか
703デフォルトの名無しさん (ブーイモ MM5a-HYg0)
垢版 |
2018/10/07(日) 00:53:53.77ID:o9Iuox3HM
2chの方が著作権移動が厳しい
2018/10/07(日) 01:05:46.09ID:pVH0KbtN0
CS系の大学の講座取ってみたい
705デフォルトの名無しさん (アウアウエー Sa6a-VI3z)
垢版 |
2018/10/07(日) 05:08:20.65ID:xO6NYQqFa
>>701
著作権で言えば
著作者人格権とか著作権に関する権利の一部は
日本の法律ではなくならないはず
2018/10/07(日) 08:15:30.42ID:aHxIGRZV0
そもそも、機械学習で生成されたデータが
元にしたデータの著作権侵害になるという法律屋の指摘に違和感を感じる
2018/10/07(日) 10:47:04.83ID:uEzOl35Aa
日本は法律面で先進国としては非常に珍しい機械学習パラダイスなんだぞ

進化する機械学習パラダイス 〜改正著作権法が日本のAI開発をさらに加速する〜
https://storialaw.jp/blog/4936
708デフォルトの名無しさん (オッペケ Sr10-TFgJ)
垢版 |
2018/10/07(日) 11:49:44.59ID:KWtYBJ31r
個人情報保護とかで医療関連はデータ集めるのが大変だそうな
2018/10/07(日) 13:26:13.70ID:cOS3eGIea
その辺りは医療機関自体がデータサイエンティスト雇うか業務提携するしかないだろう
2018/10/07(日) 14:08:13.17ID:pVH0KbtN0
ワイのレントゲン写真使うなら肖像権高うつきまっせ
2018/10/07(日) 14:14:45.59ID:cOS3eGIea
>>707
つまりこういうことだな
現在:「学習用データ収集→諸々の処理→学習モデル作成」を個人や自社だけで完結させる場合は商用・非商用問わず著作権者の許可を取る必要なし
2019/1/1以降:収集した学習用データを他人・他社に公開・販売するのも著作権者の許可を取る必要なし
※もちろんデータ解析という本来の目的外に使用されることが明らかなら違法なので、漫画データの学習のためと謳って漫画スキャン画像を公開するとかはNG

ということで、明らかに悪用するような使い方でない限りデータ解析において著作権を気にする必要はない
2018/10/07(日) 14:39:39.25ID:oKeY0xEK0
日本の会社はそもそもデータが足りていないらしい
今まで何をやっていたのか

https://www.nikkei.com/article/DGXMZO35932210Q8A930C1MM8000/
2018/10/07(日) 14:57:55.33ID:pk8THtng0
著作権先進国(笑)
2018/10/07(日) 17:38:31.02ID:QNVjJiYJ0
医療用プログラムは医療用機器つくってた会社しかつくれないように規制されてるから入れん
認可とるのも大金かかるし
2018/10/07(日) 20:31:31.21ID:JgS2v7in0
GANのdiscriminatorの次元減らしていくのに全結合無い方がいい理由ってなんで?
2018/10/07(日) 20:35:00.63ID:JgS2v7in0
DCGANの話です
717デフォルトの名無しさん (アウアウエー Sa6a-VI3z)
垢版 |
2018/10/07(日) 20:45:05.75ID:RqIyj36Sa
>>708
個人情報を収集するときに
利用目的や利用の範囲とかを示して
合意して貰えばいいだけじゃね?
おと要求に応じて開示修正破棄できるようなシステムにしておく
ほかの個人情報でも同じ
718デフォルトの名無しさん (ワッチョイ d980-A6IM)
垢版 |
2018/10/07(日) 21:24:55.65ID:mIq+f5AO0
https://arxiv.org/pdf/1312.4400.pdf
> 3.2 Global Average Pooling

> ・・・
> However, the fully connected layers are prone to overfitting, thus hampering the generalization ability
> of the overall network. Dropout is proposed by Hinton et al. [5] as a regularizer which randomly
> sets half of the activations to the fully connected layers to zero during training. It has improved the
> generalization ability and largely prevents overfitting [4].

> In this paper, we propose another strategy called global average pooling to replace the traditional
> fully connected layers in CNN.
2018/10/07(日) 21:52:22.17ID:7A10mDJxa
>>718
全結合いれたら汎化性が落ちるから他の方法でってことか
ありがとう
720デフォルトの名無しさん (アウウィフ FF3a-HYg0)
垢版 |
2018/10/08(月) 11:31:11.61ID:+5qyKWRvF
そろそろ大目玉か
https://www.anaconda.com/blog/developer-blog/tensorflow-in-anaconda/
2018/10/08(月) 11:41:22.65ID:99LuQJTy0
なんと!あのアナコンダが!
っていうほどのもんじゃないな
722デフォルトの名無しさん (アウアウエー Sa6a-TFgJ)
垢版 |
2018/10/08(月) 11:44:43.55ID:tjiQ7o9Aa
>>717
これから集める分ならそうだろうな
でも今まで蓄積してきたデータは?
契約上使っても問題ないデータが十分集まる頃にはとっくに置いてかれている
723デフォルトの名無しさん (アウアウエー Sa6a-VI3z)
垢版 |
2018/10/08(月) 13:07:36.75ID:DvqFh1SLa
>>722
再確認すれば良い
利用規約の改定とか普通によくあることじゃね?
724デフォルトの名無しさん (アウアウエー Sa6a-TFgJ)
垢版 |
2018/10/08(月) 14:02:39.08ID:tjiQ7o9Aa
>>723
その再確認を既に退院した人含めて一人一人にするのは結構大変なのでは
2018/10/08(月) 14:31:20.58ID:4tTMXMXFM
arxivのML・DL論文読んでて、日本人の論文少ないよね
2018/10/08(月) 15:01:42.20ID:aB+juQlj0
意味不明な日本語を使う奴に言われてもw
2018/10/08(月) 21:08:44.54ID:ND0ntmkA0
英語でわざわざ論文書くのがめんどくさい
2018/10/08(月) 22:37:44.37ID:6UIbz9ua0
外人嫌いだし
729デフォルトの名無しさん (アウアウエー Sa6a-VI3z)
垢版 |
2018/10/09(火) 08:09:06.14ID:CcNKGFP6a
>>724
新たに同等のデータを取るのに比べたら手軽じゃね?
現状の法律でも個人情報の開示や削除要請には応じる必要があるからその準備はできているはず
2018/10/09(火) 23:49:18.73ID:++HOLxfb0
分類するときにA,B,C,その他みたいに分類できるアルゴってないですか?
学習してない似たやつをどや顔で間違えて分類するのでなんとかしたい
2018/10/10(水) 00:05:38.82ID:RHyHT8b9d
何回同じ話ししてるんだよw
2018/10/10(水) 00:28:20.33ID:egfM8dTJa
one vs allかone vs restで検索
もしこれで分類できないならそもそも使っている特徴量的にA,B,Cとその他が区別できていないのだろうから特徴量の選定からやり直す
2018/10/10(水) 00:36:06.65ID:FD95EKzWa
このネタ同じ人?
2018/10/10(水) 22:38:14.62ID:3fNWNg5+0
http://www.atmarkit.co.jp/ait/spv/1810/10/news009.html
2018/10/10(水) 23:37:18.54ID:CBzJzHEZ0
文系PG抱えてる会社を食い物にしてる商売多すぎぃ
2018/10/10(水) 23:58:52.97ID:Z3r4I6WRd
>>735
文系PGを抱えてる会社を食い物にする商売ってどんなの?
2018/10/11(木) 00:28:18.10ID:DY6agtqn0
PGに文系もくそもねぇwww
2018/10/11(木) 12:18:02.31ID:vTh9hgF00
土方PGで大儲け(過去形)
2018/10/11(木) 13:19:56.51ID:WWqvoXS50
AI(人工知能)で既存のホワイトカラーの仕事がなくなっていく一方、
孫正義が言うように「AIのエンジニア」の需要は増加する。

そこで画像生成について学習してるんだが、
DCGANは知ってたけどCycleGANというものがあることを知った。
CycleGANはかなり面白そうだったので、

自前で人工知能作ろうと思う。
GTX1080で3時間学習させたCycleGANがあったんだが、
男性のトーク動画を女性に変換しててすごいと思った。

これから購入するパソコンのスペックはGTX1080以上あればいいかな?
2018/10/11(木) 14:28:42.63ID:jOTiaxUqd
http://www.atmarkit.co.jp/ait/spv/1810/10/news039.html
2018/10/11(木) 14:31:15.98ID:jOTiaxUqd
アトラクター?
ポアンカレ断面の不動点でも求めてんのかね
2018/10/11(木) 15:17:36.46ID:ZiWr81AM0
孫正義(笑)、Nスペ見るの止めた
2018/10/11(木) 15:46:57.01ID:jc3fQN7m0
これからの時代、人とのコミュニケーションを鍛えた方が生き残れると思うよ
2018/10/11(木) 16:57:44.01ID:HpbFK8lR0
小学生並みの感想
2018/10/11(木) 20:26:53.34ID:CtLR6CRw0
メモリ8GBでやってたら訓練データメモリに載せるだけでPCカックカクでわろた
一応モデルとバッチはGPUのメモリが足りてるからいいけど訓練データ増えたらきついな
2018/10/11(木) 21:10:29.30ID:1ID+fdJTF
tensorflowなら訓練データをtfrecordにして非同期読み込みすることで解決できるけど
2018/10/11(木) 22:57:22.95ID:4qCh5/Foa
もちろんTFRecord にしてもいいけど、
クラウドでやれば最低でも50GB くらいはメモリついてるぞ
748デフォルトの名無しさん (アウアウエー Sa9f-0CBk)
垢版 |
2018/10/13(土) 01:09:59.51ID:I1iISO8ka
訓練データ全部メモリに乗せてやるなんてMNISTくらいでは
2018/10/13(土) 02:24:00.24ID:jEm+mxu1d
前処理段階でメモリ食うことは良くある
2018/10/13(土) 07:45:13.94ID:43imppejM
GANを勉強してるんだけど識別者の方は基本的に偽物だと判別し続けるってことで合ってる?
751デフォルトの名無しさん (アウアウエー Sa9f-0CBk)
垢版 |
2018/10/13(土) 10:31:45.96ID:I1iISO8ka
>>750
本物を本物と言えることも必要
2018/10/13(土) 11:04:08.69ID:43imppejM
>>751
じゃあどうやって識別者は学習していくの?
教師ありではないんだよね
753デフォルトの名無しさん (アウアウエー Sa9f-0CBk)
垢版 |
2018/10/13(土) 12:02:40.35ID:I1iISO8ka
>>752
ジェネレータが生成したデータか本物のデータかってラベルはGANの枠組みとして付けられるよね
GAN自体は教師なしだけど、識別者はこのラベルを使って教師あり学習する
2018/10/13(土) 12:44:21.13ID:Ttma0+8g0
識別側の学習には教師ラベルを使ってるってこと?
識別の学習では普通の分類NNのように本物の画像と正解ラベルを使ってそれらが本物であることを学習させていくってことか
じゃあ生成側の学習はどういうしくみ?
■ このスレッドは過去ログ倉庫に格納されています