X



【統計分析】機械学習・データマイニング20
■ このスレッドは過去ログ倉庫に格納されています
0001デフォルトの名無しさん (アウアウエー Sa5f-Mv1r)垢版2018/08/07(火) 18:56:37.59ID:sGPH9ejna
機械学習とデータマイニングについて何でもいいので語れ若人

※ワッチョイだよん

次スレ立ての際は、一行目冒頭に
!extend:on:vvvvv:1000:512つけてね

■関連サイト
機械学習の「朱鷺の杜Wiki」
http://ibisforest.org/
DeepLearning研究 2016年のまとめ
http://qiita.com/eve_yk/items/f4b274da7042cba1ba76

■前スレ
【統計分析】機械学習・データマイニング19
http://mevius.2ch.net/test/read.cgi/tech/1520586585/
VIPQ2_EXTDAT: default:vvvvv:1000:512:----: EXT was configured
0626デフォルトの名無しさん (アウウィフ FFdb-+W5L)垢版2018/10/02(火) 10:08:44.43ID:+xKncks4F
本屋の棚は賑わってるが粗製乱造
0627デフォルトの名無しさん (ワッチョイ 9fda-aQox)垢版2018/10/02(火) 14:00:24.78ID:2AKCrptK0
ネットに同等以上の記事はいくらでもあるけど
情報まとまってるし、時間ない初学者が買うのはあり
でも電子版じゃないとjupyterやcolabで手動かしながらやるのだるいから
実本はあまり勧めないな

つってもどんどん技術が陳腐化してくから、MLの基本とCNN,RNN,LSTM,GAN,Attentionの概要だけ身につけたら
あとはdeepmindのサイトと論文全部読んで
arxivでsota達成したのだけ数カ月分読むほうがトレンドを追いかけるには手っ取り早い

実装がメインなら論文追わずにKerasやっとけ
すごいのでたらそのうちKerasにも実装されるから
それ使えってのが俺の結論
0629デフォルトの名無しさん (ワッチョイ 572d-tkFK)垢版2018/10/02(火) 15:23:49.58ID:vWOGvfhl0
みなさん、やっぱり、ハイスペックのゲーミングマシンで開発しているの?
0630デフォルトの名無しさん (エムゾネ FFbf-+W5L)垢版2018/10/02(火) 15:43:52.26ID:yDKwoLm6F
うむ
0633デフォルトの名無しさん (ワッチョイ 5723-qD32)垢版2018/10/02(火) 18:13:26.05ID:cO79peqD0
データ量次第としか
0634デフォルトの名無しさん (ワッチョイ 9fda-aQox)垢版2018/10/02(火) 18:41:23.89ID:2AKCrptK0
研究や学習用途ならもうcolabでいいんじゃねーの
TPUまで無料で使えるようになったから最強すぎるわ
ただ12時間超える学習なんかの場合は、途中で保存する処理を作るか
既にある処理を使う必要性がある、Kerasには既にある
tensorflowの低レベルでやる場合は自分で書く必要性あるのかな
Pytorchはまだ触り程度で詳しくないけど、kerasと同じようなライブラリあるならそれ使えばいい

業務やサービスの場合はどうせAWSかGCP,Azure借りるだろ
0636デフォルトの名無しさん (アウアウウー Sadb-VGrh)垢版2018/10/02(火) 20:06:47.65ID:Fw3dw3lVa
sotaという言葉を知らなかったので調べてみてstate of the artの略で直訳すると最先端とかそんな意味だから何となく言いたいことは分かったけど機械学習分野での定義に当たるものが全然見つからない
sota達成とか誰がどうやって決めてるの?
0637デフォルトの名無しさん (ワッチョイ 9fda-aQox)垢版2018/10/02(火) 22:59:32.38ID:2AKCrptK0
>>636
sotaって論文で書いてる連中は
arxivなどのオープンアクセスな論文サイトに投稿されてるコンピューターサイエンスの論文で有用なのはほとんど全部読んでる
だからどれが最高水準かを知ってるから
その分野におけるsota近辺のモデルの論文の結果と比較してsota達成としている
っていうのが俺の認識
論文完璧に追ってる以外にもカンファレンスで情報収集してるってのもあるだろうけど

物理学なんかと違って、ML分野はオープンアクセスな論壇で発展してきたからこうなってるんだろうけど
その辺の事情を追えてない日本人には全くわからん状態なのも仕方ない
0638デフォルトの名無しさん (ワッチョイ 9fda-aQox)垢版2018/10/03(水) 00:45:53.65ID:+7Euz2g60
あぁカンファで同時にsota報告が上がってたんだな
そりゃカンファで採択されるかされないかと
オープンアクセスサイトでの論文公開タイミングは、ものによってはちげーから
いくら先端追ってる連中でも被るのは仕方ない

・GAN的な双方向マルチ学習(自然言語で言うなら敵対的逆翻訳のしあいっこ?)
・特徴に時間間隔とポジション付与
・Attentionの構造改善

この3つが大体の今のトレンドだろ
全部組み合わせたのも半年以内に出てくるだろうけど
結局の所、事象における連続した時間情報の把握と
その状態における時間変化率の学習が上手く出来てないから汎用AIにはなれんだろう

ちゃんとした学者にも俺と似たような事言ってる人いて
脳構造の模倣による時間情報の学習を、哲学的な部分からやろうって言ってる人いるけどどうなるかな
0640デフォルトの名無しさん (ワッチョイ 9f65-i+ik)垢版2018/10/03(水) 01:29:53.26ID:dkrkSoVO0
神経構造なんかは既に解明されてるけど
そうなるとしか分かっていない回路形成の発生学とか
関与しているらしいけど何してるのかいまいち分かっていないグリア細胞とか
こっちの方がモデリングをする上で重要だと思うけどね
今のMLでは生物の機能の一部を模擬してるだけに過ぎない
0643デフォルトの名無しさん (スッップ Sdbf-EJHQ)垢版2018/10/03(水) 12:26:33.96ID:+58IDnbyd
脳モデルはあくまでNN、DL起案者が何をモデルとして数学モデル化したかであり、NN、DLは脳モデルそのものではない。
また、そもそも脳モデルが最適なモデルかどうかはまだ証明が存在しない。

たまたまDLがよい結果出たからそう言われてるだけ。

脳モデルが最適かどうかという前提を何も示さずに、研究者のなかに、『脳の伝達には〜があるから○○を追加したらこうなるはず』みたいな議論されているのを見ると、滑稽に思う。
0648デフォルトの名無しさん (アウアウウー Sadb-VGrh)垢版2018/10/03(水) 12:35:57.50ID:d+kLgL6ia
人間の脳が超省エネで高速に学習して予測結果の出力できているのと比較すると現行モデルは脳と呼ぶにはには程遠いんだけど非理系メディアでは人間の脳を模倣しているなどと喧伝される
0650デフォルトの名無しさん (ワッチョイ 9fda-aQox)垢版2018/10/03(水) 13:20:41.80ID:+7Euz2g60
CSなんて結局は計算能力との兼ね合いだからな
仮に完全に脳構造を模倣したモデルを組み上げたとしても
それがクソ重くて現行の計算資源で回らなけりゃクソだとしか評価されん
かといって脳構造の模倣や考察を放棄するのは適切じゃない
世界モデルもこっちよりだし、強化学習をやるためには避けられないだろう

問題はRNN,LSTMでは事象における連続した時間情報をあまり学習できてないってことだな
TransformerとUTは時間間隔をと位置情報を特徴に埋め込む事で
マルチヘッドセルフattentionにそれらを処理させているが
おそらくは完璧を求めると
階層的にAttentionによる時間情報とポジション付与をしつつ、それらを考慮したCNNで畳み込み
なおかつそれらすべての層を参照しながら、動的に再帰的処理する必要性がある
これにGAN的な世界モデルによる強化学習手法を取り入れれば汎用AIができるだろう
計算力はどうせなんとかなるだろうし
誰かが気づけば、あと10数年で汎用AI完成するんじゃね
0651デフォルトの名無しさん (ワッチョイ 9fda-aQox)垢版2018/10/03(水) 13:29:51.05ID:+7Euz2g60
そもそも脳構造の哲学的推測における模倣はイメージじゃなくて
ただの論理的思考なんだけど
推測の過程において論理が飛躍しすぎてると
大抵の人は妄想だと判断して、考察を放棄する傾向があるからしょうがないわな
それが当たり前だもの
0652デフォルトの名無しさん (アウウィフ FFdb-+W5L)垢版2018/10/03(水) 13:44:52.38ID:oOvr2XyQF
>>646 >>643
小脳とかをラッピングする形で大脳とかがあるように
NN を別の何かでラッピングするようなモデルがあっても
まだ全く脳のモデルですらない
0656デフォルトの名無しさん (スッップ Sdbf-EJHQ)垢版2018/10/03(水) 17:49:41.29ID:+58IDnbyd
大事なことなので復唱します。

世に広めるにはイメージが大事です。
ただ研究者はイメージで研究してはダメです。

研究者の中には、脳モデルが最適かどうかという前提を何も示さずに、
『脳の伝達には〜があるから○○を追加したらこうなるはず』
みたいな議論されている方々がおりますが、根拠が薄く滑稽に思います。
0657デフォルトの名無しさん (ワッチョイ 17d2-ZVm4)垢版2018/10/03(水) 17:57:56.16ID:Oh5w9UQA0
>>653
AI関連の話題は、タイトルは大げさなんだけど内容はショボいよね。
俺は頑張りますよ!
0658デフォルトの名無しさん (アウアウウー Sadb-VGrh)垢版2018/10/03(水) 18:01:02.58ID:3Ieh8Fw3a
最適かどうかは完成物があれば評価できるんだからいいでしょ
そもそも分からないから研究して新しいモデルを作るわけで
最初から何が最適か知っている人がいてそれを論理的に説明できるのならばとっくにそれがスタンダードになっているはずだがそうはなっていないんだから最適など誰も知らないと考えるのが自然
0661デフォルトの名無しさん (ワッチョイ 9fda-aQox)垢版2018/10/03(水) 19:13:50.43ID:+7Euz2g60
結果あるなら論文書いてarxivに投稿すりゃいいじゃん
高校生ですらMLの論文書いて投稿してたの昨年話題になったろ
0664デフォルトの名無しさん (アウアウエー Sadf-jt0n)垢版2018/10/03(水) 20:46:41.49ID:YGFwuNMda
>>654
単純構造で目的を達成できるならそれでいいんじゃないの?
必要以上に複雑にして何かメリットあるの?
0665デフォルトの名無しさん (アウアウエー Sadf-jt0n)垢版2018/10/03(水) 20:48:04.20ID:YGFwuNMda
>>656
既に実現されてるものを真似するのは方法の一つじゃない?
バイオミメティクスとか
0666デフォルトの名無しさん (アウアウエー Sadf-jt0n)垢版2018/10/03(水) 20:49:11.35ID:YGFwuNMda
>>656
最適かどうかは評価尺度によるところもある
経済的になのか学習コスト的になのか結果の精度的になのかとか
0667デフォルトの名無しさん (アウアウエー Sadf-jt0n)垢版2018/10/03(水) 20:50:21.87ID:YGFwuNMda
>>659
結果が全てじゃね?
モデルを頭で考えても実証しなければ役に立たない
数学とは違うんじゃね?
0668デフォルトの名無しさん (アウアウエー Sadf-jt0n)垢版2018/10/03(水) 20:52:26.70ID:YGFwuNMda
>>660
それが何の役に立つのかとか
どんな課題を解決できるのかとか
あとは面白いかどうかとか
ARの技術もスノーとかに応用することで一般の人は知らずに広まっている
0671デフォルトの名無しさん (ワッチョイ 9fda-aQox)垢版2018/10/03(水) 21:59:40.34ID:+7Euz2g60
そもそも、ある程度iter重ねるか、少数サンプルで訓練した結果をプロットしつつ
新しいモデルを模索してくのが、今のMLにおける超大多数の手法であって
最初から論理的組み立て部分で有効性を実証してから研究始めるなんて手法は
明らかにメジャーではない

取り敢えず予測モデルで雑なコーディングして、訓練結果をプロットしてみてから
数理モデルの有効性に論理的説明をつけるって手法がメインなのは
有用な結果を残してる論文の内容からも分かる話

ほとんどだーれも論理的説明を完璧に付けてから研究開始なんざしてない
+58IDnbydの論理展開を適用すると、全員滑稽になっちまわないか?
そういう意味で、既に有効性の確認されている脳っていうクソ速いモデルを模倣するっていうのは
その時点である程度の論理的根拠を示しているとすら言える
0675デフォルトの名無しさん (アウアウエー Sa6a-VI3z)垢版2018/10/04(木) 08:08:02.24ID:WxW/ujNfa
>>669
帰納的なアプローチがなぜダメだと判断でしているのか判らない
帰納的に発見した原理を演繹的に適用すれば良いだけじゃね?
0676デフォルトの名無しさん (アウアウエー Sa6a-VI3z)垢版2018/10/04(木) 08:09:50.53ID:WxW/ujNfa
>>671
帰納的に探索する領域の問題でしかないだろ

演繹的に適用する原理に相当するものはどこから発見するのか
0678デフォルトの名無しさん (アウアウエー Sa6a-TFgJ)垢版2018/10/04(木) 10:14:52.99ID:AR+RrRuFa
好きなんだがなあchainer
0679デフォルトの名無しさん (シャチーク 0Cde-XM+q)垢版2018/10/04(木) 12:34:16.99ID:zfP46g3nC
Google Colaboratoryで
!apt -y install libcusparse8.0 libnvrtc8.0 libnvtoolsext1
ができなくなったのだがどうしたらいいのか
0680デフォルトの名無しさん (JP 0H9a-2jv+)垢版2018/10/04(木) 16:03:33.77ID:ux982JKKH
演繹厨うぜえ
0683デフォルトの名無しさん (フリッテル MM5e-DXVT)垢版2018/10/04(木) 22:39:26.90ID:ktsy0FKAM
visual studio
0686デフォルトの名無しさん (ワッチョイ 01b3-hMf/)垢版2018/10/05(金) 08:18:57.73ID:cSK7i/nT0
NVIDIA RTX 2080 Ti vs 2080 vs 1080 Ti vs Titan V, TensorFlow Performance with CUDA 10.0

https://www.pugetsystems.com/labs/hpc/NVIDIA-RTX-2080-Ti-vs-2080-vs-1080-Ti-vs-Titan-V-TensorFlow-Performance-with-CUDA-10-0-1247/

1080Tiと2080Ti比べるとFP32は1.35倍くらいでゲームのベンチ(レイトレコア・テンサーコア使わない場合)と同じ傾向でガッカリ
FP16ならさすがに速いね
https://i.imgur.com/Dq30VnF.jpg
https://i.imgur.com/2TIiMYA.jpg
0687デフォルトの名無しさん (アウアウエー Sa6a-TFgJ)垢版2018/10/05(金) 10:48:01.81ID:kmGDPqXya
>>684
マルチGPUの分散学習はChainerが速いらしいから頑張ってほしい
0693デフォルトの名無しさん (ササクッテロレ Sp10-DPST)垢版2018/10/06(土) 15:40:12.76ID:638PEvttp
会社の技術発表で機械学習をやってみたいんだけど、
例えば、複数ユーザーのツイートを元に学習したアカウントで人間っぽく自動ツイートする、みたいなことって可能ですかね?
使用したことある言語はjavaくらいで、Pythonとかは始めてなんですけど
0694デフォルトの名無しさん (ワッチョイ 5123-HYg0)垢版2018/10/06(土) 15:55:25.36ID:XsiX8sgh0
可能
0696デフォルトの名無しさん (アウアウエー Sa6a-VI3z)垢版2018/10/06(土) 20:05:00.50ID:higGMxdEa
>>695
ところで業務にはどう役に立つのかね?
って言われそう
0703デフォルトの名無しさん (ブーイモ MM5a-HYg0)垢版2018/10/07(日) 00:53:53.77ID:o9Iuox3HM
2chの方が著作権移動が厳しい
0705デフォルトの名無しさん (アウアウエー Sa6a-VI3z)垢版2018/10/07(日) 05:08:20.65ID:xO6NYQqFa
>>701
著作権で言えば
著作者人格権とか著作権に関する権利の一部は
日本の法律ではなくならないはず
0708デフォルトの名無しさん (オッペケ Sr10-TFgJ)垢版2018/10/07(日) 11:49:44.59ID:KWtYBJ31r
個人情報保護とかで医療関連はデータ集めるのが大変だそうな
0711デフォルトの名無しさん (アウアウウー Sab5-TgND)垢版2018/10/07(日) 14:14:45.59ID:cOS3eGIea
>>707
つまりこういうことだな
現在:「学習用データ収集→諸々の処理→学習モデル作成」を個人や自社だけで完結させる場合は商用・非商用問わず著作権者の許可を取る必要なし
2019/1/1以降:収集した学習用データを他人・他社に公開・販売するのも著作権者の許可を取る必要なし
※もちろんデータ解析という本来の目的外に使用されることが明らかなら違法なので、漫画データの学習のためと謳って漫画スキャン画像を公開するとかはNG

ということで、明らかに悪用するような使い方でない限りデータ解析において著作権を気にする必要はない
0717デフォルトの名無しさん (アウアウエー Sa6a-VI3z)垢版2018/10/07(日) 20:45:05.75ID:RqIyj36Sa
>>708
個人情報を収集するときに
利用目的や利用の範囲とかを示して
合意して貰えばいいだけじゃね?
おと要求に応じて開示修正破棄できるようなシステムにしておく
ほかの個人情報でも同じ
0718デフォルトの名無しさん (ワッチョイ d980-A6IM)垢版2018/10/07(日) 21:24:55.65ID:mIq+f5AO0
https://arxiv.org/pdf/1312.4400.pdf
> 3.2 Global Average Pooling

> ・・・
> However, the fully connected layers are prone to overfitting, thus hampering the generalization ability
> of the overall network. Dropout is proposed by Hinton et al. [5] as a regularizer which randomly
> sets half of the activations to the fully connected layers to zero during training. It has improved the
> generalization ability and largely prevents overfitting [4].

> In this paper, we propose another strategy called global average pooling to replace the traditional
> fully connected layers in CNN.
0722デフォルトの名無しさん (アウアウエー Sa6a-TFgJ)垢版2018/10/08(月) 11:44:43.55ID:tjiQ7o9Aa
>>717
これから集める分ならそうだろうな
でも今まで蓄積してきたデータは?
契約上使っても問題ないデータが十分集まる頃にはとっくに置いてかれている
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況