X



【統計分析】機械学習・データマイニング20

■ このスレッドは過去ログ倉庫に格納されています
0001デフォルトの名無しさん (アウアウエー Sa5f-Mv1r)
垢版 |
2018/08/07(火) 18:56:37.59ID:sGPH9ejna
機械学習とデータマイニングについて何でもいいので語れ若人

※ワッチョイだよん

次スレ立ての際は、一行目冒頭に
!extend:on:vvvvv:1000:512つけてね

■関連サイト
機械学習の「朱鷺の杜Wiki」
http://ibisforest.org/
DeepLearning研究 2016年のまとめ
http://qiita.com/eve_yk/items/f4b274da7042cba1ba76

■前スレ
【統計分析】機械学習・データマイニング19
http://mevius.2ch.net/test/read.cgi/tech/1520586585/
VIPQ2_EXTDAT: default:vvvvv:1000:512:----: EXT was configured
0541デフォルトの名無しさん (ワイーワ2 FF8a-wH+P)
垢版 |
2018/09/22(土) 13:48:31.14ID:xOVRbYWfF
nipless
0544デフォルトの名無しさん (ワッチョイ 6220-Mczu)
垢版 |
2018/09/22(土) 17:59:22.10ID:QjN0TaMB0
ここに書いても無駄だろうけど
Attentionした時間順を特徴に埋め込んでから
CNNでその時間を考慮しつつ、初期層含め各層の時間情報を参照しながら畳み込む
ってモデルさっさとでないかなぁ
sota必至だから早く論文出てほしい

脳はやってる
https://www.eurekalert.org/pub_releases/2018-08/nuos-hyb082818.php

でも既存の機械学習では、初期の特徴に時間を付与することはほとんどやってない
RNNやLSTMが上手くいってないのは、初期から時間情報を連続的に把握して時間変化率を学習できないからだよ
いくら微分しても変化率とっても、初期状態からの時間情報を連続的に把握できないから学習できてない

一方、音声を特徴とする場合、ほとんどシークタイムが特徴に自動的に含まれるから
処理はクソ重くなるけど、高品質な結果が得られる

人間に置き換えても一緒
感覚器官は注意と畳み込みを同時に行いながら、それらの順でシーケンスを伝えて
脳はこの順番を記憶している
0545デフォルトの名無しさん (ワッチョイ 2e80-OXKd)
垢版 |
2018/09/22(土) 18:13:18.49ID:tW/Yy4gZ0
機械学習もいいが、センサーにはかなわん
ブラックボックスの中のものを重さや振った時の音で予測する・・・なんて回りくどいぜ
X線撮影で確認しろ
未来予測ならワームホール望遠鏡だ!
0549デフォルトの名無しさん (ワッチョイ 6976-uN3A)
垢版 |
2018/09/22(土) 22:34:55.25ID:z+m4dANi0
>>503
デフォルト設定は貧弱
カスタマイズありきで拡張性は高いんだけど、使いこなせないなら、旧版をずっと使い続けた方がよさそう
こんなツールの設定コマンドを覚える暇があったら他にやらなければならないこと五万とあるだろ
俺は覚えるつもりだけど・・・
0553デフォルトの名無しさん (ワッチョイ 69c3-onpN)
垢版 |
2018/09/24(月) 04:22:26.78ID:6dcTB1Rg0
>>544
マルコフ連鎖をモデルの中に組み込めば良いんじゃ無い?
でも微分で消えてしまうのかな.
0554デフォルトの名無しさん (アウアウウー Sa25-V+nN)
垢版 |
2018/09/24(月) 09:09:25.13ID:ekT6BbXIa
>>551
chainerのサンプルコードの方が楽。
0557デフォルトの名無しさん (ワッチョイ c252-Mczu)
垢版 |
2018/09/24(月) 16:12:04.69ID:6L+7kJR10
>>552
カプセルネットワークの手法だと
各層で獲得した特徴同士の空間的相対位置は正確になるけれど
それでは汎用性がない
脳は空間的相対位置を崩す事もできる

これは記憶している各時間情報を参照して相対位置すら入れ替え可能だからできる
注目した部分の特徴だけを切り取って、別物として貼り付けるのではなく
一定の連続的時間情報部分を切り取って、その部分の特徴を別の連続した時間情報の一部分をキーとして
完全に連結させることができる
だから本当の汎用性を獲得するためには、時間情報の連続的把握が絶対に必要になる

>>553
マルコフ性はこの場合適さない
何故ならば、脳と同様の構造を獲得するためには
過去、現在、未来すべての情報を参照する必要性があるから
0559デフォルトの名無しさん (エムゾネ FF62-wH+P)
垢版 |
2018/09/24(月) 17:28:14.05ID:Kttr1loZF
そうやね
0560デフォルトの名無しさん (アウアウエー Sa4a-nL3Z)
垢版 |
2018/09/24(月) 18:08:33.46ID:G1aPepRna
>>558
マルコフ連鎖的なレスやな
0565デフォルトの名無しさん (ワッチョイ c980-yqSl)
垢版 |
2018/09/24(月) 21:12:23.12ID:Kxio7RVg0
じゃあ待ち行列の勉強から
0567デフォルトの名無しさん (アウアウエー Sa4a-nL3Z)
垢版 |
2018/09/24(月) 22:10:45.88ID:G1aPepRna
>>556
どっちも使った事なさそう
0568デフォルトの名無しさん (ワッチョイ 65a5-tCrn)
垢版 |
2018/09/24(月) 23:18:47.49ID:OwMqA+EG0
初歩的な質問なんだけど、tensorflowやkeras、pytorchの違いは文法的な作法だけ?
機械学習の本1冊目だけど実践しながら読み終えて完全に理解はしてないけど深層学習も興味あるしやってみたいなと思うんだけど、みんながフレームワーク選ぶ基準教えてほしい
0569デフォルトの名無しさん (ワッチョイ f981-XmAP)
垢版 |
2018/09/25(火) 00:45:33.33ID:G04XkrxS0
・define and runとdefine by run、まあこの違いはなくなりつつある
・分野によって使われやすいのが違う気がする、arXivみてそんな気がしてるだけで統計とかはないけど
0570デフォルトの名無しさん (ワッチョイ c252-Mczu)
垢版 |
2018/09/25(火) 01:01:38.10ID:Rmy45yvb0
>>561
論文を書くためには結果が必要だけど
この手法は脳の構造模倣だけに凄まじい量のデータが必要になるのは明白
つまり現実的には、この畳込みモデルを適用したGANも組み込む必要があって
作業量的にも計算量的にも個人ではまず無理
0573デフォルトの名無しさん (アウアウウー Sa25-wHMa)
垢版 |
2018/09/25(火) 14:23:16.83ID:NL395plNa
回帰における学習でデータ正規化を行った上で得られたモデルを使う場合は学習時の正規化で使った平均・標準偏差を使って入力値を変換しなければいけないと思うんだけど、
scikit-learnの使い方紹介記事とか読むとtrain_test_splitで訓練・テストデータ分離して各々別々にfit_transformで正規化している記事が大半で訓練・テストデータが異なる値で正規化されてしまうことになる
これは訓練・テストデータが大量にあればどうせ平均・標準偏差は変わらないだろうというだけの認識でいいの?
0574573 (アウアウウー Sa25-wHMa)
垢版 |
2018/09/25(火) 17:49:12.68ID:kAi0n2pKa
ごめん、見た記事では多分最初だけfit_transformして次では単にtransformしてたっぽい
それなら何の問題もないな
0575デフォルトの名無しさん (アウアウエー Sa4a-3cGd)
垢版 |
2018/09/25(火) 18:05:19.79ID:MY+XQBfWa
>>570
相対性理論とか実証は別の人がやることだってあり得る
論文を出すのはできるんじゃね
それが認められるかどうかは内容次第だし
本当に有益ならリソースを持つ組織が実証するし
必要ならその組織に所属すればいいだけ
0576デフォルトの名無しさん (アウアウエー Sa4a-3cGd)
垢版 |
2018/09/25(火) 18:09:03.58ID:MY+XQBfWa
>>573
実際に応用として使用する時に上手く行くかどうかじゃね?
学習に使うサンプルが偏ってたらその値を使って正規化すると
実際に使うときに期待する結果にならないんじゃね?

期待する結果に有意差がなければどっちでも良いんじゃないの?
0577デフォルトの名無しさん (ササクッテロ Sp71-/e2F)
垢版 |
2018/09/25(火) 22:06:17.44ID:niBQlr5vp
最近回帰問題解くのがキツすぎて無理やり0〜1に正規化して分類みたいにやるのがいい気がしてきた
0582デフォルトの名無しさん (ササクッテロル Sp71-/e2F)
垢版 |
2018/09/26(水) 11:01:18.29ID:UoU/Uwygp
>>578
わからないです
画像の生成モデルで出てきた問題みたいに支配的な領域に適合して細かい構造を予測できないので、分類にしてダイス係数を使おうかと考えていました
0591デフォルトの名無しさん (ワッチョイ c923-Czqz)
垢版 |
2018/09/26(水) 23:13:11.78ID:Lv/+nPmY0
あの画像なら人間でも間違えるから仕方ない
0592デフォルトの名無しさん (ワッチョイ 65a5-tCrn)
垢版 |
2018/09/26(水) 23:34:16.52ID:KPLU+0tA0
SVCのモデルを作る時にMinMaxscalerでスケール変換して、GridSearchCVでインスタンス作って、それに対してスケール変換した訓練データを使って学習させるって事をやったんだけど、これはダメらしいんだけど前処理の前に交差検証しろっていうのがよく分からない。

交差検証の過程では分割されたデータの一部が訓練用、残りがテスト用になって、訓練用となった部分を用いてモデルを学習させて、テスト用はモデルに対しての評価に使われる。
ここまでは大体分かる

しかし実はスケール変換する際にテスト用となった部分に含まれてる情報を使ってしまってる。
このようなデータはモデルに対してまったく新しいデータとは本質的に異なる。
???訓練用の一部がテスト用になるから??
0595デフォルトの名無しさん (ブーイモ MMbf-wjEJ)
垢版 |
2018/09/27(木) 11:20:21.49ID:je3kizhWM
>>568
pythonはプログラム言語でtensorflowやkerasは効率よく機械学習するためのライブラリ。
0598デフォルトの名無しさん (ワッチョイ 5723-qD32)
垢版 |
2018/09/27(木) 22:17:45.69ID:JFP1gXlP0
英語で検索した方が有用な情報多いよ
0601デフォルトの名無しさん (ワッチョイ ff81-wjEJ)
垢版 |
2018/09/28(金) 05:57:58.09ID:f7OuEx/00
aidemyとpyqどっちで勉強したらいいですか?
0603デフォルトの名無しさん (ワッチョイ 17eb-G60S)
垢版 |
2018/09/28(金) 11:08:53.98ID:Y0/Lv67w0
QiitaとHatenaは、インストール大先生の記事が多すぎて困るから検索結果から外してるわ
0604デフォルトの名無しさん (アウアウウー Sadb-VGrh)
垢版 |
2018/09/28(金) 13:48:47.12ID:2IAcjEkAa
交差検証について検索してみるとその説明として、ある1つのモデルを考えた場合に、
元データをN分割してその内(N-1)個で学習して、残り1個でテストするのをNパターン繰り返すようなものと理解した。
しかし、CourseraのWeek6で説明してる交差検証は複数のモデルを思いついた場合の最良モデルを選択する手段と説明されており、
データをA,B,Cに3分割して、各モデルをAで学習、Bで評価して比較(このBをcross validation setと呼んでいる)、Bの評価で決定された最良モデルをCで最終評価するという内容になっている。
両者は別物のような気がするんだけど自分が理解しきれていないだけなのか?
0605デフォルトの名無しさん (ワッチョイ 9f52-aQox)
垢版 |
2018/09/28(金) 13:54:00.86ID:gzs2bud+0
>>601
俺ならaidemyの無料部分だけ流し見してからPyQやる
0613デフォルトの名無しさん (スッップ Sdbf-yIO0)
垢版 |
2018/09/29(土) 15:24:38.05ID:7SQdA+7Xd
tf 1.11 出たな、更新かけたわ。2.0 はまだなのか

>>611
それな。勤め先の意向で、個人名でひたすらいいね集めたけど、ひと〜つも仕事に結び付かなかったw
むしろ教えてちゃんからのメールが山ほどきて仕事にならなくなったんで撤退したわ

>>606
一時期やってたけど、もう少し具体的に。どういうアプローチかわからんとアドバイスしにくい。
0618デフォルトの名無しさん (ワッチョイ 57c3-e6iu)
垢版 |
2018/09/30(日) 04:27:12.57ID:vzbl47da0
協調フィルタリングって任意の精度に調整する事って出来るのかな
例えば,精度が高すぎると新しい商品に巡り会えないから,適度に偶奇性を取り入れたりすること
またそのレベルを調整できるモデルって可能?
0626デフォルトの名無しさん (アウウィフ FFdb-+W5L)
垢版 |
2018/10/02(火) 10:08:44.43ID:+xKncks4F
本屋の棚は賑わってるが粗製乱造
0627デフォルトの名無しさん (ワッチョイ 9fda-aQox)
垢版 |
2018/10/02(火) 14:00:24.78ID:2AKCrptK0
ネットに同等以上の記事はいくらでもあるけど
情報まとまってるし、時間ない初学者が買うのはあり
でも電子版じゃないとjupyterやcolabで手動かしながらやるのだるいから
実本はあまり勧めないな

つってもどんどん技術が陳腐化してくから、MLの基本とCNN,RNN,LSTM,GAN,Attentionの概要だけ身につけたら
あとはdeepmindのサイトと論文全部読んで
arxivでsota達成したのだけ数カ月分読むほうがトレンドを追いかけるには手っ取り早い

実装がメインなら論文追わずにKerasやっとけ
すごいのでたらそのうちKerasにも実装されるから
それ使えってのが俺の結論
0629デフォルトの名無しさん (ワッチョイ 572d-tkFK)
垢版 |
2018/10/02(火) 15:23:49.58ID:vWOGvfhl0
みなさん、やっぱり、ハイスペックのゲーミングマシンで開発しているの?
0630デフォルトの名無しさん (エムゾネ FFbf-+W5L)
垢版 |
2018/10/02(火) 15:43:52.26ID:yDKwoLm6F
うむ
0633デフォルトの名無しさん (ワッチョイ 5723-qD32)
垢版 |
2018/10/02(火) 18:13:26.05ID:cO79peqD0
データ量次第としか
0634デフォルトの名無しさん (ワッチョイ 9fda-aQox)
垢版 |
2018/10/02(火) 18:41:23.89ID:2AKCrptK0
研究や学習用途ならもうcolabでいいんじゃねーの
TPUまで無料で使えるようになったから最強すぎるわ
ただ12時間超える学習なんかの場合は、途中で保存する処理を作るか
既にある処理を使う必要性がある、Kerasには既にある
tensorflowの低レベルでやる場合は自分で書く必要性あるのかな
Pytorchはまだ触り程度で詳しくないけど、kerasと同じようなライブラリあるならそれ使えばいい

業務やサービスの場合はどうせAWSかGCP,Azure借りるだろ
0636デフォルトの名無しさん (アウアウウー Sadb-VGrh)
垢版 |
2018/10/02(火) 20:06:47.65ID:Fw3dw3lVa
sotaという言葉を知らなかったので調べてみてstate of the artの略で直訳すると最先端とかそんな意味だから何となく言いたいことは分かったけど機械学習分野での定義に当たるものが全然見つからない
sota達成とか誰がどうやって決めてるの?
0637デフォルトの名無しさん (ワッチョイ 9fda-aQox)
垢版 |
2018/10/02(火) 22:59:32.38ID:2AKCrptK0
>>636
sotaって論文で書いてる連中は
arxivなどのオープンアクセスな論文サイトに投稿されてるコンピューターサイエンスの論文で有用なのはほとんど全部読んでる
だからどれが最高水準かを知ってるから
その分野におけるsota近辺のモデルの論文の結果と比較してsota達成としている
っていうのが俺の認識
論文完璧に追ってる以外にもカンファレンスで情報収集してるってのもあるだろうけど

物理学なんかと違って、ML分野はオープンアクセスな論壇で発展してきたからこうなってるんだろうけど
その辺の事情を追えてない日本人には全くわからん状態なのも仕方ない
0638デフォルトの名無しさん (ワッチョイ 9fda-aQox)
垢版 |
2018/10/03(水) 00:45:53.65ID:+7Euz2g60
あぁカンファで同時にsota報告が上がってたんだな
そりゃカンファで採択されるかされないかと
オープンアクセスサイトでの論文公開タイミングは、ものによってはちげーから
いくら先端追ってる連中でも被るのは仕方ない

・GAN的な双方向マルチ学習(自然言語で言うなら敵対的逆翻訳のしあいっこ?)
・特徴に時間間隔とポジション付与
・Attentionの構造改善

この3つが大体の今のトレンドだろ
全部組み合わせたのも半年以内に出てくるだろうけど
結局の所、事象における連続した時間情報の把握と
その状態における時間変化率の学習が上手く出来てないから汎用AIにはなれんだろう

ちゃんとした学者にも俺と似たような事言ってる人いて
脳構造の模倣による時間情報の学習を、哲学的な部分からやろうって言ってる人いるけどどうなるかな
0640デフォルトの名無しさん (ワッチョイ 9f65-i+ik)
垢版 |
2018/10/03(水) 01:29:53.26ID:dkrkSoVO0
神経構造なんかは既に解明されてるけど
そうなるとしか分かっていない回路形成の発生学とか
関与しているらしいけど何してるのかいまいち分かっていないグリア細胞とか
こっちの方がモデリングをする上で重要だと思うけどね
今のMLでは生物の機能の一部を模擬してるだけに過ぎない
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況