【統計分析】機械学習・データマイニング20

2018/08/07(火) 18:56:37.59

機械学習とデータマイニングについて何でもいいので語れ若人

※ワッチョイだよん

次スレ立ての際は、一行目冒頭に
!extend:on:vvvvv:1000:512つけてね

■関連サイト
機械学習の「朱鷺の杜Wiki」
http://ibisforest.org/
DeepLearning研究 2016年のまとめ
http://qiita.com/eve_yk/items/f4b274da7042cba1ba76

■前スレ
【統計分析】機械学習・データマイニング19
http://mevius.2ch.net/test/read.cgi/tech/1520586585/

VIPQ2_EXTDAT: default:vvvvv:1000:512:----: EXT was configured

2018/09/22(土) 13:48:31.14

nipless

2018/09/22(土) 13:51:54.80

ダジャレスレ

2018/09/22(土) 13:56:57.15

>>540
サンクス、そう言えば rnn の話し見ませんね。
やっぱドキュメント読まないとダメか… pytorchもわからんとダメ？

2018/09/22(土) 17:59:22.10

ここに書いても無駄だろうけど
Attentionした時間順を特徴に埋め込んでから
CNNでその時間を考慮しつつ、初期層含め各層の時間情報を参照しながら畳み込む
ってモデルさっさとでないかなぁ
sota必至だから早く論文出てほしい

脳はやってる
https://www.eurekalert.org/pub_releases/2018-08/nuos-hyb082818.php

でも既存の機械学習では、初期の特徴に時間を付与することはほとんどやってない
RNNやLSTMが上手くいってないのは、初期から時間情報を連続的に把握して時間変化率を学習できないからだよ
いくら微分しても変化率とっても、初期状態からの時間情報を連続的に把握できないから学習できてない

一方、音声を特徴とする場合、ほとんどシークタイムが特徴に自動的に含まれるから
処理はクソ重くなるけど、高品質な結果が得られる

人間に置き換えても一緒
感覚器官は注意と畳み込みを同時に行いながら、それらの順でシーケンスを伝えて
脳はこの順番を記憶している

2018/09/22(土) 18:13:18.49

機械学習もいいが、センサーにはかなわん
ブラックボックスの中のものを重さや振った時の音で予測する・・・なんて回りくどいぜ
X線撮影で確認しろ
未来予測ならワームホール望遠鏡だ！

2018/09/22(土) 19:40:46.36

長崎は勝たないと脱落するぞ

2018/09/22(土) 19:41:06.05

ごめん、誤爆 orz

2018/09/22(土) 21:29:54.41

>>543
ドキュメントをなぞるだけなら不要

2018/09/22(土) 22:34:55.25

>>503
デフォルト設定は貧弱
カスタマイズありきで拡張性は高いんだけど、使いこなせないなら、旧版をずっと使い続けた方がよさそう
こんなツールの設定コマンドを覚える暇があったら他にやらなければならないこと五万とあるだろ
俺は覚えるつもりだけど・・・

2018/09/23(日) 12:44:56.23

俺みたいな雑魚はまずnumpyとpandasとmatplotlibを使いこなせるように頑張るとこからだな

2018/09/23(日) 15:05:02.43

>>550
的を得てるけど、深層学習が目的なら keras のサンプルでも動かすとモチベーションが保ちやすい

>>548
了解。ボチボチ覚えるつもりではいます

2018/09/24(月) 02:46:29.51

>>544
カプセルネットワークみたいにベクトルに拡張して空間情報とするのは？

2018/09/24(月) 04:22:26.78

>>544
マルコフ連鎖をモデルの中に組み込めば良いんじゃ無い？
でも微分で消えてしまうのかな．

2018/09/24(月) 09:09:25.13

>>551
chainerのサンプルコードの方が楽。

2018/09/24(月) 12:16:47.58

>>554
まだ使ってる人いるのか

2018/09/24(月) 12:26:29.26

>>554
オワコンの名前をあげていちいち絡むな
https://trends.google.co.jp/trends/explore?cat=5&;q=tensorflow,chainer

2018/09/24(月) 16:12:04.69

>>552
カプセルネットワークの手法だと
各層で獲得した特徴同士の空間的相対位置は正確になるけれど
それでは汎用性がない
脳は空間的相対位置を崩す事もできる

これは記憶している各時間情報を参照して相対位置すら入れ替え可能だからできる
注目した部分の特徴だけを切り取って、別物として貼り付けるのではなく
一定の連続的時間情報部分を切り取って、その部分の特徴を別の連続した時間情報の一部分をキーとして
完全に連結させることができる
だから本当の汎用性を獲得するためには、時間情報の連続的把握が絶対に必要になる

>>553
マルコフ性はこの場合適さない
何故ならば、脳と同様の構造を獲得するためには
過去、現在、未来すべての情報を参照する必要性があるから

2018/09/24(月) 16:27:32.53

過去・現在・未来の区別は単なる幻想にすぎない　アインシュタイン

2018/09/24(月) 17:28:14.05

そうやね

2018/09/24(月) 18:08:33.46

>>558
マルコフ連鎖的なレスやな

2018/09/24(月) 18:51:54.57

>>557
解き方知ってるんじゃないの? 自分で論文を書いた方が早いのでは。

2018/09/24(月) 19:11:49.55

https://qph.fs.quoracdn.net/main-qimg-f5ea2024de1c0fc8c5b0830450deba7e

2018/09/24(月) 21:11:14.88

隠れマルコフモデルを覚える前にマルコフモデルを覚えましょう。

2018/09/24(月) 21:12:22.33

ついでに言うとウィナー過程とマルチンゲールも知っとけ

2018/09/24(月) 21:12:23.12

じゃあ待ち行列の勉強から

2018/09/24(月) 21:42:12.44

連休に行楽地へ行って体験しよう

2018/09/24(月) 22:10:45.88

>>556
どっちも使った事なさそう

2018/09/24(月) 23:18:47.49

初歩的な質問なんだけど、tensorflowやkeras、pytorchの違いは文法的な作法だけ？
機械学習の本1冊目だけど実践しながら読み終えて完全に理解はしてないけど深層学習も興味あるしやってみたいなと思うんだけど、みんながフレームワーク選ぶ基準教えてほしい

2018/09/25(火) 00:45:33.33

・define and runとdefine by run、まあこの違いはなくなりつつある
・分野によって使われやすいのが違う気がする、arXivみてそんな気がしてるだけで統計とかはないけど

2018/09/25(火) 01:01:38.10

>>561
論文を書くためには結果が必要だけど
この手法は脳の構造模倣だけに凄まじい量のデータが必要になるのは明白
つまり現実的には、この畳込みモデルを適用したGANも組み込む必要があって
作業量的にも計算量的にも個人ではまず無理

2018/09/25(火) 03:35:03.53

割込も体験するべき

2018/09/25(火) 04:07:52.14

>>570
仮に他人の論文があっても実現はできないと言ってるように聞こえる。
個人でできる範囲で成果を取った方が有益かもね。

2018/09/25(火) 14:23:16.83

回帰における学習でデータ正規化を行った上で得られたモデルを使う場合は学習時の正規化で使った平均・標準偏差を使って入力値を変換しなければいけないと思うんだけど、
scikit-learnの使い方紹介記事とか読むとtrain_test_splitで訓練・テストデータ分離して各々別々にfit_transformで正規化している記事が大半で訓練・テストデータが異なる値で正規化されてしまうことになる
これは訓練・テストデータが大量にあればどうせ平均・標準偏差は変わらないだろうというだけの認識でいいの？

**573** (ｱｳｱｳｳｰ Sa25-wHMa) · 2018/09/25(火) 17:49:12.68

ごめん、見た記事では多分最初だけfit_transformして次では単にtransformしてたっぽい
それなら何の問題もないな

2018/09/25(火) 18:05:19.79

>>570
相対性理論とか実証は別の人がやることだってあり得る
論文を出すのはできるんじゃね
それが認められるかどうかは内容次第だし
本当に有益ならリソースを持つ組織が実証するし
必要ならその組織に所属すればいいだけ

2018/09/25(火) 18:09:03.58

>>573
実際に応用として使用する時に上手く行くかどうかじゃね？
学習に使うサンプルが偏ってたらその値を使って正規化すると
実際に使うときに期待する結果にならないんじゃね？

期待する結果に有意差がなければどっちでも良いんじゃないの？

2018/09/25(火) 22:06:17.44

最近回帰問題解くのがキツすぎて無理やり0～1に正規化して分類みたいにやるのがいい気がしてきた

2018/09/25(火) 22:39:44.81

>>577
層を厚くすればなんとかなるんじゃないの？

2018/09/26(水) 00:52:49.34

そろそろ PyTorch が無視できなくなってきたなつ
https://www.kdnuggets.com/2018/09/deep-learning-framework-power-scores-2018.html

2018/09/26(水) 08:37:33.11

画像データを分類して教師データを作ろうとしてるんだけど、荒くでいいから自動で分類してくれるソフトないかな。

2018/09/26(水) 10:44:59.92

SOM

2018/09/26(水) 11:01:18.29

>>578
わからないです
画像の生成モデルで出てきた問題みたいに支配的な領域に適合して細かい構造を予測できないので、分類にしてダイス係数を使おうかと考えていました

2018/09/26(水) 12:18:49.20

>>580
自動分類できないから機械学習使おうとしてるのにその前に自動分類してくれとは

2018/09/26(水) 13:07:40.99

>>583
最終的には自分で見なきゃいけないのは承知してるんだけど、荒く自動分類した後に人が修正って考えてます。

何とか教師データの作成を楽したい。

2018/09/26(水) 13:09:08.33

>>581
ちょっと調べてみます。

2018/09/26(水) 14:20:02.13

>>584
qtクラスタリングとかどうよ？

2018/09/26(水) 14:48:10.49

画像にキャプション付けてくれるサービス探したらありそうだけど

2018/09/26(水) 17:42:13.90

googleが人間にゴリラってタグ付けてたの思い出した

2018/09/26(水) 18:41:51.88

>>588
当欠だな

**589** (ﾌﾞｰｲﾓ MMed-7r02) · 2018/09/26(水) 18:42:16.88

s/当欠/凍結/

2018/09/26(水) 23:13:11.78

あの画像なら人間でも間違えるから仕方ない

2018/09/26(水) 23:34:16.52

SVCのモデルを作る時にMinMaxscalerでスケール変換して、GridSearchCVでインスタンス作って、それに対してスケール変換した訓練データを使って学習させるって事をやったんだけど、これはダメらしいんだけど前処理の前に交差検証しろっていうのがよく分からない。

交差検証の過程では分割されたデータの一部が訓練用、残りがテスト用になって、訓練用となった部分を用いてモデルを学習させて、テスト用はモデルに対しての評価に使われる。
ここまでは大体分かる

しかし実はスケール変換する際にテスト用となった部分に含まれてる情報を使ってしまってる。
このようなデータはモデルに対してまったく新しいデータとは本質的に異なる。
？？？訓練用の一部がテスト用になるから？？

2018/09/27(木) 09:27:07.99

>>592
スケール変換の際にテストデータの情報を使ってしまったら、そのテストデータは「まったく新しいデータ」とは言えない。

2018/09/27(木) 11:10:18.48

qiitaは機械学習の良い記事があっても全然ランキング入らなくなったな
ニワカが飽きたのか

2018/09/27(木) 11:20:21.49

>>568
pythonはプログラム言語でtensorflowやkerasは効率よく機械学習するためのライブラリ。

2018/09/27(木) 12:14:59.19

>>594
それならいい記事見つけたらここにでもURL貼ってほしい
qiitaはタイムラインから良記事探すのが難しい

2018/09/27(木) 22:08:27.94

>>594
飽きたというよりも具体的な恩恵が得られないからモチベーションが続かないのでしょう
趣味でやっている人たちばかりじゃないから

2018/09/27(木) 22:17:45.69

英語で検索した方が有用な情報多いよ

2018/09/28(金) 00:38:02.48

いいね！稼ぎじゃはてな民くらいしか喜ばないしねぇ

2018/09/28(金) 03:48:20.58

確かにQiitaは最近いいね減ったな

2018/09/28(金) 05:57:58.09

aidemyとpyqどっちで勉強したらいいですか？

2018/09/28(金) 08:06:29.54

>>601
どっちもやる。
アイデミーから始めなよ。わかりやすいから。

2018/09/28(金) 11:08:53.98

QiitaとHatenaは、インストール大先生の記事が多すぎて困るから検索結果から外してるわ

2018/09/28(金) 13:48:47.12

交差検証について検索してみるとその説明として、ある1つのモデルを考えた場合に、
元データをN分割してその内(N-1)個で学習して、残り1個でテストするのをNパターン繰り返すようなものと理解した。
しかし、CourseraのWeek6で説明してる交差検証は複数のモデルを思いついた場合の最良モデルを選択する手段と説明されており、
データをA,B,Cに3分割して、各モデルをAで学習、Bで評価して比較(このBをcross validation setと呼んでいる)、Bの評価で決定された最良モデルをCで最終評価するという内容になっている。
両者は別物のような気がするんだけど自分が理解しきれていないだけなのか？

2018/09/28(金) 13:54:00.86

>>601
俺ならaidemyの無料部分だけ流し見してからPyQやる

2018/09/28(金) 13:56:04.74

SQuAD とかやってる人いる？流行りの先端モデルとかご存知なら教えてください

>>604
どっちも間違ってない。前者は本来の定義。後者は実践的。

2018/09/29(土) 02:24:39.57

キーエンスなんかは見込み客の連絡先を得るためにホワイトペーパー量産してるんだけどね

2018/09/29(土) 08:04:19.54

キーエンスｗ

2018/09/29(土) 08:26:36.08

あそこ営業に投資全振りだぞ

2018/09/29(土) 08:28:19.01

誤爆?

2018/09/29(土) 14:07:15.40

qiitaのいいね稼ぎじゃ具体的な恩恵にならんから続かないって話

2018/09/29(土) 15:00:04.38

キーエンスのホワイトペーパーは捨てアド偽名でダウンロードしてるわ

2018/09/29(土) 15:24:38.05

tf 1.11 出たな、更新かけたわ。2.0 はまだなのか

>>611
それな。勤め先の意向で、個人名でひたすらいいね集めたけど、ひと～つも仕事に結び付かなかったw
むしろ教えてちゃんからのメールが山ほどきて仕事にならなくなったんで撤退したわ

>>606
一時期やってたけど、もう少し具体的に。どういうアプローチかわからんとアドバイスしにくい。

2018/09/29(土) 17:38:55.50

機械学習のコンペばかりやっているが
いったい実務ではどのぐらいの精度ならOKにするのかとふと思った

2018/09/29(土) 20:16:28.30

>>614
kaggleでメダル取れた？

2018/09/29(土) 21:12:49.04

>>613
どもです。普通に DR とか使ってますがスコアが全然伸びません。

>>614
一般論としては仕事でやるならコストパフォーマンスが一番大事。

2018/09/30(日) 03:30:54.29

仕事では客が要求精度決めるから
それぞれだよ

2018/09/30(日) 04:27:12.57

協調フィルタリングって任意の精度に調整する事って出来るのかな
例えば，精度が高すぎると新しい商品に巡り会えないから，適度に偶奇性を取り入れたりすること
またそのレベルを調整できるモデルって可能？

2018/09/30(日) 05:52:32.17

>>617
コスト度外視できんだろ、バカだな、なのか

2018/09/30(日) 05:53:02.84

>>616
2はそれじゃ無理

2018/09/30(日) 05:55:15.11

>>619
できる見込み立たなかったら出来ないって言うよ

2018/09/30(日) 06:00:07.93

>>621
そういうことじゃないよ、金の話しだよ。精度上げるのに必要な金を気前良く払う客なんて滅多にいない。

2018/09/30(日) 06:23:01.63

予算枠は先に決まってるからね。逆に決まってない場合はまずアポーンｗ

>>617
一般論として、とわざわざ書いたじゃんw

>>620
なるほど… そういうことですか、別のモデルを調べてみます。

2018/09/30(日) 09:48:36.88

コスパって比率だからな
いくら比率良くてもパフォーマンスの絶対値が小さければ意味ないぞ

2018/10/01(月) 18:25:21.59

人工知能の本買ってきた
これで二冊目
迷ったけど
ディープラーニングとPython,Tensorflowの本にした
それにしても人工知能の本たくさんあった
5種類ぐらい
最初に買った「ゼロからはじめる～」の本は10万部いったって
https://i.imgur.com/1QbZuPK.jpg

2018/10/02(火) 10:08:44.43

本屋の棚は賑わってるが粗製乱造

2018/10/02(火) 14:00:24.78

ネットに同等以上の記事はいくらでもあるけど
情報まとまってるし、時間ない初学者が買うのはあり
でも電子版じゃないとjupyterやcolabで手動かしながらやるのだるいから
実本はあまり勧めないな

つってもどんどん技術が陳腐化してくから、MLの基本とCNN,RNN,LSTM,GAN,Attentionの概要だけ身につけたら
あとはdeepmindのサイトと論文全部読んで
arxivでsota達成したのだけ数カ月分読むほうがトレンドを追いかけるには手っ取り早い

実装がメインなら論文追わずにKerasやっとけ
すごいのでたらそのうちKerasにも実装されるから
それ使えってのが俺の結論

2018/10/02(火) 14:42:01.10

NLP やるなら PyTorch がもう主流だけどな

2018/10/02(火) 15:23:49.58

みなさん、やっぱり、ハイスペックのゲーミングマシンで開発しているの？

2018/10/02(火) 15:43:52.26

うむ

2018/10/02(火) 17:16:03.25

むう

2018/10/02(火) 17:56:36.01

クラウドでやるのと実機用意するのとどっちが安いか

2018/10/02(火) 18:13:26.05

データ量次第としか

2018/10/02(火) 18:41:23.89

研究や学習用途ならもうcolabでいいんじゃねーの
TPUまで無料で使えるようになったから最強すぎるわ
ただ12時間超える学習なんかの場合は、途中で保存する処理を作るか
既にある処理を使う必要性がある、Kerasには既にある
tensorflowの低レベルでやる場合は自分で書く必要性あるのかな
Pytorchはまだ触り程度で詳しくないけど、kerasと同じようなライブラリあるならそれ使えばいい

業務やサービスの場合はどうせAWSかGCP,Azure借りるだろ

2018/10/02(火) 19:43:42.88

学習中に不明な原因で接続が切れてた時の絶望感

2018/10/02(火) 20:06:47.65

sotaという言葉を知らなかったので調べてみてstate of the artの略で直訳すると最先端とかそんな意味だから何となく言いたいことは分かったけど機械学習分野での定義に当たるものが全然見つからない
sota達成とか誰がどうやって決めてるの？

2018/10/02(火) 22:59:32.38

>>636
sotaって論文で書いてる連中は
arxivなどのオープンアクセスな論文サイトに投稿されてるコンピューターサイエンスの論文で有用なのはほとんど全部読んでる
だからどれが最高水準かを知ってるから
その分野におけるsota近辺のモデルの論文の結果と比較してsota達成としている
っていうのが俺の認識
論文完璧に追ってる以外にもカンファレンスで情報収集してるってのもあるだろうけど

物理学なんかと違って、ML分野はオープンアクセスな論壇で発展してきたからこうなってるんだろうけど
その辺の事情を追えてない日本人には全くわからん状態なのも仕方ない

2018/10/03(水) 00:45:53.65

あぁカンファで同時にsota報告が上がってたんだな
そりゃカンファで採択されるかされないかと
オープンアクセスサイトでの論文公開タイミングは、ものによってはちげーから
いくら先端追ってる連中でも被るのは仕方ない

・GAN的な双方向マルチ学習(自然言語で言うなら敵対的逆翻訳のしあいっこ？)
・特徴に時間間隔とポジション付与
・Attentionの構造改善

この3つが大体の今のトレンドだろ
全部組み合わせたのも半年以内に出てくるだろうけど
結局の所、事象における連続した時間情報の把握と
その状態における時間変化率の学習が上手く出来てないから汎用AIにはなれんだろう

ちゃんとした学者にも俺と似たような事言ってる人いて
脳構造の模倣による時間情報の学習を、哲学的な部分からやろうって言ってる人いるけどどうなるかな

2018/10/03(水) 01:19:02.14

脳構造だからうまくいくわけではない。

2018/10/03(水) 01:29:53.26

神経構造なんかは既に解明されてるけど
そうなるとしか分かっていない回路形成の発生学とか
関与しているらしいけど何してるのかいまいち分かっていないグリア細胞とか
こっちの方がモデリングをする上で重要だと思うけどね
今のMLでは生物の機能の一部を模擬してるだけに過ぎない