【統計分析】機械学習・データマイニング20

■ このスレッドは過去ログ倉庫に格納されています
2018/08/07(火) 18:56:37.59ID:sGPH9ejna
機械学習とデータマイニングについて何でもいいので語れ若人

※ワッチョイだよん

次スレ立ての際は、一行目冒頭に
!extend:on:vvvvv:1000:512つけてね

■関連サイト
機械学習の「朱鷺の杜Wiki」
http://ibisforest.org/
DeepLearning研究 2016年のまとめ
http://qiita.com/eve_yk/items/f4b274da7042cba1ba76

■前スレ
【統計分析】機械学習・データマイニング19
http://mevius.2ch.net/test/read.cgi/tech/1520586585/
VIPQ2_EXTDAT: default:vvvvv:1000:512:----: EXT was configured
219デフォルトの名無しさん (ワイーワ2 FF13-jOsm)
垢版 |
2018/08/30(木) 11:38:50.75ID:S/vwwZyFF
ここに書けば親切なみなさんが教えてくれるはず
2018/08/30(木) 12:49:37.88ID:EJNleK6cM
考えるな、感じろ、ちブルースリーグもジェダイマスターも言ってた
2018/08/30(木) 12:55:22.85ID:dpvLtCB6M
>>218
差し支えない範囲で具体的に書いてみ
222デフォルトの名無しさん (ワイーワ2 FF13-jOsm)
垢版 |
2018/08/30(木) 13:25:06.37ID:S/vwwZyFF
Don't use ThinkPad, FUJITSUUUUUUU!!!
2018/08/30(木) 13:41:21.70ID:NY8GEmPq0
>>218
オライリーの「仕事ではじめる機械学習」
って本はどう?
2018/08/30(木) 14:23:58.40ID:7HgxnLgF0
機械学習で重要なのは結果よりも、凄いことやってる感
2018/08/30(木) 14:31:20.51ID:Aa6QMEJ0p
>>221
ほんとはめっちゃ詳しく書きたいけど誰が見てるから分からないから凄く端折ってるけど今はある装置のトラブル要因を調べてる
データは特徴量が200個あって1万レコードくらいある
ただこの装置自体は見たことがなくて装置自体の知見も浅い分野だからデータセットは理解できてない
明らかに要らなそうなデータは消して特徴量を選択して決定木にかけて、重要な特徴量に対してペアプロットを出すところまでは来た
プロットの結果は分類自体がほぼ出来ていなくて、唯一差が見れそうなところに見てみようと思ったんだけど、
結局そこはどこどこの数値が高くなると異常が出やすい、くらいの説明しか出来なくてその値がなぜ高くなるかを見つけ出すべきなんだろうけどデータや機構が分からなくて何から手をつけて良いか分からないってところで止まってる
こんなのは多分現場の人は感覚的に分かってる話だから何の意味もないよね
2018/08/30(木) 14:34:28.66ID:Aa6QMEJ0p
>>223
ありがとう
帰り本屋寄ってみる
ちなみに昨日pythonによるデータ分析入門って買ったんだよな
俺はまだ分析の領域にも行けてないのになw
227デフォルトの名無しさん (アウウィフ FF19-jOsm)
垢版 |
2018/08/30(木) 15:21:00.65ID:RB/VojpjF
民間ロケットかω
2018/08/30(木) 15:56:28.71ID:7HgxnLgF0
機械学習の腕は特徴量を選択するセンス次第
2018/08/30(木) 16:44:08.77ID:NY8GEmPq0
>>225
ああそういう話だとさっきの本は関係ないや
ビジネスの何に使えばいいかわからない
的な意味だと思ったんで
2018/08/30(木) 17:17:26.23ID:lMDVbSRW0
>>225
>データは特徴量が200個あって1万レコードくらいある
直感的に、少なくない?

>ただこの装置自体は見たことがなくて装置自体の知見も浅い分野だからデータセットは理解できてない
それが問題じゃん。装置自体調べろよ。
ていうか物理現象を調べてるのか?
なら機械学習を使う意味があるのかがそもそもわからんな
しいていうなら相関の強いものを上から順に並べるとか
ヒステリシスを持っている可能性を考慮するために、プロット上げる方向と下げる方向を別変数にしたほうがいいかも
2018/08/30(木) 18:48:13.32ID:zHnsz/ji0
>>230
特徴量200って少ないのか…
装置見れれば良いんだけど、身近にある物じゃないから見れなくてさ…
相関関係を見るなら重回帰かなと思って一応やってみたんだけど、言ってくれてる通り物理現象で動きには前回の動きとかも考慮して特徴量増やしたりしなくちゃいけないはずなんだけど結局データセットが分からないから行き詰まってしまった

>>ヒステリシスを持っている可能性を考慮するために、プロット上げる方向と下げる方向を別変数にしたほうがいいかも

これってどういう意味かな…
理解出来なくてごめん
2018/08/30(木) 19:08:50.69ID:lMDVbSRW0
>>231
>特徴量200って少ないのか…
いや、変数200に対してデータ数10000は、
データのほうが少ないのではないか、と

>>ヒステリシスを持っている可能性を考慮するために、プロット上げる方向と下げる方向を別変数にしたほうがいいかも
>これってどういう意味かな…
ヒステリシスを持つ可能性があるため、パラメータは上げる方向と下げる方向、両方測定する
っていう実験物理の基本は知ってるよな?
パラメータ上がる方向と下がる方向は別の変数にしないと区別できないんじゃないか、と
2018/08/30(木) 19:15:05.96ID:QzSJYFXmM
データをアップしてくれないと
よくわからん
2018/08/30(木) 21:14:55.66ID:JFBhQmXO0
ID:Aa6QMEJ0p
特定した。

お前には期待してたのだが、5chでアドバイスを貰おうとは見損なったぞ。
今後の査定を真摯に受け止めるが良い。
2018/08/30(木) 21:35:27.97ID:NQz3sjtC0
>234
マジモンのチームメイトなら少しはサポートしてやれよ。
仮に上司だとして結果が出せない部下を放置って、今の時代ならパワハラ案件だろ。
まぁブラフだろうが。
2018/08/30(木) 22:03:46.63ID:zHnsz/ji0
>>232
ぐ…よく分からん…ごめん
調べてみる…何かつかめるように頑張るよ

>>235
出来が悪い俺がダメだと思うよ
質問するにも何が分からないかすら分からない自分があまりにも無力…!
明日は何か少しでも前進出来るように頑張るよ
2018/08/31(金) 00:11:23.98ID:p6vKiofNd
これで5%返せるとか脳死こいてるバカがまだまだ多いんだな
2018/08/31(金) 01:40:33.97ID:/VjCJv9E0
>>236
説明変数(特徴量?)200と目的変数(トラブル)の
散布図行列を作るところからやってみては?
http://bellcurve.jp/statistics/wp-body/wp-content/uploads/2016/06/scmatrix_g.png
2018/08/31(金) 01:58:16.50ID:NfYNCgTp0
>>238
変数多すぎて情報拾えないと思う。
2018/08/31(金) 11:58:13.87ID:8oqZjBEKa
効いてる特徴量見たいだけだったら、ランダムフォレスト かxgboostでモデル作ってFeature Importance見ればいいんでない?
なぜ効いてるかについては別途考察が必要になるけど
2018/08/31(金) 17:27:51.18ID:xOkTAq7n0
一万レコードは流石に少なすぎる…
うちだと特徴量30前後レコード数50万ちょっとでランダムフォレストしてやっと実用に足るレベル
2018/08/31(金) 17:32:55.30ID:xOkTAq7n0
特徴量200だと相関関係にある特徴量同士や結果にまったく影響しない特徴量が多そうだな
そういうのを絞らないとメモリを食うだけで確実な結果が出ないと思う
243デフォルトの名無しさん (マクド FFe1-J7KC)
垢版 |
2018/08/31(金) 20:20:22.26ID:1Ee7C22hF
>>225
装置の故障に関係のある特徴量を調べたいだけなら
ランダムフォレストではなく、もっと別の識別器を使った方がいいんじゃないか
2018/08/31(金) 20:35:34.13ID:1Ee7C22hF
ランダムフォレストは不純度の減少に関係ある特徴量を重要度でピックアップしてくれるだけだから
故障の原因を調べるなら、むしろ関係のない特徴量を削ったり、選択したりする方に
機械学習を使うべきだと思うんだ
ロジスティック回帰とか、KNNにSBSを適用するとか
いきなりランダムフォレストでがばっとやってるなら雑過ぎると思う

あと装置について何も知らないなら
分析結果を提出して仕事完了以外に何も出来ない気がするんだけど
2018/09/02(日) 16:06:18.87ID:qpc9/9Oc0
>>225 です
レスくれた人ほんとにありがとう

一応自分では>>240で出した結果から重要度が高いものに対して>>238を出すところまではやってみた
ただ特徴量の選択だったり、自分で特徴量を増やしたりする必要がある可能性があったけどその辺が不十分だから正常時と不良時の変化は捉えきれなかった
急ぎの案件ではないから装置に詳しい人にもっと詳細に聞いてから見直してみる
2018/09/02(日) 16:10:25.31ID:qpc9/9Oc0
>>242
自分なりに考えて削ったところ残ったのは半分くらいだった…選定が不十分だとは思うけど…

>>241
そんな多いんだ…
まだ素人だからその規模扱った事ないけど、データ数が少ないと使い物にならないのかな

>>244
特徴量の選択に機械学習を使うのか…
やったことないし考えたこともなかった
ロジスティック回帰は確率的に予測するモデルだっけ
KNNにSBSとか全然知らないからもっと勉強しないと…

今更だけどレス遅くなってすいません
やっぱ知識的な勉強もしなきゃだし、もっとkaggleみたいなので色々経験踏んだ方が良いのかな…
247デフォルトの名無しさん (アウウィフ FF19-jOsm)
垢版 |
2018/09/02(日) 16:13:35.40ID:fTJM2v21F
>>238
この図って下三角は無駄やね
248デフォルトの名無しさん (ワッチョイ e3a5-jo4B)
垢版 |
2018/09/02(日) 18:09:35.27ID:Gf+N3VgJ0
特徴200の例1万で正解ラベル付き、それでなんらかの故障の原因を
少数の特徴から説明をする必要性があるなら
PCAかけてからSVMでいいんじゃね?
ラベルないなら、明らかに異常時の正解ラベルを少数でも集めてから
アノマリーディテクション

それ以外になにかやりようがあるような案件に思えない
249デフォルトの名無しさん (ファミワイ FF29-zJks)
垢版 |
2018/09/02(日) 22:15:22.45ID:aecTCx63F
ランダムフォレストって入門書で機械学習の勉強をしたら一番最後に習うジャンルじゃないか
理論的にはかなり難しい分類に入るはずなんだけど、最初にやったんかい
入門的な範囲に関していえば、NNなんかよりよほど複雑だよな
2018/09/02(日) 23:37:09.90ID:N8NA3iwF0
そうか?
2018/09/03(月) 06:46:02.23ID:U0kvs2wf0
決定木好き
boostingも好き
2018/09/03(月) 08:17:31.91ID:EloH5MrPM
自分も>>230の通り装置自体の理解が先だと思う

つーかkaggleしかやったことのない新卒を現場に出すと
大抵 >>225 みたいになるので笑える

225は素直だしやる気もありそうだから大成すんじゃない?
2018/09/03(月) 08:23:54.20ID:6BBBjiRUa
新人なんだったら上司としては笑ってる前にとっとと装置持ってくるか設置場所に連れて行って触らせろよ
2018/09/03(月) 15:29:21.33ID:wK4QWbzI0
割り振られた仕事が酷いだけな気がするんだけど
不良品検知なら機械学習は有用だけど、トラブルの原因の特定とか厳し過ぎるだろ
俺が同じ仕事を課されても出来ない自信がある
まだ今後の仕事に繋がるスキルなら学ぶ気にもなるけど
一回限りの仕事でこれだったら職場を変えたくなるなw
2018/09/03(月) 16:17:20.76ID:rtNqvOTp0
>>254
確かにw

トラブルの原因とか、装置メーカーの仕事だろw
2018/09/03(月) 16:19:13.14ID:9EJYXAO+0
作った人間呼ばないと分からないからね
257デフォルトの名無しさん (ササクッテロレ Spf1-oMiI)
垢版 |
2018/09/03(月) 17:45:38.06ID:wkT01G1zp
>>254
トラブルの原因特定が目的として
機械学習を手段として用いるのは何故?
そう言う指示なのかな
2018/09/03(月) 21:12:36.40ID:dnewFDCcr
機械学習でなんかやってくれ
Iotでなんかやってくれ
AIでなんかやってくれ
2018/09/04(火) 10:56:36.92ID:5dUU1YfQa
機械学習エンジニアとして数学を理解しておきたい!ベクトルや行列を扱う線形代数学を学び直すために
https://codezine.jp/article/detail/11023
260デフォルトの名無しさん (ラクッペ MMd1-BaxO)
垢版 |
2018/09/05(水) 12:59:13.40ID:b1qw9eMxM
機械学習の勉強やめるわ
物体検出が目標だったけど難しそうだからやめる
2018/09/05(水) 14:05:00.69ID:QYJ58+nmM
素人がこの分野に来るな!
二度と戻ってくるな
262デフォルトの名無しさん (ラクッペ MMd1-BaxO)
垢版 |
2018/09/05(水) 14:29:43.54ID:b1qw9eMxM
>>261
お前は物体検出できんの?
2018/09/05(水) 14:30:57.14ID:cIoMrnpd0
やめた人はバイバイ
さようなら
2018/09/05(水) 17:36:23.04ID:gDzPhGyvM
何気ない挨拶に隠れてるありがとう
2018/09/05(水) 19:44:56.33ID:5UFd+wbIa
courseraやってたらいきなり「カクテルパーティーは行ったことありますよね?」とかいわれた
2018/09/05(水) 20:10:38.61ID:zx26krSSM
コーセラの機械学習コースムズいね。副読本が欲しい
2018/09/05(水) 21:19:39.48ID:LgMQqqcwa
つ 2ch
2018/09/05(水) 22:15:23.53ID:wwN3L3jw0
>>264
馬渡
2018/09/06(木) 08:25:46.34ID:GEddJh7F0
ケーセラ、ケーセラ、なるようになるさ、ケーセラ、セラ♭
2018/09/06(木) 09:37:35.55ID:x1lI3fWk0
>>266
なんとか3週目まで終わったわ!

英語だとなんとなく理解がぼやけて苦労してる
2018/09/06(木) 11:38:29.38ID:7zkKFy0ua
courseraは動画は日本語字幕付いてるが問題やテキストは当然英語なので英語のリーディング能力によって速度が全然違ってくる
2018/09/06(木) 11:53:54.00ID:EvGxKfYgM
octaveがムツカシイぞ
273デフォルトの名無しさん (ラクッペ MM3b-b4n1)
垢版 |
2018/09/06(木) 12:48:10.39ID:ntAiYVJqM
ここの奴ってministの延長しかできないんでしょ
物体検出できる奴いないの?
274デフォルトの名無しさん (ラクッペ MM3b-b4n1)
垢版 |
2018/09/06(木) 12:48:43.28ID:ntAiYVJqM
スペルミスったわwwwwwwwwwwwww
2018/09/06(木) 12:55:47.21ID:EvGxKfYgM
数カ月待てばワイがなるやで
276デフォルトの名無しさん (ラクッペ MM3b-b4n1)
垢版 |
2018/09/06(木) 12:56:40.60ID:ntAiYVJqM
>>275
一ヶ月俺がやってmnist理解したから数ヶ月じゃ無理じゃね?
277デフォルトの名無しさん (ラクッペ MM3b-b4n1)
垢版 |
2018/09/06(木) 12:57:02.77ID:ntAiYVJqM
やっぱいけるかもな
効率よくやれば
2018/09/06(木) 13:23:00.99ID:hdmlXJ0Ba
高精度のモデル作るだけでお金もらえる仕事ないかな〜
2018/09/06(木) 13:47:17.51ID:aZ3qvCMza
>>278
kaggle
280デフォルトの名無しさん (ワッチョイ e36e-HcYj)
垢版 |
2018/09/06(木) 16:12:49.44ID:eIqRmgxb0
kaggleの一番の問題点は、計算資源は自前調達なこと
2018/09/06(木) 16:49:43.44ID:hpVTS5J7M
普通のPCでカグりたい。svmもこれから勉強(汗
2018/09/06(木) 17:46:24.65ID:n8sIsSj/a
個人で10万円台のPCでkaggleコンペの賞金圏内って狙えるものなの?
2018/09/06(木) 18:22:05.64ID:hpVTS5J7M
仮想通貨の採掘みたいになってくるんか。
2018/09/06(木) 18:33:14.28ID:oTJZiE1f6
初めまして失礼します
最近tensorflowにて機械学習を始めました。参考にしている下記サイトのソースコードを読んでいるのですが
http://docs.fabo.io/tensorflow/model_sequence/rnn_basic.html

このサンプルコード中のどの変数に最終的なテストデータの実行結果が格納されているのでしょうか?
親切に [0,1,2,0,・・・,0,1]のように格納されているのか、はたまた評価関数がsoftmaxなのでargmaxを使って取得するのか・・・分かる方ご教授いただけるとありがたいです。
2018/09/06(木) 19:06:23.57ID:ft00C17ua
>>284
loss_test_ と acc_test_
2018/09/06(木) 19:34:02.13ID:WZQ2BMHpM
>>281
コホーネンこそ至高(嘘)
2018/09/06(木) 19:52:27.22ID:oTJZiE1f6
>>284 追記です
ソースコード中のtf.argmax(pred,1)に実行結果が格納されているのは分かったのですが、
これをどう取得すればいいのかがわかりません
print(pred)やprint(tf.argmax(pred,1))等をsess.close()(ソースコード内の最後の行)の前後に入れてみたりしましたが
Tensor("ArgMax_2:0", shape=(?,), dtype=int64)このような出力がされるだけでした
288デフォルトの名無しさん (ガックシ 0656-QXdG)
垢版 |
2018/09/06(木) 19:53:40.60ID:oTJZiE1f6
>>285
書き込んでいるうちに返答が・・・argmaxの方じゃないのか・・・試してみます
289デフォルトの名無しさん (ガックシ 0656-QXdG)
垢版 |
2018/09/06(木) 19:59:15.30ID:oTJZiE1f6
acc_test_は精度の%表示の方がでてきました。
取得したいのはモデル学習後にテストデータを通した際の出力結果で
文章が足りなかったみたいです、すみません
お分かりになればご教授ください
2018/09/06(木) 20:04:09.83ID:N8vSkMund
>>289
多分 tf の理解不足、テストデータを与えた出力は >>285 さんので合ってる
2018/09/06(木) 21:06:50.37ID:gGQNDXVXd
>>290
外出中につきID変わりまして失礼します
acc_test_をそのままprintするのではなく何かを追記すると出力層の結果もでるのでしょうか?
2018/09/06(木) 21:30:30.68ID:dF1C4l95d
eval()使わないとテンソルの内部は見られないねえ
print(pred.eval())
みたいに書くといいよ
2018/09/06(木) 21:30:42.99ID:8Gs/SO310
>>280
Google Colaboratoryだかって使えないの?
2018/09/06(木) 21:56:39.64ID:gGQNDXVXd
>>292
ありがとうございます
帰宅したら試してみます
2018/09/06(木) 23:13:24.87ID:42ButyNI0
教師なし学習の部分勉強し始めたけどこれまた難しい
主成分分析とかめっちゃややこしい…
詰まりすぎて参考書進まない
2018/09/07(金) 02:43:59.86ID:i5TKiFX30
mfccを特徴量にして深層学習をしようと思ったけどあまり学習しない・・・
たぶんmfccをそのまま使うと値の差が大きすぎるからだろうけどこういう場合の正規化って何が一般的なんだろう?
2018/09/07(金) 03:39:19.22ID:4D0gsWdJ0
音声処理は専門外だけど、
信号処理の一般論として多重に関数通すほど精度低下するからよくないぞ
2018/09/07(金) 22:28:06.25ID:xcgQ57X/a
Courseraのカーネル法の説明、あれで分かる奴おるんか?
299デフォルトの名無しさん (ワッチョイ 0b4b-ydPo)
垢版 |
2018/09/07(金) 23:54:38.38ID:AkwTHGBK0
コーセラ化粧品歌謡ベストテン
2018/09/08(土) 12:29:52.26ID:zjq/iq32d
カーネル法はカーネル法の項目で分けるべきだと思うんだけどな
応用先はサポートベクトルマシンだけでない。
主成分分析、巡回セールスマン問題など多種多様
2018/09/08(土) 13:55:28.59ID:dJjhtWR30
カーネル三打数
2018/09/08(土) 15:15:07.20ID:phMov0/0M
何週間かしたら追いつくからちょっと待っててね♡
2018/09/08(土) 22:11:42.69ID:Mc6Ny40VM
そんなあなたにRANSAC
2018/09/09(日) 08:25:27.74ID:Uy32x6ZT0
最初Octave覚えるのうぜえ、とか思ってたけど、
Octaveに慣れると、numpyの行列表現が面倒くさくてたまらなくなるね
2018/09/09(日) 09:02:42.81ID:eiptmUtyM
ex2のcost関数はiでforループ回してsumしてくしかないのかなあ。octaveなら全データまとめてベクトル演算出来ないかと期待してたんだけど
306デフォルトの名無しさん (ワッチョイ 0b4b-ydPo)
垢版 |
2018/09/09(日) 10:04:24.64ID:13i/0Tbj0
numrubyとかまだですか?
2018/09/09(日) 11:24:58.51ID:Uy32x6ZT0
>>305
forループなしで行けるよ
308デフォルトの名無しさん (スプッッ Sd7a-iA6g)
垢版 |
2018/09/09(日) 11:37:36.75ID:vA+7RJ4hd
AIってなんで言語の意味が理解出来ないの?
309デフォルトの名無しさん (ワイーワ2 FFb2-x/oF)
垢版 |
2018/09/09(日) 11:40:09.66ID:kzlGF2pOF
言語に意味が無いからかも知れないね
2018/09/09(日) 11:40:19.63ID:l6rR/pccM
>>308
プログラミング言語理解してるじゃん
2018/09/09(日) 13:02:46.43ID:qrt/xXSoM
>>307
どうしてもJの値が期待値の3倍になっちゃうので完全ベクトル化は諦めたよ
2018/09/09(日) 15:07:04.37ID:mmYNGw0Ja
courseraの2週目まで来てやっとプログラミング課題始めたけどこれ英語ダメダメな人には結構無駄に時間かかりそうだな
自分はある程度読めるからいいけど英語アレルギーの人には15ページの英文テキストとかハードル高すぎだろう
2018/09/09(日) 15:30:17.72ID:l6rR/pccM
突然の英語自慢
2018/09/09(日) 17:05:22.17ID:GZ1hf7rYa
あの程度の英文が読めるというだけのことが自慢と感じてしまう人って・・・
315デフォルトの名無しさん (ワッチョイ 8723-x/oF)
垢版 |
2018/09/09(日) 17:10:44.73ID:5zyWb3dg0
チラシは日記の裏に
2018/09/09(日) 17:11:54.64ID:l6rR/pccM
いや、大学で論文書いてるし講座受けたことないから知らん
2018/09/09(日) 17:20:40.89ID:UfwTkuaF0
会話が成立していない・・・
318デフォルトの名無しさん (ワッチョイ 8b80-f65Y)
垢版 |
2018/09/09(日) 17:44:28.00ID:V1LakR3i0
まず自身が学習する知能すらないヤツラが
機械学習とかいってるのがな
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況