【統計分析】機械学習・データマイニング20
■ このスレッドは過去ログ倉庫に格納されています
機械学習とデータマイニングについて何でもいいので語れ若人
※ワッチョイだよん
次スレ立ての際は、一行目冒頭に
!extend:on:vvvvv:1000:512つけてね
■関連サイト
機械学習の「朱鷺の杜Wiki」
http://ibisforest.org/
DeepLearning研究 2016年のまとめ
http://qiita.com/eve_yk/items/f4b274da7042cba1ba76
■前スレ
【統計分析】機械学習・データマイニング19
http://mevius.2ch.net/test/read.cgi/tech/1520586585/
VIPQ2_EXTDAT: default:vvvvv:1000:512:----: EXT was configured Udemyで全講座1200円セールしてるから好きなの選んだら 大学一年レベルの数学→最適化数学→はじパタ本→達人データサイエンティストによる理論と実践
これにプラスで、ゼロから作るdeep learningを読めば、ベースの知識は作れる >>168
・やさしく学ぶ 機械学習を理解するための数学のきほん
・人工知能プログラミングのための数学がわかる本
・ゼロから作るDeep Learning(2冊) kerasのLSTMって、まだpeepholeに対応してないの? わかパタ買ったんだけど、その前にはじパタ読んだほうがいいの? 日本はAI・ロボット化の開発競争に敗れ国際競争力を失い下手をすると2025年あたりには一億総失業になる。 機械学習を支える大学数学を学び直す 中井悦司著『技術者のための線形代数学』発売
https://codezine.jp/article/detail/11006 最近、技術系の書籍は壊滅的だったのに、
機械学習関連だけは大復活で色んな本が出てるね 中身大して変わらないのにタイトルに「機械学習のための〜」とか付けると馬鹿が買ってくれる 初学者向けの本が乱発してるのは
宣伝としてやってるんだよ。
本自体で稼ごうとしているわけじゃない >>181
「やさしく学ぶ 機械学習を理解するための数学のきほん」のことですか? >>181
石村夫妻が「よくわかる機械学習のための数学」とか長沼伸一郎氏がブルーバックス本を書かないのがおかしい。 機械学習の直感的解釈なんて本だと被るね。いま本書いてるひと皆弟子みたい pythonとkerasによるディープラーニング買った
これでkeras極めるけどkerasくらいならこの本いらんかったかな… ディープじゃない機械学習って学ぶ意味ある?
素人の素朴な疑問でごめん
sklearnはデータ分割する時くらいしか使わないなあって思って >>188
グローバルなんちゃらイニシライザーとか長すぎんねん名前 >>187
ある
なんでもかんでもディープでやればいいってもんじゃない そもそもディープラーニングは機械学習の中の1つの分野でしかない >>187
なぜコンペでXGBoostやランダムフォレストが主流で使われているのか?
適材適所というものがあるのだよ。 >>187
仕事で深層学習を付け焼き刃で使ってるけど、特に困ってないよ ドット絵みたいな意味のある形を含む点群があったとして、その点群の中から学習させた意味のある形を検出したいです
なにか良さげなアルゴリズムとかありませんか? 機械学習ブームに乗って、生まれ変わったら異世界のデータサイエンティストだったで電撃に応募する Kerasって便利なのにあんまし人気ないよね
なんで >>198
どこでの話だ、さすがにそれはない。
pytorch が猛追してるけど、tf + keras が圧倒的でしょ ディープラーニングならKeras、他のアルゴはscikit-learn >>201
情報量も多いし取っ付きやすいし、一番現実的な選択だと思う >>201
やはりgoogleのtensorflowだろ。 kerasの作者の本読んだら、
「ディープラーニングで相場の予想は出来ない。やるだけ無駄なので時間を捨てるのは止めとけ」って全否定されてたわ
わざわざ苦言を呈するくらい相場の予想させたいって奴ばっかりなんだろうね ドーパミンだって
Google、TensorFlowベースの強化学習フレームワーク「Dopamine」を公開
https://mag.osdn.jp/18/08/29/163000 まだTensorFlowでゴリゴリ書いてる奴おる? むしろTensorFlowはモデルが理解できてないヤツには使えない
それ以外のは機械学習がよく分からなくても使えた気になれる >>209
というか、kerasがtensorflowに統合されたから両方のAPIを使ってる
>>210
まぁそうかもしれない >>210
chainerなんかわかりやすいのに人気ない。 もうchainer はいいよ。日本限定のフレームワークが流行るはずもない。
一時期、業者か何か知らんがくどいほどchainer の書き込みが続いてうんざりしたわ >>212
今となってはpytorch使えばすむからな
>>213
ある時からレスが完全にピタッと止まって驚いた記憶がある。
業者かはともかく、一人で頑張ってた人がいたんだろうな chainerは日本限定じゃないよ
ドキュメントも英語だし
海外の論文でも実装に使われていたりするし >>215
全く同じレスを繰り返し見た記憶がある。まだスレ見てたんだな。
前にも書いたけど、例外があることは全く反論にならないからな。現状はトレンド見ろ つ
https://trends.google.co.jp/trends/explore?cat=5&q=keras,chainer 参考書とか見ながら機械学習の勉強始めて、初めて仕事でデータ分析的なことをやってみたんだけど絶望的に何も結果を出せない
データセットの理解も出来ないしどういうアプローチをしていけば良いのかも思いつかない
そもそも分析と呼べる領域にすら達してない
理解する頭やセンスも必要だと思うし自分も能力が低い人間なのは十分理解してるけど、分析能力はどうやって身につければ良いんだろう
やっぱり数こなすしかないかな? 考えるな、感じろ、ちブルースリーグもジェダイマスターも言ってた Don't use ThinkPad, FUJITSUUUUUUU!!! >>218
オライリーの「仕事ではじめる機械学習」
って本はどう? 機械学習で重要なのは結果よりも、凄いことやってる感 >>221
ほんとはめっちゃ詳しく書きたいけど誰が見てるから分からないから凄く端折ってるけど今はある装置のトラブル要因を調べてる
データは特徴量が200個あって1万レコードくらいある
ただこの装置自体は見たことがなくて装置自体の知見も浅い分野だからデータセットは理解できてない
明らかに要らなそうなデータは消して特徴量を選択して決定木にかけて、重要な特徴量に対してペアプロットを出すところまでは来た
プロットの結果は分類自体がほぼ出来ていなくて、唯一差が見れそうなところに見てみようと思ったんだけど、
結局そこはどこどこの数値が高くなると異常が出やすい、くらいの説明しか出来なくてその値がなぜ高くなるかを見つけ出すべきなんだろうけどデータや機構が分からなくて何から手をつけて良いか分からないってところで止まってる
こんなのは多分現場の人は感覚的に分かってる話だから何の意味もないよね >>223
ありがとう
帰り本屋寄ってみる
ちなみに昨日pythonによるデータ分析入門って買ったんだよな
俺はまだ分析の領域にも行けてないのになw >>225
ああそういう話だとさっきの本は関係ないや
ビジネスの何に使えばいいかわからない
的な意味だと思ったんで >>225
>データは特徴量が200個あって1万レコードくらいある
直感的に、少なくない?
>ただこの装置自体は見たことがなくて装置自体の知見も浅い分野だからデータセットは理解できてない
それが問題じゃん。装置自体調べろよ。
ていうか物理現象を調べてるのか?
なら機械学習を使う意味があるのかがそもそもわからんな
しいていうなら相関の強いものを上から順に並べるとか
ヒステリシスを持っている可能性を考慮するために、プロット上げる方向と下げる方向を別変数にしたほうがいいかも >>230
特徴量200って少ないのか…
装置見れれば良いんだけど、身近にある物じゃないから見れなくてさ…
相関関係を見るなら重回帰かなと思って一応やってみたんだけど、言ってくれてる通り物理現象で動きには前回の動きとかも考慮して特徴量増やしたりしなくちゃいけないはずなんだけど結局データセットが分からないから行き詰まってしまった
>>ヒステリシスを持っている可能性を考慮するために、プロット上げる方向と下げる方向を別変数にしたほうがいいかも
これってどういう意味かな…
理解出来なくてごめん >>231
>特徴量200って少ないのか…
いや、変数200に対してデータ数10000は、
データのほうが少ないのではないか、と
>>ヒステリシスを持っている可能性を考慮するために、プロット上げる方向と下げる方向を別変数にしたほうがいいかも
>これってどういう意味かな…
ヒステリシスを持つ可能性があるため、パラメータは上げる方向と下げる方向、両方測定する
っていう実験物理の基本は知ってるよな?
パラメータ上がる方向と下がる方向は別の変数にしないと区別できないんじゃないか、と ID:Aa6QMEJ0p
特定した。
お前には期待してたのだが、5chでアドバイスを貰おうとは見損なったぞ。
今後の査定を真摯に受け止めるが良い。 >234
マジモンのチームメイトなら少しはサポートしてやれよ。
仮に上司だとして結果が出せない部下を放置って、今の時代ならパワハラ案件だろ。
まぁブラフだろうが。 >>232
ぐ…よく分からん…ごめん
調べてみる…何かつかめるように頑張るよ
>>235
出来が悪い俺がダメだと思うよ
質問するにも何が分からないかすら分からない自分があまりにも無力…!
明日は何か少しでも前進出来るように頑張るよ これで5%返せるとか脳死こいてるバカがまだまだ多いんだな 効いてる特徴量見たいだけだったら、ランダムフォレスト かxgboostでモデル作ってFeature Importance見ればいいんでない?
なぜ効いてるかについては別途考察が必要になるけど 一万レコードは流石に少なすぎる…
うちだと特徴量30前後レコード数50万ちょっとでランダムフォレストしてやっと実用に足るレベル 特徴量200だと相関関係にある特徴量同士や結果にまったく影響しない特徴量が多そうだな
そういうのを絞らないとメモリを食うだけで確実な結果が出ないと思う >>225
装置の故障に関係のある特徴量を調べたいだけなら
ランダムフォレストではなく、もっと別の識別器を使った方がいいんじゃないか ランダムフォレストは不純度の減少に関係ある特徴量を重要度でピックアップしてくれるだけだから
故障の原因を調べるなら、むしろ関係のない特徴量を削ったり、選択したりする方に
機械学習を使うべきだと思うんだ
ロジスティック回帰とか、KNNにSBSを適用するとか
いきなりランダムフォレストでがばっとやってるなら雑過ぎると思う
あと装置について何も知らないなら
分析結果を提出して仕事完了以外に何も出来ない気がするんだけど >>225 です
レスくれた人ほんとにありがとう
一応自分では>>240で出した結果から重要度が高いものに対して>>238を出すところまではやってみた
ただ特徴量の選択だったり、自分で特徴量を増やしたりする必要がある可能性があったけどその辺が不十分だから正常時と不良時の変化は捉えきれなかった
急ぎの案件ではないから装置に詳しい人にもっと詳細に聞いてから見直してみる >>242
自分なりに考えて削ったところ残ったのは半分くらいだった…選定が不十分だとは思うけど…
>>241
そんな多いんだ…
まだ素人だからその規模扱った事ないけど、データ数が少ないと使い物にならないのかな
>>244
特徴量の選択に機械学習を使うのか…
やったことないし考えたこともなかった
ロジスティック回帰は確率的に予測するモデルだっけ
KNNにSBSとか全然知らないからもっと勉強しないと…
今更だけどレス遅くなってすいません
やっぱ知識的な勉強もしなきゃだし、もっとkaggleみたいなので色々経験踏んだ方が良いのかな… 特徴200の例1万で正解ラベル付き、それでなんらかの故障の原因を
少数の特徴から説明をする必要性があるなら
PCAかけてからSVMでいいんじゃね?
ラベルないなら、明らかに異常時の正解ラベルを少数でも集めてから
アノマリーディテクション
それ以外になにかやりようがあるような案件に思えない ランダムフォレストって入門書で機械学習の勉強をしたら一番最後に習うジャンルじゃないか
理論的にはかなり難しい分類に入るはずなんだけど、最初にやったんかい
入門的な範囲に関していえば、NNなんかよりよほど複雑だよな 自分も>>230の通り装置自体の理解が先だと思う
つーかkaggleしかやったことのない新卒を現場に出すと
大抵 >>225 みたいになるので笑える
225は素直だしやる気もありそうだから大成すんじゃない? 新人なんだったら上司としては笑ってる前にとっとと装置持ってくるか設置場所に連れて行って触らせろよ 割り振られた仕事が酷いだけな気がするんだけど
不良品検知なら機械学習は有用だけど、トラブルの原因の特定とか厳し過ぎるだろ
俺が同じ仕事を課されても出来ない自信がある
まだ今後の仕事に繋がるスキルなら学ぶ気にもなるけど
一回限りの仕事でこれだったら職場を変えたくなるなw >>254
確かにw
トラブルの原因とか、装置メーカーの仕事だろw >>254
トラブルの原因特定が目的として
機械学習を手段として用いるのは何故?
そう言う指示なのかな 機械学習でなんかやってくれ
Iotでなんかやってくれ
AIでなんかやってくれ 機械学習エンジニアとして数学を理解しておきたい!ベクトルや行列を扱う線形代数学を学び直すために
https://codezine.jp/article/detail/11023 機械学習の勉強やめるわ
物体検出が目標だったけど難しそうだからやめる courseraやってたらいきなり「カクテルパーティーは行ったことありますよね?」とかいわれた ■ このスレッドは過去ログ倉庫に格納されています