【統計分析】機械学習・データマイニング21
■ このスレッドは過去ログ倉庫に格納されています
機械学習とデータマイニングについて何でもいいので語れ若人
※ワッチョイだよん
次スレ立ての際は、一行目冒頭に
!extend:on:vvvvv:1000:512つけてね
■関連サイト
機械学習の「朱鷺の杜Wiki」
http://ibisforest.org/
DeepLearning研究 2016年のまとめ
http://qiita.com/eve_yk/items/f4b274da7042cba1ba76
■前スレ
【統計分析】機械学習・データマイニング20
https://mevius.5ch.net/test/read.cgi/tech/1533635797/
VIPQ2_EXTDAT: default:vvvvv:1000:512:----: EXT was configured 知らないうちにクロームの翻訳機能進化してんな 機電系技術記事みたいな簡単な英語ならほとんど問題ないくらいに訳せてる >>353
これを見て、翻訳機能をオンにしてみたけど、
英語の方が頭に入るレベルだった gmailの翻訳はよく分からんが妙に悪い
開発周りのページは大分読みやすくなった ganの生成モデルがよくわからないんだけど
潜在変数から画像を生成するのとかどういうことなの? >>352
あった、あったw
確率で区別するって意見が大体だったっけ
自分もそれでいいじゃんって思ってた
リンク先読んでもよくわからなかったけど
そんな単純な話じゃないみたいだね ロジスティック回帰とかSVMみたいに境界決めたいけどそもそも正負両データがないと境界を知りようがないから難しいということ 最近お仕事で機械学習しなきゃいけなくなってkaggleとかで勉強してるんだけどなんかものすごくもやもやする
ブラックボックスをいじって結果だけ出てくるの眺めてまたいじって改良されたらそれで良しみたいな……
プログラミングの問題みたいにきっちり正解があるとか、システムにこういう機能が必要だからそれを満たすコードを考えるとかならすっきりするのさ
なんていうか正解に至る道を自分で見通せない気持ち悪さみたいな いやそもそも正解も無いか。そこが気持ち悪いのかな
100%当てるモデルとかできるならいいんだろうけど現実的にないだろうし データには固有の性質があって、それを長く扱っている技術者だけがそういうことを知ってる。 kaggleで匿名化されてるデータやってても知見として得られるものないよ。 kaggleはそのへんが問題なんだよね 100%的中させる必要などそもそもない
人間だってミスして例えばメーカーでの検査ミスなら不良品を流通させてしまう
機械学習システムによって人間より十分に精度や実行速度が上がったりするなら明らかにメリットがある
にも関わらず人間より圧倒的に少ないミスを過剰に問題視する方がおかしい
また、ミスの原因がはっきりしないのが問題だと言う意見もあるが人間のミスの方が
どう考えても原因は曖昧であり、現在導入されている機械学習システムは所詮回帰分析を複雑化したものに過ぎず、
その係数を正確に知れる分だけよっぽど論理的に説明ができる 工業製品の検査は不良率○%以内って厳格に決められてるよ。 ヒヨコの雌雄は分からいけど猫と犬の見分けには自信あるぜ 我々はまずゴミの分別をちゃんと出来るようにはならねば。渋谷区45種類らしいぞ >>361
時間があれば
確率論→統計学→機械学習
と進めるべきなんでしょうね。
でも今どきはいきなりPythonですからね。
ま、客も分かってる人いないから。
もやもや解消には仕事を辞めて
6年間ほど死ぬほど勉強する必要あります。 医学部に受からんと、それに年寄りはマイナス加点だからね それらプラス
信号処理、システム同程、現代ロバスト制御、カーネル法、統計学、情報幾何あたりやっときゃよい だいたいの人がれべすぐえ積分です挫折するだろうけど >>381
測度論的アプローチは万人に必要ですか? 機械学習に数学は必要なし
したがって測度論など機械学習には全く必要ない みんな使ってるPCのスペックってどんなもん?
ボーナス入ったし買い換えようかと
今はi5、SSD128GB、メモリ8Gの学生用みたいなスペック >>387
法人向けはずっと上のものがある
dellのprecision tower7000シリーズとか
corei9がショボく感じる >>384
だな
野球やるのに、バットを作り方を知る必要はない ルベーグ分かってるけど機械学習には要らんなってことなのか、ルベーグ分からんけど機械学習で特に困ってないってことなのか 完備な距離空間作るために測度論が必要ってとこだけ理解できればもう要らない。同様の理由で確率論も要らない。
あと入りそうなのは確率微分方程式とかるまんふぃるたぐらいか。まあ、後者はリースの表現定理を理解できれば十分。 カルマンフィルターを知ってる俺って偉い、というところまで読んだ リースの表現定理は使いこなせるようになることをお勧めします >>393
横から訂正するよん
こんなことを知ってる毎月残業60hのエンジニアサラリーマンの俺ってば凄い 本当の一流なら例えば料理人だとラーメン作るのに小麦畑の土から拘るからな
単に腹を満たすためならそんなの不要だが本気でトップ狙うならそこまで考える必要がある 本当の一流は革新的で広く使われるモデルを提案できる人 そりゃイノベーターですな
そこ望むなら最低でも原理ぐらいは理解してないとだめやろね そんな難しい話は私には縁がありません
ひたすらお願いすることといえば、やさしい解析学ともっとやさしい線形代数の教科書を教えてほしい、ということです、ちなみに佐武で撃沈しています… カルマンフィルタとか必須な分野もあるから、統計学・数学必須かどうかは関わってる仕事による 日本のゴミのようなITの慣例に従うと、
AIエンジニアでさえ、統計も幾何学もマスターした40代のおっさんより、
専門学校でPython習っただけの20代の方が引き合いが多い。
人売りは必要なスキルなんて把握してないし そもそも派遣やSESで安く済ませようというような環境下で機械学習エンジニアを目指すこと自体が誤り 前処理で新しい特徴量作ったり、カテゴリ変数を数値に変換したりするじゃないですか
でそれを使ってモデルを構築するわけなんですけどこれなんで成立するんでしょうか
だってそれに対して入ってくるデータはモデル作成に使った特徴量は持ってないですよね
モデル作成って例えばa,b,cって3種類の特徴量があるデータとしたら
f(a,b,c)をコンピュータが内部で作ってくれて、だからそこに対象のa,b,cを持つデータを入れたら答えが返ってくる……みたいなイメージだったんですけど違うんでしょうか >>386
職場は自称データサイエンティストが
大勢いて、みなさん統計学に自信満々の
理系ばかりなんですけど、
実は全く分かってない人ばかりです。
あなたは分かってる?
統計学の論文は何本ぐらい書いてますか?
ま、客も分かってないから
いいんですけどね。 統計学の研究者になるわけでもないのに統計学の論文書く必要などない
赤青緑本が理解できていれば後は必要に応じて学べばOK >>409
前提となる条件がよくわからないが
>>なんで成立するか
a,b,cそれぞれの間に相関が無いベクトルに変換したからです。
相関が無いと判断される手法によって結果は異なる。
例えばPCAであればa,b,cの相関係数が最小になるように特徴量が分解される。
>>入ってくるデータは作成に使った特徴量を持ってない。
⇒???
言ってることがよくわかりませんが、前処理にて得られたベクトルに一度変換してください。 >>409の後半
>>f(a,b,c)を内部でコンピュータが作ってくれて〜〜a,b,cを持つデータを入れたら答えが返ってくる
⇒その認識で合ってます。
任意のA,B,C,D,E,F,‥‥ってデータ(ベクトル)があったとき、a,b,cに変換する関数を作成するのが前処理と考えたらよい >>418
なるほど‥最近
『データさいえんてぃすと』になるためのビジネス講座が流行ってるのですね。
受講による費用対効果は知らんけど。 >>421
答えになっていないぞ、検索もできないのか
データさいえんてぃすとってなに?
何ができるひと? >>421
対したこと出来ない人ってことはわかりました あと線形代数について、大学の一般教養より進んだところまでの学習をお勧めします。
特異値分解、ぺロンフロベニウス根などですね。
Google行列の話など面白く、なかなか応用性があることに気づくと思います。 対したことない人に負けないようレベルアップしてくださいな もう15年ほどデータ分析してますけど、
統計学や情報工学の知識が必要になった
ことはわずかです。
しかも基礎的な知識のみ。
客が理解できないことはできませんので。
専門家が増えて、分析の発注者側となってから、
専門的な知識が要求されるようになると思います。
それは20年先でしょうね。 データアナリシスとかいっても
仕事のほとんどはデータ抽出加工ドカタだからな
DA()w >>427
私は立場的にお客さん側の人間なのですが‥ 失礼。またずれた。
>>428
私は立場的にお客さん側の人間なのですが‥ 自分が低レベルの仕事しか任されていないだけなのを自ら晒して恥ずかしくないのかな 市場調査のヤツラとは関わったことがある
そいつらだったら大体どんなヤツラかは分かる
結構狭い業界だからな
そいつらはドカタからみれば客かもしれんが
その先にまた別の客がいる
その別の客をどこがもってるかだからな
当然ココで業界内での力関係の差はっきりみえる
超格差業界 まだ若い学生プログラマーには
学生のうちに知識と創造力の拡充をお願いしたいですね。
物事は簡単であるべきだが、簡単過ぎてはならない。 それなら結果出せなければ最低賃金レベルしか出ないけどな 外資の知り合い居るけど最低賃金なやつ聞いたことない。みな並以上 と日系の社長が申しております。
って返す方が気が利いてた。スマン ずっと平凡であるか、価値のある人間を目指すかの違いと思います。 わざわざ賃金水準教えてくれる時点で世間相場と比べてある程度自信ある人であるという偏ったデータしか計測できていないんだよな そんな呼び方が出来てたのかw
チャートみたいな存在になってんだな 行政機関はExcel形式での統計情報の配布をやめてほしいなあ。
XML形式かCSV形式で一般公開してほしい。 初心者でkaggle始めたばっかなんだけどさ
機械学習始める前のイメージだと生のデータをとにかく突っ込めば後は機械が判断してくれると思ってた
でも生のデータの欠損埋めたり、関係性を調べて新しい特徴量作ったり、なんか泥臭くない?
人力の部分が多いんだなってちょっと萎えてきてる。もっと何かすごい技術なイメージだったのに >>448
no free lunch定理という、どんなデータでもうまくいく万能のアルゴリズムは無いという定理がある
だからそういうデータに特化した処理や、特性に合ったアルゴリズムの選定といった泥臭い事をしないと精度が出せないのは仕方がない ■ このスレッドは過去ログ倉庫に格納されています