X



【統計分析】機械学習・データマイニング21
■ このスレッドは過去ログ倉庫に格納されています
0001デフォルトの名無しさん (アウアウウー Sa4f-YdG1)
垢版 |
2018/11/04(日) 14:34:36.02ID:W830XVm1a
機械学習とデータマイニングについて何でもいいので語れ若人

※ワッチョイだよん

次スレ立ての際は、一行目冒頭に
!extend:on:vvvvv:1000:512つけてね

■関連サイト
機械学習の「朱鷺の杜Wiki」
http://ibisforest.org/
DeepLearning研究 2016年のまとめ
http://qiita.com/eve_yk/items/f4b274da7042cba1ba76

■前スレ
【統計分析】機械学習・データマイニング20
https://mevius.5ch.net/test/read.cgi/tech/1533635797/
VIPQ2_EXTDAT: default:vvvvv:1000:512:----: EXT was configured
0353デフォルトの名無しさん (ワッチョイ 611e-nOOm)
垢版 |
2018/12/09(日) 05:39:24.92ID:A2Qb+vpb0
知らないうちにクロームの翻訳機能進化してんな 機電系技術記事みたいな簡単な英語ならほとんど問題ないくらいに訳せてる
0359デフォルトの名無しさん (ワッチョイ 31b3-Lqyf)
垢版 |
2018/12/11(火) 23:44:44.51ID:Nam5p+1w0
>>352
あった、あったw
確率で区別するって意見が大体だったっけ
自分もそれでいいじゃんって思ってた

リンク先読んでもよくわからなかったけど
そんな単純な話じゃないみたいだね
0361デフォルトの名無しさん (ワッチョイ 0108-+wPc)
垢版 |
2018/12/12(水) 01:28:26.70ID:0ODlcIYd0
最近お仕事で機械学習しなきゃいけなくなってkaggleとかで勉強してるんだけどなんかものすごくもやもやする
ブラックボックスをいじって結果だけ出てくるの眺めてまたいじって改良されたらそれで良しみたいな……
プログラミングの問題みたいにきっちり正解があるとか、システムにこういう機能が必要だからそれを満たすコードを考えるとかならすっきりするのさ
なんていうか正解に至る道を自分で見通せない気持ち悪さみたいな
0363デフォルトの名無しさん (ワッチョイ 611e-nOOm)
垢版 |
2018/12/12(水) 02:29:18.56ID:nO92IoUy0
データには固有の性質があって、それを長く扱っている技術者だけがそういうことを知ってる。 kaggleで匿名化されてるデータやってても知見として得られるものないよ。 kaggleはそのへんが問題なんだよね
0366デフォルトの名無しさん (アウアウカー Sa9d-RNrf)
垢版 |
2018/12/12(水) 10:26:06.15ID:EtDWiiCfa
100%的中させる必要などそもそもない
人間だってミスして例えばメーカーでの検査ミスなら不良品を流通させてしまう
機械学習システムによって人間より十分に精度や実行速度が上がったりするなら明らかにメリットがある
にも関わらず人間より圧倒的に少ないミスを過剰に問題視する方がおかしい
また、ミスの原因がはっきりしないのが問題だと言う意見もあるが人間のミスの方が
どう考えても原因は曖昧であり、現在導入されている機械学習システムは所詮回帰分析を複雑化したものに過ぎず、
その係数を正確に知れる分だけよっぽど論理的に説明ができる
0368デフォルトの名無しさん (ワッチョイ e123-8cnn)
垢版 |
2018/12/12(水) 10:51:40.00ID:AKkFwy3+0
規定の不良率に収まるように学習すれば良いだけ
0373デフォルトの名無しさん (ワッチョイ e123-8cnn)
垢版 |
2018/12/12(水) 18:35:23.09ID:AKkFwy3+0
仕事を増やせる優秀な公務員が考えました
0375デフォルトの名無しさん (トンモー MM47-LhEE)
垢版 |
2018/12/13(木) 08:28:05.50ID:IBjveTF2M
>>361
時間があれば
確率論→統計学→機械学習
と進めるべきなんでしょうね。

でも今どきはいきなりPythonですからね。
ま、客も分かってる人いないから。

もやもや解消には仕事を辞めて
6年間ほど死ぬほど勉強する必要あります。
0392デフォルトの名無しさん (スップ Sd4a-0493)
垢版 |
2018/12/14(金) 09:01:46.14ID:ngdg7HQOd
完備な距離空間作るために測度論が必要ってとこだけ理解できればもう要らない。同様の理由で確率論も要らない。
あと入りそうなのは確率微分方程式とかるまんふぃるたぐらいか。まあ、後者はリースの表現定理を理解できれば十分。
0397デフォルトの名無しさん (アウアウカー Sa6b-c9wy)
垢版 |
2018/12/14(金) 12:12:47.64ID:z+6X6PDpa
本当の一流なら例えば料理人だとラーメン作るのに小麦畑の土から拘るからな
単に腹を満たすためならそんなの不要だが本気でトップ狙うならそこまで考える必要がある
0400 ◆QZaw55cn4c (ワッチョイ aa60-D8NS)
垢版 |
2018/12/14(金) 20:10:48.33ID:+oZBuxlP0
そんな難しい話は私には縁がありません
ひたすらお願いすることといえば、やさしい解析学ともっとやさしい線形代数の教科書を教えてほしい、ということです、ちなみに佐武で撃沈しています…
0404デフォルトの名無しさん (ワッチョイ 3adc-VLnb)
垢版 |
2018/12/14(金) 20:59:12.32ID:ECSleeaa0
日本のゴミのようなITの慣例に従うと、
AIエンジニアでさえ、統計も幾何学もマスターした40代のおっさんより、
専門学校でPython習っただけの20代の方が引き合いが多い。

人売りは必要なスキルなんて把握してないし
0409デフォルトの名無しさん (ワッチョイ 2b08-5Jpq)
垢版 |
2018/12/15(土) 10:06:27.30ID:JSs/SULz0
前処理で新しい特徴量作ったり、カテゴリ変数を数値に変換したりするじゃないですか
でそれを使ってモデルを構築するわけなんですけどこれなんで成立するんでしょうか
だってそれに対して入ってくるデータはモデル作成に使った特徴量は持ってないですよね

モデル作成って例えばa,b,cって3種類の特徴量があるデータとしたら
f(a,b,c)をコンピュータが内部で作ってくれて、だからそこに対象のa,b,cを持つデータを入れたら答えが返ってくる……みたいなイメージだったんですけど違うんでしょうか
0410デフォルトの名無しさん (トンモー MM47-LhEE)
垢版 |
2018/12/15(土) 10:46:54.10ID:VeEKAI4iM
>>386
職場は自称データサイエンティストが
大勢いて、みなさん統計学に自信満々の
理系ばかりなんですけど、
実は全く分かってない人ばかりです。

あなたは分かってる?
統計学の論文は何本ぐらい書いてますか?

ま、客も分かってないから
いいんですけどね。
0419デフォルトの名無しさん (ワッチョイ 868a-0493)
垢版 |
2018/12/15(土) 15:36:11.12ID:f2LfaFj60
>>409
前提となる条件がよくわからないが

>>なんで成立するか
a,b,cそれぞれの間に相関が無いベクトルに変換したからです。
相関が無いと判断される手法によって結果は異なる。

例えばPCAであればa,b,cの相関係数が最小になるように特徴量が分解される。

>>入ってくるデータは作成に使った特徴量を持ってない。
⇒???
言ってることがよくわかりませんが、前処理にて得られたベクトルに一度変換してください。
0420デフォルトの名無しさん (ワッチョイ 868a-0493)
垢版 |
2018/12/15(土) 15:56:42.77ID:f2LfaFj60
>>409の後半
>>f(a,b,c)を内部でコンピュータが作ってくれて〜〜a,b,cを持つデータを入れたら答えが返ってくる

⇒その認識で合ってます。

任意のA,B,C,D,E,F,‥‥ってデータ(ベクトル)があったとき、a,b,cに変換する関数を作成するのが前処理と考えたらよい
0424デフォルトの名無しさん (ワッチョイ 868a-0493)
垢版 |
2018/12/15(土) 23:22:01.13ID:f2LfaFj60
あと線形代数について、大学の一般教養より進んだところまでの学習をお勧めします。

特異値分解、ぺロンフロベニウス根などですね。
Google行列の話など面白く、なかなか応用性があることに気づくと思います。
0428デフォルトの名無しさん (トンモー MM47-LhEE)
垢版 |
2018/12/16(日) 15:03:43.09ID:CelBVMApM
もう15年ほどデータ分析してますけど、
統計学や情報工学の知識が必要になった
ことはわずかです。
しかも基礎的な知識のみ。

客が理解できないことはできませんので。

専門家が増えて、分析の発注者側となってから、
専門的な知識が要求されるようになると思います。
それは20年先でしょうね。
0429デフォルトの名無しさん (ワッチョイ 1e80-2dqZ)
垢版 |
2018/12/16(日) 15:08:38.20ID:Q57qqdXG0
データアナリシスとかいっても
仕事のほとんどはデータ抽出加工ドカタだからな
DA()w
0433デフォルトの名無しさん (ワッチョイ 1e80-2dqZ)
垢版 |
2018/12/16(日) 15:59:13.38ID:Q57qqdXG0
市場調査のヤツラとは関わったことがある
そいつらだったら大体どんなヤツラかは分かる

結構狭い業界だからな

そいつらはドカタからみれば客かもしれんが
その先にまた別の客がいる

その別の客をどこがもってるかだからな
当然ココで業界内での力関係の差はっきりみえる
超格差業界
0447デフォルトの名無しさん (ワッチョイ 23e7-L7tX)
垢版 |
2018/12/17(月) 10:33:03.86ID:Jx08wdAG0
行政機関はExcel形式での統計情報の配布をやめてほしいなあ。
XML形式かCSV形式で一般公開してほしい。
0448デフォルトの名無しさん (JP 0H96-3Pua)
垢版 |
2018/12/17(月) 10:41:14.66ID:5wCelRBnH
初心者でkaggle始めたばっかなんだけどさ
機械学習始める前のイメージだと生のデータをとにかく突っ込めば後は機械が判断してくれると思ってた
でも生のデータの欠損埋めたり、関係性を調べて新しい特徴量作ったり、なんか泥臭くない?
人力の部分が多いんだなってちょっと萎えてきてる。もっと何かすごい技術なイメージだったのに
0449デフォルトの名無しさん (アウアウエー Sa82-8c3P)
垢版 |
2018/12/17(月) 10:50:05.23ID:2PsaUU1ba
>>448
no free lunch定理という、どんなデータでもうまくいく万能のアルゴリズムは無いという定理がある
だからそういうデータに特化した処理や、特性に合ったアルゴリズムの選定といった泥臭い事をしないと精度が出せないのは仕方がない
0452デフォルトの名無しさん (JP 0H47-CHQN)
垢版 |
2018/12/17(月) 11:17:19.60ID:dHWhre3aH
POMDPってなんて読むの?
ポンディーピー?
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況