X



【統計分析】機械学習・データマイニング21

■ このスレッドは過去ログ倉庫に格納されています
0001デフォルトの名無しさん (アウアウウー Sa4f-YdG1)
垢版 |
2018/11/04(日) 14:34:36.02ID:W830XVm1a
機械学習とデータマイニングについて何でもいいので語れ若人

※ワッチョイだよん

次スレ立ての際は、一行目冒頭に
!extend:on:vvvvv:1000:512つけてね

■関連サイト
機械学習の「朱鷺の杜Wiki」
http://ibisforest.org/
DeepLearning研究 2016年のまとめ
http://qiita.com/eve_yk/items/f4b274da7042cba1ba76

■前スレ
【統計分析】機械学習・データマイニング20
https://mevius.5ch.net/test/read.cgi/tech/1533635797/
VIPQ2_EXTDAT: default:vvvvv:1000:512:----: EXT was configured
0404デフォルトの名無しさん (ワッチョイ 3adc-VLnb)
垢版 |
2018/12/14(金) 20:59:12.32ID:ECSleeaa0
日本のゴミのようなITの慣例に従うと、
AIエンジニアでさえ、統計も幾何学もマスターした40代のおっさんより、
専門学校でPython習っただけの20代の方が引き合いが多い。

人売りは必要なスキルなんて把握してないし
0409デフォルトの名無しさん (ワッチョイ 2b08-5Jpq)
垢版 |
2018/12/15(土) 10:06:27.30ID:JSs/SULz0
前処理で新しい特徴量作ったり、カテゴリ変数を数値に変換したりするじゃないですか
でそれを使ってモデルを構築するわけなんですけどこれなんで成立するんでしょうか
だってそれに対して入ってくるデータはモデル作成に使った特徴量は持ってないですよね

モデル作成って例えばa,b,cって3種類の特徴量があるデータとしたら
f(a,b,c)をコンピュータが内部で作ってくれて、だからそこに対象のa,b,cを持つデータを入れたら答えが返ってくる……みたいなイメージだったんですけど違うんでしょうか
0410デフォルトの名無しさん (トンモー MM47-LhEE)
垢版 |
2018/12/15(土) 10:46:54.10ID:VeEKAI4iM
>>386
職場は自称データサイエンティストが
大勢いて、みなさん統計学に自信満々の
理系ばかりなんですけど、
実は全く分かってない人ばかりです。

あなたは分かってる?
統計学の論文は何本ぐらい書いてますか?

ま、客も分かってないから
いいんですけどね。
0419デフォルトの名無しさん (ワッチョイ 868a-0493)
垢版 |
2018/12/15(土) 15:36:11.12ID:f2LfaFj60
>>409
前提となる条件がよくわからないが

>>なんで成立するか
a,b,cそれぞれの間に相関が無いベクトルに変換したからです。
相関が無いと判断される手法によって結果は異なる。

例えばPCAであればa,b,cの相関係数が最小になるように特徴量が分解される。

>>入ってくるデータは作成に使った特徴量を持ってない。
⇒???
言ってることがよくわかりませんが、前処理にて得られたベクトルに一度変換してください。
0420デフォルトの名無しさん (ワッチョイ 868a-0493)
垢版 |
2018/12/15(土) 15:56:42.77ID:f2LfaFj60
>>409の後半
>>f(a,b,c)を内部でコンピュータが作ってくれて〜〜a,b,cを持つデータを入れたら答えが返ってくる

⇒その認識で合ってます。

任意のA,B,C,D,E,F,‥‥ってデータ(ベクトル)があったとき、a,b,cに変換する関数を作成するのが前処理と考えたらよい
0424デフォルトの名無しさん (ワッチョイ 868a-0493)
垢版 |
2018/12/15(土) 23:22:01.13ID:f2LfaFj60
あと線形代数について、大学の一般教養より進んだところまでの学習をお勧めします。

特異値分解、ぺロンフロベニウス根などですね。
Google行列の話など面白く、なかなか応用性があることに気づくと思います。
0428デフォルトの名無しさん (トンモー MM47-LhEE)
垢版 |
2018/12/16(日) 15:03:43.09ID:CelBVMApM
もう15年ほどデータ分析してますけど、
統計学や情報工学の知識が必要になった
ことはわずかです。
しかも基礎的な知識のみ。

客が理解できないことはできませんので。

専門家が増えて、分析の発注者側となってから、
専門的な知識が要求されるようになると思います。
それは20年先でしょうね。
0429デフォルトの名無しさん (ワッチョイ 1e80-2dqZ)
垢版 |
2018/12/16(日) 15:08:38.20ID:Q57qqdXG0
データアナリシスとかいっても
仕事のほとんどはデータ抽出加工ドカタだからな
DA()w
0433デフォルトの名無しさん (ワッチョイ 1e80-2dqZ)
垢版 |
2018/12/16(日) 15:59:13.38ID:Q57qqdXG0
市場調査のヤツラとは関わったことがある
そいつらだったら大体どんなヤツラかは分かる

結構狭い業界だからな

そいつらはドカタからみれば客かもしれんが
その先にまた別の客がいる

その別の客をどこがもってるかだからな
当然ココで業界内での力関係の差はっきりみえる
超格差業界
0447デフォルトの名無しさん (ワッチョイ 23e7-L7tX)
垢版 |
2018/12/17(月) 10:33:03.86ID:Jx08wdAG0
行政機関はExcel形式での統計情報の配布をやめてほしいなあ。
XML形式かCSV形式で一般公開してほしい。
0448デフォルトの名無しさん (JP 0H96-3Pua)
垢版 |
2018/12/17(月) 10:41:14.66ID:5wCelRBnH
初心者でkaggle始めたばっかなんだけどさ
機械学習始める前のイメージだと生のデータをとにかく突っ込めば後は機械が判断してくれると思ってた
でも生のデータの欠損埋めたり、関係性を調べて新しい特徴量作ったり、なんか泥臭くない?
人力の部分が多いんだなってちょっと萎えてきてる。もっと何かすごい技術なイメージだったのに
0449デフォルトの名無しさん (アウアウエー Sa82-8c3P)
垢版 |
2018/12/17(月) 10:50:05.23ID:2PsaUU1ba
>>448
no free lunch定理という、どんなデータでもうまくいく万能のアルゴリズムは無いという定理がある
だからそういうデータに特化した処理や、特性に合ったアルゴリズムの選定といった泥臭い事をしないと精度が出せないのは仕方がない
0452デフォルトの名無しさん (JP 0H47-CHQN)
垢版 |
2018/12/17(月) 11:17:19.60ID:dHWhre3aH
POMDPってなんて読むの?
ポンディーピー?
0453デフォルトの名無しさん (スフッ Sdaa-H6+A)
垢版 |
2018/12/17(月) 11:55:47.72ID:85V8tM2Yd
ディープラーニングや機械学習の数学って
中学生レベルでは無理?
0454デフォルトの名無しさん (アウアウウー Sa4f-LVLw)
垢版 |
2018/12/17(月) 11:59:23.77ID:DntVs6XQa
>>424
長谷川浩司先生の「線形代数」に載っている。
0457デフォルトの名無しさん (ワッチョイ 4f24-UKyl)
垢版 |
2018/12/17(月) 12:18:19.23ID:n3iny2IT0
>>453
別に大丈夫
微分積分と言っても結局はモデル構築が主なので、
そこまで深く知らなくてもよい
最小二乗法とかも言葉の意味知ってれば大体理解できる。後は関数に放り込むだけだし
0459デフォルトの名無しさん (アウアウウー Sa4f-LVLw)
垢版 |
2018/12/17(月) 12:26:23.19ID:DntVs6XQa
>>456
線形の方が微積より必要。マセマ でもやれ。
0465デフォルトの名無しさん (トンモー MM47-LhEE)
垢版 |
2018/12/17(月) 19:02:53.31ID:n7hAu6UxM
仕事でデータ分析するには
数学は、ほぼ必要ないね。
理論的なこと聞かれたのって2、3回しかないし。
ただ、その2、3回聞かれたときに
ビシッと答えたからずっと高い報酬貰えてるんだと思います。
0467デフォルトの名無しさん (アウアウイー Sae3-igRr)
垢版 |
2018/12/17(月) 20:48:03.14ID:S6eGuv5Sa
>>464
たしかに、利用する対象や場面によって、
その重要性は変化するから
一概にどちらといえないでしょうね。
0468デフォルトの名無しさん (ササクッテロラ Spa3-ISso)
垢版 |
2018/12/18(火) 12:12:42.85ID:yMWs9D+/p
>>447
excelからCSVやXMLに変換するのなんて簡単にできる事じゃね?
受け取る側は色んな人がいるんだからその中で多くの人が慣れ親しんでいる形式を採用するのは判る
0471デフォルトの名無しさん (JP 0H96-3Pua)
垢版 |
2018/12/18(火) 13:30:36.51ID:gd3MIM5DH
初歩的な質問で申し訳ないんだけどディープラーニングの活性化関数って何のためにあるの?
階段関数は分かる。0か1の2択にしたいんだなって
でもシグモイドやrelu(の0以降)は連続値じゃないですか。なら入ってくる値をそのまま使っても何も問題ないんじゃないか
わざわざ関数に突っ込む意味あるんだろうかって思うんですよ
0473デフォルトの名無しさん (ササクッテロラ Spa3-ISso)
垢版 |
2018/12/18(火) 16:51:18.50ID:yMWs9D+/p
>>471
階段関数は微分できなくね?
0474デフォルトの名無しさん (JP 0H96-3Pua)
垢版 |
2018/12/18(火) 18:11:56.54ID:gd3MIM5DH
>>472-473
お二方の言ってることが全く理解できないので自分にはまだ早いことは理解できた
前のノードの値×重みを足し合わせたものを次のノードに送るくらいの認識しかないので線形だの連立方程式だの微分だの何が関係あるのだろうレベル
0478デフォルトの名無しさん (オイコラミネオ MM96-QeEb)
垢版 |
2018/12/19(水) 05:06:16.83ID:wdzWFhPYM
>>457 たとえば理論では絶対値たが、計算量を少なくするために二乗に換算すればいいとか、

私が知る範囲の機械学習では見ないけど、たとえば微分方程式を使うなら可能な限り級数展開で近似してから解く、とかじゃない?

機械学習の理論は東大、京大生に任せておくとし、私のようなヴァカは理論に突っ込んで課題をクリアするために、数学よりc++だな。pythonのほうがライブラリあって良さそうだが、産業用途では使えんからなあ。
0479デフォルトの名無しさん (オイコラミネオ MM96-QeEb)
垢版 |
2018/12/19(水) 05:13:01.29ID:wdzWFhPYM
高専のとき選択でニューラルネットワークがあってなんに使うんやと寝てたけど、いま普通にデータ突っ込んでるな。

いまいち検出器の選定がわかんないんだよな。入力データのバラツキとかの性質と、検出器の数学的性質を結びつけれる脳みそがあれば、どういう前処理をすべきかわかるし、捗るんだろな
0480デフォルトの名無しさん (アウアウウー Sa4f-c9wy)
垢版 |
2018/12/19(水) 09:33:59.69ID:jzYXTi8Ia
pythonだと産業用途で使えないという理由が分からないけど学習結果の利用という意味なら例えばtensorflowは言語依存のない形式で学習済みモデルを保存できる
というか機械学習フレームワークで検索上位に出るようなものならほとんどは言語依存ないフォーマットで出せるはず
0481デフォルトの名無しさん (ブーイモ MM6f-0Mu6)
垢版 |
2018/12/19(水) 15:02:50.58ID:XaHr9AnuM
〉〉480

たぶん研究段階ではpythonでいいけど、製品レベルに実装する場合は、
pythonではなくc等が主流だから、「製品開発者等では」ってことを
言っているんじゃない?
0483デフォルトの名無しさん (ワッチョイ fb1e-3Pua)
垢版 |
2018/12/19(水) 17:24:57.84ID:Q8dTxw3N0
pythonのコード隠蔽したいのかな。
pythonを暗号化してテキストでもっておき、C++のプログラム内でメモリ上に復号、python本体に送ってキックするってことはできるよ。
メモリを覗かれてしまったらアウトだけどね。
pythonを完全に隠蔽したいならクラウドじゃないとできないな。
0484デフォルトの名無しさん (ササクッテロラ Spa3-ISso)
垢版 |
2018/12/19(水) 17:40:50.77ID:R/AQ8eSIp
>>481
製品って具体的にどんなものかによる
組込的なものだとそうかもしれないけど
サービス的なものだと関係ない
0485デフォルトの名無しさん (ワントンキン MMfa-8nJC)
垢版 |
2018/12/19(水) 17:51:42.99ID:q2I72u2nM
基礎はやりたいフィールドのテッペンを概観でるレベルで十分
そこで大きな壁が何枚もある事を把握してから必要な基礎を潰していく
いつまでも基礎基礎いっててなかなか前に進まないのが日本教育のだめなとこだな
みんな染み付きすぎて疑問にもおもってない
0491デフォルトの名無しさん (ワッチョイ 4523-1q7i)
垢版 |
2018/12/20(木) 17:28:29.50ID:t8x/0UH10
おもろい
0494デフォルトの名無しさん (オイコラミネオ MM2b-8XTe)
垢版 |
2018/12/20(木) 19:10:08.34ID:y/0AbOWxM
>>483 そこまでする人は最初からCで書くだろう。
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況