【統計分析】機械学習・データマイニング21

2018/11/04(日) 14:34:36.02

機械学習とデータマイニングについて何でもいいので語れ若人

※ワッチョイだよん

次スレ立ての際は、一行目冒頭に
!extend:on:vvvvv:1000:512つけてね

■関連サイト
機械学習の「朱鷺の杜Wiki」
http://ibisforest.org/
DeepLearning研究 2016年のまとめ
http://qiita.com/eve_yk/items/f4b274da7042cba1ba76

■前スレ
【統計分析】機械学習・データマイニング20
https://mevius.5ch.net/test/read.cgi/tech/1533635797/

VIPQ2_EXTDAT: default:vvvvv:1000:512:----: EXT was configured

2018/12/14(金) 20:44:44.10

カルマンフィルタとか必須な分野もあるから、統計学・数学必須かどうかは関わってる仕事による

2018/12/14(金) 20:48:59.46

専門は更に違う

2018/12/14(金) 20:59:12.32

日本のゴミのようなITの慣例に従うと、
AIエンジニアでさえ、統計も幾何学もマスターした40代のおっさんより、
専門学校でPython習っただけの20代の方が引き合いが多い。

人売りは必要なスキルなんて把握してないし

2018/12/14(金) 21:05:07.90

そもそも派遣やSESで安く済ませようというような環境下で機械学習エンジニアを目指すこと自体が誤り

2018/12/14(金) 21:41:09.89

>>404
第一種電気主任には勝てません

2018/12/15(土) 01:05:19.81

>>400
マセマ線形代数

2018/12/15(土) 09:27:28.68

文系でもいきなりわかる行列・ベクトル入門

2018/12/15(土) 10:06:27.30

前処理で新しい特徴量作ったり、カテゴリ変数を数値に変換したりするじゃないですか
でそれを使ってモデルを構築するわけなんですけどこれなんで成立するんでしょうか
だってそれに対して入ってくるデータはモデル作成に使った特徴量は持ってないですよね

モデル作成って例えばa,b,cって3種類の特徴量があるデータとしたら
f(a,b,c)をコンピュータが内部で作ってくれて、だからそこに対象のa,b,cを持つデータを入れたら答えが返ってくる……みたいなイメージだったんですけど違うんでしょうか

2018/12/15(土) 10:46:54.10

>>386
職場は自称データサイエンティストが
大勢いて、みなさん統計学に自信満々の
理系ばかりなんですけど、
実は全く分かってない人ばかりです。

あなたは分かってる？
統計学の論文は何本ぐらい書いてますか？

ま、客も分かってないから
いいんですけどね。

2018/12/15(土) 10:52:28.95

統計検定でいいんでゅわ

2018/12/15(土) 11:30:35.29

統計学の研究者になるわけでもないのに統計学の論文書く必要などない
赤青緑本が理解できていれば後は必要に応じて学べばOK

2018/12/15(土) 12:27:01.90

410は文系ってことだ

2018/12/15(土) 13:12:41.57

機械学習に数学はいらない

2018/12/15(土) 14:20:12.17

>>410
0本です
本職は機械屋さんです

2018/12/15(土) 14:25:31.33

データさいえんてぃすとってなに？

2018/12/15(土) 14:25:47.32

何ができるひと？

2018/12/15(土) 15:20:47.62

ggrks

2018/12/15(土) 15:36:11.12

>>409
前提となる条件がよくわからないが

>>なんで成立するか
a,b,cそれぞれの間に相関が無いベクトルに変換したからです。
相関が無いと判断される手法によって結果は異なる。

例えばPCAであればa,b,cの相関係数が最小になるように特徴量が分解される。

>>入ってくるデータは作成に使った特徴量を持ってない。
⇒？？？
言ってることがよくわかりませんが、前処理にて得られたベクトルに一度変換してください。

2018/12/15(土) 15:56:42.77

>>409の後半
>>f(a,b,c)を内部でコンピュータが作ってくれて～～a,b,cを持つデータを入れたら答えが返ってくる

⇒その認識で合ってます。

任意のA,B,C,D,E,F,‥‥ってデータ(ベクトル)があったとき、a,b,cに変換する関数を作成するのが前処理と考えたらよい

2018/12/15(土) 16:16:03.44

>>418
なるほど‥最近
『データさいえんてぃすと』になるためのビジネス講座が流行ってるのですね。

受講による費用対効果は知らんけど。

2018/12/15(土) 16:38:18.36

>>421
答えになっていないぞ、検索もできないのか

データさいえんてぃすとってなに？
何ができるひと？

2018/12/15(土) 16:39:50.66

>>421
対したこと出来ない人ってことはわかりました

2018/12/15(土) 23:22:01.13

あと線形代数について、大学の一般教養より進んだところまでの学習をお勧めします。

特異値分解、ぺロンフロベニウス根などですね。
Google行列の話など面白く、なかなか応用性があることに気づくと思います。

2018/12/16(日) 10:11:11.58

最初から対したことない奴だと思っていました

2018/12/16(日) 14:00:15.57

たいしたことできないってことがわかる機械学習

2018/12/16(日) 14:20:05.34

対したことない人に負けないようレベルアップしてくださいな

2018/12/16(日) 15:03:43.09

もう15年ほどデータ分析してますけど、
統計学や情報工学の知識が必要になった
ことはわずかです。
しかも基礎的な知識のみ。

客が理解できないことはできませんので。

専門家が増えて、分析の発注者側となってから、
専門的な知識が要求されるようになると思います。
それは20年先でしょうね。

2018/12/16(日) 15:08:38.20

ﾃﾞｰﾀｱﾅﾘｼｽとかいっても
仕事のほとんどはﾃﾞｰﾀ抽出加工ﾄﾞｶﾀだからな
DA（）ｗ

2018/12/16(日) 15:10:33.11

>>427
私は立場的にお客さん側の人間なのですが‥

2018/12/16(日) 15:11:30.14

失礼。またずれた。
>>428
私は立場的にお客さん側の人間なのですが‥

2018/12/16(日) 15:47:39.48

自分が低レベルの仕事しか任されていないだけなのを自ら晒して恥ずかしくないのかな

2018/12/16(日) 15:59:13.38

市場調査のﾔﾂﾗとは関わったことがある
そいつらだったら大体どんなﾔﾂﾗかは分かる

結構狭い業界だからな

そいつらはﾄﾞｶﾀからみれば客かもしれんが
その先にまた別の客がいる

その別の客をどこがもってるかだからな
当然ｺｺで業界内での力関係の差はっきりみえる
超格差業界

2018/12/16(日) 20:55:55.59

まだ若い学生プログラマーには
学生のうちに知識と創造力の拡充をお願いしたいですね。

物事は簡単であるべきだが、簡単過ぎてはならない。

2018/12/16(日) 21:02:53.02

その代わり給料と地位をお願いします

2018/12/16(日) 21:20:00.16

外資並みによろしく

2018/12/16(日) 21:54:55.87

それなら結果出せなければ最低賃金レベルしか出ないけどな

2018/12/16(日) 22:09:11.00

外資の知り合い居るけど最低賃金なやつ聞いたことない。みな並以上

2018/12/16(日) 22:10:18.61

と日系の社長が申しております。
って返す方が気が利いてた。スマン

2018/12/16(日) 23:05:59.57

ずっと平凡であるか、価値のある人間を目指すかの違いと思います。

2018/12/17(月) 00:34:07.50

わざわざ賃金水準教えてくれる時点で世間相場と比べてある程度自信ある人であるという偏ったデータしか計測できていないんだよな

2018/12/17(月) 06:31:38.20

>>412
＞赤青緑本が理解できていれば後は必要に応じて学べばOK

赤？
https://www.oreilly.co.jp//books/images/picture_large978-4-87311-758-4.jpeg

青？
https://images-na.ssl-images-amazon.com/images/I/819entjFISL._SL1500_.jpg

緑は？

2018/12/17(月) 06:47:25.76

赤青緑本、
こういう言い方きらい

2018/12/17(月) 07:26:10.21

そんな呼び方が出来てたのかｗ
チャートみたいな存在になってんだな

2018/12/17(月) 09:37:24.71

像本とかラクダ本も読まな

2018/12/17(月) 09:52:02.87

赤は➁もあるでよ

2018/12/17(月) 10:33:03.86

行政機関はExcel形式での統計情報の配布をやめてほしいなあ。
XML形式かCSV形式で一般公開してほしい。

**デフォルトの名無しさん** (JP 0H96-3Pua) · 2018/12/17(月) 10:41:14.66

初心者でkaggle始めたばっかなんだけどさ
機械学習始める前のイメージだと生のデータをとにかく突っ込めば後は機械が判断してくれると思ってた
でも生のデータの欠損埋めたり、関係性を調べて新しい特徴量作ったり、なんか泥臭くない？
人力の部分が多いんだなってちょっと萎えてきてる。もっと何かすごい技術なイメージだったのに

2018/12/17(月) 10:50:05.23

>>448
no free lunch定理という、どんなデータでもうまくいく万能のアルゴリズムは無いという定理がある
だからそういうデータに特化した処理や、特性に合ったアルゴリズムの選定といった泥臭い事をしないと精度が出せないのは仕方がない

2018/12/17(月) 10:51:21.54

>>442
統計の赤・青本かと思った
https://tjo.hatenablog.com/entry/2013/10/08/203547

緑は分からん

2018/12/17(月) 10:56:10.19

泥臭いことをやる万能AIを泥臭く一回作るんや

**デフォルトの名無しさん** (JP 0H47-CHQN) · 2018/12/17(月) 11:17:19.60

POMDPってなんて読むの？
ポンディーピー？

**デフォルトの名無しさん** (ｽﾌｯ Sdaa-H6+A) · 2018/12/17(月) 11:55:47.72

ディープラーニングや機械学習の数学って
中学生レベルでは無理？

2018/12/17(月) 11:59:23.77

>>424
長谷川浩司先生の「線形代数」に載っている。

2018/12/17(月) 11:59:26.03

そもそも、最近の中学生は統計学も幾何学もしないんでしょ？

2018/12/17(月) 12:02:57.12

微積やんなよ

2018/12/17(月) 12:18:19.23

>>453
別に大丈夫
微分積分と言っても結局はモデル構築が主なので、
そこまで深く知らなくてもよい
最小二乗法とかも言葉の意味知ってれば大体理解できる。後は関数に放り込むだけだし

2018/12/17(月) 12:19:08.02

>>450
緑＝人文・社会科学の統計学 (基礎統計学)
https://www.amazon.co.jp/dp/4130420666/

2018/12/17(月) 12:26:23.19

>>456
線形の方が微積より必要。マセマでもやれ。

2018/12/17(月) 12:29:27.44

せやな

2018/12/17(月) 12:44:39.16

機械学習に数学はいらない

2018/12/17(月) 12:55:59.01

>>442
この路線なら久保先生の本じゃね？

2018/12/17(月) 14:35:16.79

>>458
なる

2018/12/17(月) 17:43:44.98

要らない派からマセマ派、ルベグまでやれ派と入り乱れてますな

2018/12/17(月) 19:02:53.31

仕事でデータ分析するには
数学は、ほぼ必要ないね。
理論的なこと聞かれたのって2、3回しかないし。
ただ、その2、3回聞かれたときに
ビシッと答えたからずっと高い報酬貰えてるんだと思います。

2018/12/17(月) 19:07:51.30

詐欺師めｗ

2018/12/17(月) 20:48:03.14

>>464
たしかに、利用する対象や場面によって、
その重要性は変化するから
一概にどちらといえないでしょうね。

2018/12/18(火) 12:12:42.85

>>447
excelからCSVやXMLに変換するのなんて簡単にできる事じゃね？
受け取る側は色んな人がいるんだからその中で多くの人が慣れ親しんでいる形式を採用するのは判る

2018/12/18(火) 12:30:35.86

Excelはねえ。見た目優先で作ってセル結合やらされると、行によってカラムがズレたりして自動化出来なくなるのが問題なのよ

2018/12/18(火) 12:33:21.09

Excelを一旦画像にしてAIで処理させた方がいいかもね?

**デフォルトの名無しさん** (JP 0H96-3Pua) · 2018/12/18(火) 13:30:36.51

初歩的な質問で申し訳ないんだけどディープラーニングの活性化関数って何のためにあるの？
階段関数は分かる。0か1の2択にしたいんだなって
でもシグモイドやrelu（の0以降）は連続値じゃないですか。なら入ってくる値をそのまま使っても何も問題ないんじゃないか
わざわざ関数に突っ込む意味あるんだろうかって思うんですよ

2018/12/18(火) 13:58:19.11

非線形関数に代入しないと線形変換しかできない。
行列の積と和を繰り返しても連立一次方程式にしかならんのだよ

2018/12/18(火) 16:51:18.50

>>471
階段関数は微分できなくね？

**デフォルトの名無しさん** (JP 0H96-3Pua) · 2018/12/18(火) 18:11:56.54

>>472-473
お二方の言ってることが全く理解できないので自分にはまだ早いことは理解できた
前のノードの値×重みを足し合わせたものを次のノードに送るくらいの認識しかないので線形だの連立方程式だの微分だの何が関係あるのだろうレベル

2018/12/18(火) 20:35:01.16

>>472
＞行列の積と和を繰り返しても‥

んなこたーない

2018/12/18(火) 22:33:21.28

あまり本を鵜呑みにしないように‥

2018/12/19(水) 00:11:12.23

このへんが簡易な本を嫌うべき理由ですね。
簡便な例でもって納得した気になってしまう。

2018/12/19(水) 05:06:16.83

>>457 たとえば理論では絶対値たが、計算量を少なくするために二乗に換算すればいいとか、

私が知る範囲の機械学習では見ないけど、たとえば微分方程式を使うなら可能な限り級数展開で近似してから解く、とかじゃない？

機械学習の理論は東大、京大生に任せておくとし、私のようなヴァカは理論に突っ込んで課題をクリアするために、数学よりc++だな。pythonのほうがライブラリあって良さそうだが、産業用途では使えんからなあ。

2018/12/19(水) 05:13:01.29

高専のとき選択でニューラルネットワークがあってなんに使うんやと寝てたけど、いま普通にデータ突っ込んでるな。

いまいち検出器の選定がわかんないんだよな。入力データのバラツキとかの性質と、検出器の数学的性質を結びつけれる脳みそがあれば、どういう前処理をすべきかわかるし、捗るんだろな

2018/12/19(水) 09:33:59.69

pythonだと産業用途で使えないという理由が分からないけど学習結果の利用という意味なら例えばtensorflowは言語依存のない形式で学習済みモデルを保存できる
というか機械学習フレームワークで検索上位に出るようなものならほとんどは言語依存ないフォーマットで出せるはず

2018/12/19(水) 15:02:50.58

〉〉480

たぶん研究段階ではpythonでいいけど、製品レベルに実装する場合は、
pythonではなくc等が主流だから、「製品開発者等では」ってことを
言っているんじゃない？

2018/12/19(水) 15:38:11.72

モデルと実データをライブラリに食わせるCコード書くだけでいいのちゃう

2018/12/19(水) 17:24:57.84

pythonのコード隠蔽したいのかな。
pythonを暗号化してテキストでもっておき、C++のプログラム内でメモリ上に復号、python本体に送ってキックするってことはできるよ。
メモリを覗かれてしまったらアウトだけどね。
pythonを完全に隠蔽したいならクラウドじゃないとできないな。

2018/12/19(水) 17:40:50.77

>>481
製品って具体的にどんなものかによる
組込的なものだとそうかもしれないけど
サービス的なものだと関係ない

2018/12/19(水) 17:51:42.99

基礎はやりたいフィールドのテッペンを概観でるレベルで十分
そこで大きな壁が何枚もある事を把握してから必要な基礎を潰していく
いつまでも基礎基礎いっててなかなか前に進まないのが日本教育のだめなとこだな
みんな染み付きすぎて疑問にもおもってない

2018/12/19(水) 17:56:47.59

テッペン見てから必要なだけ降りたらええちゅうことね

2018/12/19(水) 19:38:11.41

>>485
やりたいフィールドに限定すると、他分野の視点から見えるものも見えなくなる

2018/12/20(木) 00:43:50.31

基礎をおっかけるレベルでそれはねえ

2018/12/20(木) 09:56:46.33

AIを使いたいんじゃない。
茄子の仕分けがしたいのだ。みたいな

2018/12/20(木) 16:02:48.40

夢無い記事
https://tech.nikkeibp.co.jp/atcl/nxt/column/18/00138/121400206/?P=1

日本で5人の実力を持ってても、名刺OCRしか活躍の場が無い。
（分析出来るデータが国内企業に無いし）

2018/12/20(木) 17:28:29.50

おもろい

**デフォルトの名無しさん** (JP 0H59-2M8b) · 2018/12/20(木) 17:57:27.11

http://monoist.atmarkit.co.jp/mn/articles/1812/18/news047.html
なんじゃこりゃw

2018/12/20(木) 18:09:43.22

https://paiza.hatenablog.com/entry/2018/12/20/【1位はGo言語】機械学習人気でPython・R言語も上位に！

2018/12/20(木) 19:10:08.34

>>483 そこまでする人は最初からCで書くだろう。

2018/12/20(木) 20:26:07.75

>>490
名刺の会社にGrandmasterが2人もいるの不思議だよな
GAFAとかヤフーとかメルカリに行けばいいのにと思うけど、開発環境が魅力的なのかな

2018/12/20(木) 20:37:23.22

＞日本人の名刺なら「98％の精度で種別を判定できる」
う～～～～ん

2018/12/20(木) 21:55:38.26

メルカリ・・・

2018/12/20(木) 22:03:38.17

>>492
> 2020～2021年ごろをめどに実用化を目指す。

はいはい

2018/12/20(木) 22:19:39.52

>>490
この人なんで名刺に拘るんかな
他業種でも引く手あまたやないの

2018/12/20(木) 22:41:01.49

>>499
給料良かったか、社風が合ってたんじゃないかな
勤務時間に勉強出来るとかじゃないとすぐに陳腐化してしまう

2018/12/20(木) 23:08:54.62

転職はＩＴ系の中でさえあんまり遠くに行けないんだよ