【統計分析】機械学習・データマイニング22
■ このスレッドは過去ログ倉庫に格納されています
機械学習とデータマイニングについて語れ若人
■関連サイト
機械学習の「朱鷺の杜Wiki」
http://ibisforest.org/
DeepLearning研究 2016年のまとめ
http://qiita.com/eve_yk/items/f4b274da7042cba1ba76
■前スレ
【統計分析】機械学習・データマイニング21
https://mevius.5ch.net/test/read.cgi/tech/1541309676/
VIPQ2_EXTDAT: default:vvvvv:1000:512:----: EXT was configured >>733
何と何が独立でない?
統計基準の変更って全数検査か抜取り調査かの違いじゃね? 機械学習とかデータマイニングを勉強すれば
高卒でも関連職に就けますか? 本人の向学心と心構え次第ですが、付けますよ。
手法を作る、あるいは、それを駆使するという方面ではなく
つねに分析を念頭にいれて業務を覚えていけば、
機械学習、データマイニングの技術者が何をすればいいかの指針
あるいはヒントをだすことができます。
現在(昔からですが)の一番の問題は、日本において産と学が遊離していたために
こういった研究者が何をやったらいいかの指針やヒントが、なかなかでなかった
ところにあると思っています。
だから、もし実業でヒントを出す側になるのは大変有用ですし、それは業務を
こういった技術川知識+業務知識の両面を知らないとできないことですから。
金融機関などの分野によっては、もう20数年前から実用化されているものが
あるわけで、それはそういった人(内部にはいなかったが)からできたことです。 技術的に必要と感じたら、また大学で勉強することがいいと思います。
私の周辺にはそういった人がたくさんいます。
場合によると足りないのは、そういった人が少ないことかもしれない。
日本が、何十年もの間大学から、新しいことやヒントがまるきり生まれてこない
という時代は、そろそろ終わりにしないといけない。行き来が重要。 業務知識を付けてから、業務に機械学習を活かす方向ならありそうね。 仕事が茄子の選別なら、それを機械にやらせてみるとか たとえば、もう15年くらい前からATMでお金降ろしたり預金したりするとき
「あなたなら○○円までローンが可能です」みたいなのが
出る銀行あるけど、あれって適当にやっているとか
統計手法を使ってやっているとか思っているひとがいるんでない? すくなくとも機械学習とは無縁な気がする。
単に年間取引量とか年数とか貯蓄額などなどでさくっとライン決めてるんじゃないかな。
自分は同じ銀行でも出る口座と出ない口座があるね。 これは日本の話
おそらく、機械学習やられている人でも、多くのひとが知らないんだと思う
その昔は、統計手法によるスコアリングあるいはニューラルネットを使った
ものが主流だったが、こういった利用には適しておらず、機械学習が
1990年過ぎに消費者金融業界から使われだした。
その後、クレジット業界、銀行と広まって行き、当初はATMに直結しては
いなかったが、約15年ほど前から、事前に属性と取引状況から判別して
リコメンドをするような仕組みが出てきた。
どうやっているかの詳細は言えないが、完全に機械学習手法が用いられていて
データが足りない部分は統計手法などのアンサンブルが行われている。
これについては日本の方が海外より進んでいる。 大学などでは、この時代にそういった研究はほぼされていないので、完全に
民間手動、さらにこういった実データは大学などに提供されることは
一切ないので、学業の世界では、そういったことが行われていることすら
知ら無い方がほぼ100%近いままで来たというのが現状。
その後だいぶ遅れて、大学でもそういったことを専門にやる研究室や
学部もできたが、こういったデータは手に入らないため、ネットで集まる
データやposデータなどを研究対象にするしかないために、大学などの研究はそちらに偏った
モノとして進んできて今がある。それはそれで研究課題があるのでいいのだが
あたかも日本において流通やネットがマイニングや機械学習の主流として進んできたと
大きな勘違いをされている方がたくさんいる。 >>745
1,2年前から銀行が機械学習の事業やるとかちょくちょく発表してるのはなんなん? >>747
あれは、またこの話とまるきり別な流れと考えていいともう
それこそ、この掲示板での話題と同じようなような流れのことをやるんでしょう。
やられる方も、まるきり別。
おそらく行内でもまるきり別セクションで、人のつながりもなく流行にのる
システム部門だったり営業的部門だったりの仕事としてやるんじゃないのかな?
私がいま話した内容の場合は、システム部門だとかはまるきりタッチすることのない
せかいなので。 >>745
ニューラルネットが流行ってるのはここ数年
古くから使われてるのは多重回帰とかそんなんでしょ
日本は機械学習よりも人の判断にゆだねられてきた部分が多いと思う >>749
カードなどの、不正利用関連でのニューラルネット利用は80年代後半から実用化されて
ずっと使われてますし、主流です。
リスクに関しても同じく80年代後半から一部使われたりしてますが、これは別な
理由から国内ではほとんど使われていない。
また株式投資などでは、同じ時期から野村や大和が研究して予測につかったり
して、結果は悪くないのですが、理由がつけられないので商売にならないので
やめました。商品作っても、顧客はなぜそれがいいのかの理由を知りたいんですよ
顧客も金融機関だから、預かっているお金でしょ。だから、失敗したときの
エクスキューズができない。ようはこの分野は当時ブラックボックスでは
商売にならなかったという背景がある。
結構みなさん、思った以上に、このあたりご存知ないみたいですね。 ちなみに、株式投資などは上記の理由から、機械学習などはすたれて、
統計理論によるものが主流として今まで来ている。
ただし、自己資金で個人投資家がニューラルネットつかって
15年以上前から儲けているひとは実際にいますし、ネットでもずっと
取引結果公開してましたよ。300万円で初めて、いまはゆうに億を超してます。
あくまで個人で本業ではないですけど。 >リスクに関しても同じく80年代後半から一部使われたりしてますが、これは別な
>理由から国内ではほとんど使われていない。
誤解するといけないので補足しておきます田、この分野でニューラルネットワークが
使われていないという話で別な機械学習手法が最も使われている分野です。
ちなみに、ニューラルネットワークは、今から30年以上前に大変流行ったのよ。
もちろん、今のように洗練されてはいないですが。 >>749
>日本は機械学習よりも人の判断にゆだねられてきた部分が多いと思う
マーケティングの世界は大変遅くて、いまでもそれが主流ですよね
株式については85年あたりを境に大きく変化し、大手中堅証券関係や少し遅れて銀行
などが運用や商品開発に関して、数理手法中心に変化した。ここでは統計手法と最適化
手法が中心(当初研究していたニューラルネットはここで消えた)。
それに遅れること10年近くになってやと大学で専門的なコースができ始めた。
リスクに関しては、95年を境に大きく機械学習手法導入に代わって行き、それに伴い
大手消費者金融などの店舗が無くなった(それまでは、店舗で顔を見ながら、人が
判断していたんですよ)。カード会社も同時期。遅れて銀行などなど・・・ >>753
>リスクに関しては、95年を境に大きく機械学習手法導入に代わって行き、それに伴い
大手消費者金融などの店舗が無くなった(それまでは、店舗で顔を見ながら、人が
判断していたんですよ)
無人くんってそういう意味だったのか・・・ そうなんですよね。
ある大手消費者金融のトップは、今後店舗は無くなってゆく、さらに過当競争もある、
またグレーゾーン金利どうなるか(要はあの過払いにつながる話)など見据えました
よ。これは95〜6年の頃。
銀行は、まだのほほんとしてましたけどね。
リスクに関しては機械学習手法で10年以上会社ごとに個別にモデルを作って
いて、その蓄積から15年くらい前に、いまのATMでのリコメンドが行われるように
なったという流れです。
その少し前ころにブレインパッドとか会社ができたと思うんですが、専門会社と
しては大変後発です。 銀行は三大業務が儲からないんで国内金融業者の真似をするってこと繰り返してるだけだね ずぶの素人がRapidminerをなんとなく色々弄って
データマイニングを触り始めたんだけど、
結局h2o Flowで直接やれば有料版買わなくても良いのかと思った
KNIMEとかwekaとか触ってる人居ます?
結局RStudioでちくちく頑張るのが最善なのかと思い始めてます データはあっても論文にしないから存在感もないし給料も上がらんてことなのね。 >>758
この分や、特に大学が軽視していたのは、なかなか論文として認めてもらえなかったからというのがおそらく現実だと思う。
今は変わってきた(と思う)ので、一生懸命になってきた あんな程度のことまで機械学習使ってるんだ。
なんか無駄なような気がするけど。 単に適当に係数調整した線形の計算式が1つあれば事足りそう >>761
まあ武富士は無縁だな。
そういうのは、消費者金融とか銀行じゃなく専門のコンサル企業が
やってんだよ。限られてるけどFEGとかMRIあるいはNRIとか。 地銀とかにコンサル企業がくっついてるけど、あれはそういう仕事してるとこなのか >>766
ただし外資(ボストンやマッキンゼーというコンサルや会計系のアクセンチュア
などなど)は、経営コンサルやITコンサルなんで、このあたりのことは
やってない。知識も別なんで。 >>735
俺も高卒
しかもアホ学校
プログラミング自体始めて1年くらいで機械学習や統計を勉強して今はディープラーニングの本やってるけど微分なんかやった事ないし分からん事は沢山あって苦しい部分もあるけど頑張ろうぜ 学歴や年齢(第2新卒以上)でハンデが有る場合は、
技術を磨くより英語を勉強して外資行くのが正解ルートなIT業界 外資のIT業界は修士以上しかとらないんじゃないの? >>770
AIがらみはね。
質がね〜いろいろあるんよ問題が。 ロスジェネ世代の物理修士のワイもワンちゃん狙ってるぜ。新卒の時はメーカー系SI位しか行く先がなくてな >>775 python を2月から始めたが、なんか機械学習が簡単にできそうだから面白そう。
俺みたいな爺さんに追い越されない様に頑張れよな。 たぶん人工知能分野に高卒や学士風情が潜り込める場所はない
せいぜい誰かの作ったライブラリやフレームワークを利用する程度 >>777 良いやんか、昔からドカタと言われてきたソフト業界なんだから、少しでも陽が当たれば御の字。
日本のソフト産業が悲惨すぎたんだけどな。
俺が半世紀くらい前に、ソフトを始めた時に下宿のおばさんが何をなさってるんですかと聞かれたから、ソフトウエアですと答えたら、
「ああ、ふとん屋さんですか」と言われた。 なかなか学のあるおばちゃんだと思ったよ。 人工知能と聞くと途端にうそくさくなるのは何故なのか
脳科学的な >>778
土方は土方のままだと思う
俺も大卒IT土方やって辞めたクチだが ライブラリ使わないとやってらんない。
ニューラルネットのライブラリを全部c++で書いてたけど得るものなかったよ。
低水準なところから自分で書いてれば理解が深まるわけでないからなこれ >>780 やめたのにここを覗いてるのは何故? また、回復のチャンスがあると思って?
やる気さえあれば出来ると思うよ。 >>779
昔から言われてるのは、知能の定義が曖昧で人工知能の定義も曖昧になってるから
これが人工知能だとソフトを作っても「機械にできることは知能じゃない」と否定されてきた歴史がある
そのうち、機械学習も同じ運命を辿りそう >>781 そんなの当たり前だ。 人類が石器時代の道具を使って現代人以上に進化出来ると思う奴がおかしな奴。
利用出来るものは、積極的に使わないのはバカ。
入門当初の1〜2ヶ月は進化の過程を知るために石器を使って見るのも良いだろうけど、そこまでにした方が良い。 分野によってはライブラリ使っててもしょうもないものもあんのよ
その技術の本質的な部分が抽象化されちゃってるとね
何をやりたいかで抽象化の程度をよく見極めないと >>786 それはニーズ、仕様、マーケットがわかっていないからだろ。
何を作るか解らないで闇雲に使える物を使ってもとんでもないものが出てくるだけ。
ソフトで一番難しいのは、ユーザー/マーケットが欲してるニーズを理解すること。
マーケット、ソフト、ハード全ての世の中の融合が理解できないと難しいと思うよ。 出来るだけ広い目で見ること。 EXCEL,VBAをpythonやRで駆逐してくれるだけでも有り難い CAE系の数値積分をVBAでやる人がたまに居て涙目 だってvbaでできるから・・・
この、vnaでやろうと思えばできるけど、Rだと数秒だよ
みたいな指針ってなんとかならんかな みんなはRもpythonも両方使えるの?
統計の勉強も兼ねてRやってみようかな >>769
高校の数V=微分積分、の教科書は役に立ちます
ちまたの微分積分=解析学、の教科書は、どうでもいい実数論やεδ論法にページ数を割いていますが、これは我々には不要
となると、高校の数V=微積分の教科書は、微分方程式まで含んでいて実にバランスがいい
そういう視点で数学の教科書を選んでみてください
私としても、無駄に基礎論に勢力を使わない微積分の教科書を探しています、今読んでいるのは https://www.amazon.co.jp/dp/B000JA1WKI RやるくらいならMATLAB買った方がいいよ
特に学生なら格安で買える >>791
今勉強中でそこまで使いこなせてはいない
ただ、vbaがアホらしくなる処理が色々あるな、というのは分かる そう言えばoctaveはこのブームに乗ってないのね >>792
εδや実数論は、機械学習の基礎理論を理解するためには必須だけどね
そして、いまの高校数学には微分方程式は入っていない >>797
>高校数学には微分方程式は入っていない
!?!これは驚いた!
微積分の一番おいしいところが入ってないなんて、文部省はいったいどうしちゃったんでしょうか? 機械学習の基礎でεδも実数もいらない気がするが
微分方程式を解く必要があるとしても自力で解く必要もないだろ
たとえばどこで決定的にεδがいるんだ? >>799
>>797 では「基礎理論」と言っており、これは「入門」を指していない
Pythonのライブラリを使って機械学習させるだけなら、もちろんそこまでは必要ないよ
しかし、機械学習の手法を新たに開発しようと思ったら
数理統計学や多様体の知識が必要になるのだが、
そうなるとεδや実数論がわからない人にはまず無理
数理統計学だとルベーグ積分が必要になるしね 微分積分と線形代数は大事だねぇ
大学一年生のときにはそこまで大事だと思ってませんでしたすみません >>793
Matlabはとてもいい商品ではあるが個人の趣味には高すぎるよ
自動車産業とか行くなら損はないけど、機械学習と統計やるのならPython極めた方が有益
あとRとMatlabは得意分野が異なるので、統計の勉強するならRだけれども、じゃあ産業で使うかと言ったら研究者レベルでしか使わなくて、SPSSとかSASになる >>804
検索してみたけど誰もそんなこと言ってないぞ Matlabプライベートで買う人とかおるの?
いたとしても既に専門家な人だろう
Rは参考書はよく出てるよな numpyとかpandasはみんな自信ある?
あれやりたいなって思っても覚えれないし調べないと全然使えない
改めてちゃんと勉強した方が良いのかな >>810
ありがとう
DLの根幹は最小二乗法だけど、パラメータの最適化、モデルの構築を考えればもうそれだけじゃないね
深い関数ってのは要するにモデルの事だと思うけど、
deeplearningのdeepに引っ張られすぎな命名と思う
LSTM、RNN、GANとそれぞれ計算方法や特徴が違う、とそのまま言えばいいんじゃないかな
ただ、これらを総称するわかりやすい言葉はないね。モデルが違うとしか・・・
>>811
一通りAPIを読んで億ぐらいで良いと思う
いずれ本気で使うか、読む時が来る 例のディープラーニング協会の人だし一般人が分かった気になる説明(合っているとは言っていない)をしたいのだろうよ matlabは色々やりたいことが増えるとtoolboxどんどん買わないといけなくなって大変
コスト度外視すれば使い勝手は申し分ない matlab学生ならツールボックスいろいろセットで1万円で買える
データの前処理とかはこっちでやった方が楽なこと多い
モデルに前処理も組み込むなら別だけど >>791
R、Pythonなど使ってきたけど、自分はRをメインにしてる。
有料ソフトは家で試したりできないし、環境が変われば使えなくなる可能性があるから避けてる。せっかく勉強した内容や作ったツールが無駄になるのがこわい。 >>820
単に、その方が知りたいことと(彼の目的)と異なるだけでしょう。
どういうことやってる人なの? 今日はpandasの勉強します
業務上JSやらVue.jsやらDBとかその他諸々勉強しなきゃいけないこと山積みだけど僕はpandasを勉強します
そんなこと無駄だぞって言わないでね 安倍政権の一つの政策として、どんどん、国が持っているデータを公開して、
利用してもらおうという流れになってるんで、その一貫でしょうね。
ちなみに、今回の統計データ問題も、その一環でデータを精査していた中で
どうも結果と整合性がとれていないという指摘がでて初めて表に出てきたもの。
その面では、安倍政権じゃなかったら、ずっとそのまま闇の中だった
可能性が高いんだよね。 ここの人は統計の基本的な知識は持ってるんだね
モデルを作るのには必要ないのかもしれないけどデータ分析するならやっぱり必要なんだろうな 必須です。
モデルを作る場合でも、必要なデータがすべて量があるとは限らない
その場合は、分布を仮定したモデルを組み込まないと満足な結果が
得られない。
本格的に取り組んでいる人は必ずやっているが、ここのほとんどの人は
やってないんだろなと思ってる。 >>827
前から出しとるわ。
本当に安倍関係はさらっと普通に嘘つくからな。本人と同じで。 >前から出しとるわ。
具体的に行ってみて。
うそでしょうけど。 ■ このスレッドは過去ログ倉庫に格納されています