【統計分析】機械学習・データマイニング19
レス数が950を超えています。1000を超えると書き込みができなくなります。
機械学習とデータマイニングについて何でもいいので語れ若人
※ワッチョイだよん
次スレ立ての際は、一行目冒頭に
!extend:on:vvvvv:1000:512つけてね
■関連サイト
機械学習の「朱鷺の杜Wiki」
http://ibisforest.org/
DeepLearning研究 2016年のまとめ
http://qiita.com/eve_yk/items/f4b274da7042cba1ba76
■前スレ
【統計分析】機械学習・データマイニング17
http://mevius.5ch.net/test/read.cgi/tech/1502032926/
【統計分析】機械学習・データマイニング18
http://mevius.5ch.net/test/read.cgi/tech/1507807291/
VIPQ2_EXTDAT: default:vvvvv:1000:512:----: EXT was configured そりゃあいい気持ちにしておいて
seを確保するためだろ DSの底辺の仕事は、汚い前処理をひたすらやらされるポジだよ
高卒でやってる人もおる。そこからでも、がんばれば這い上がれるんだけどね
アルバイトで、未経験どころか知識がなくても受け入れてくれる求人もあるにはあるから
興味があれば突撃してみるといい P社って、データサイエンティスト集めてるけど、AIに力を入れるわけでも無し、
何を企んでいるのだろうか データサイエンティストは、ガチに売上に貢献するネタ見つけたら門外不出扱いになるから、
当たり前だが外部に公開なんて出来ないよ。
上っ面撫でてるような話ばかり取り沙汰されてAIブームとか言われてるけど。 H'とW'の+1はどこから来たのでしょうか?
実際に数を入れてみたら近い値が出てきました
ちなみにDlの式がないのですが何を表してるのでしょうか?
https://i.imgur.com/zU03Gg6.jpg 15mの道に木を5m間隔で植えたら15/5+1本植えられる >>852
まあ実際のデータサイエンティストの仕事ってそんなもんだがな。
9割が前処理コードと実験環境構築。 理学分野じゃないのにサイエンスが入ってるという糞用語つくる時点で営業目的の表現だし
PGをSEってよびかえるのと同じ バスケット分析とかだろ
紙オムツを買う男は、一緒に缶ビールも買うとか、
焼肉のたれは、肉の売り場に置いた方が、よく売れるとか そんな相関さえ見えればいいようなものなら専門家でなくても誰でも半自動ぐらいでできる 機械学習ならpythonとRどっちをマスターすべきかさっさと教えろ >>868
深層学習を中心にやるならpython
機械学習全般ならお好きな方を 今から新規に始める場合、既存のライブラリなどの資産の有無の縛りがないならpythonにしない理由はない R 面白いじゃん、プログラミングが面倒に感じる人ならいいと思うけどな
… と書いてみたものの、R vs Python 論争は今更かw
好きなのやればいいいんじゃないの、不都合が発生したら両方やればいい >>867
だが実際にやるとなるとめんどいんだよ。 Rはマニュアル見て動かせばいいだけだから勉強するってほどのことがない 株価でも、何十年も相関関係を調べている
株価は実体経済よりも、半年先行している。
さらに、サザエさんの視聴率は、株価よりも3か月先行しているw
最も早い指標が、サザエさんw
視聴率が下がると、どこかの産業が活発になってきている証拠!
それが後に顕在化する >>881
「すぐに使える! 業務で実践できる! Pythonによる AI・機械学習・深層学習アプリのつくり方」とかいう如何にも怪しい本買ったよ >>883
ちょっとググったら github にソース置いてあるんだな、今っぽくて悪くはなさそう まずデータをどう集めるのかが大変だよね。
天気予測とかで、日本全国1000箇所ぐらいの温度、湿度、空の写真、海の写真とかを1分に1回計測して学習させたりとかしてみたいけど、国家プロジェクトなレベルの話になりそう。 だから機械学習を個人でやってもチュートリアル以外実用性のあることはほとんどできない
結局どのような組織に所属しているかが最重要 株のファンダでスクリーニングするくらいならそこそこいけるんじゃね
間違ってもテクニカル占いには手を出すなよ >>888
すごく分かる
参考書見ながら独学でやってるけど実戦で役に立つイメージが全くわかない 個人でやってるったって、
キチガイが勝手に関連付けを発見しているようなものだからな
風呂に入るタイミングでクラクションが鳴るから集団ストーキングされてる、みたいな >>891
機械学習の大前提となる大量の学習データの入手の難易度が個人か企業などのそこそこ大きく組織かで天と地ほど違う
学習データを要しないプログラムであればむしろ個人の能力が大部分なので自分が優秀ならそれでいい >>892
その通りだな
データサイエンスにおいて、因果関係の理解されていない相関という科学的に無価値なものにも価値が認められるのは、それが金になる可能性があるから
飯食ってウンコ垂れ流すだけの個人が金を生むデータを入手できるかというと、、 グーグルもtensorflowを無償公開したときに
重要なのは仕組みじゃなくて
どんなデータを持っていてどう使うかのほうが重要と言っていたね 例えば、カルチュアコンビニエンスクラブ(Tポイント)が持っている
データが使えたとして、何を分析し、それを、どう活かす? どんな属性の人がいつどこで何を買いたがるかはあらゆる小売りが欲しがる情報だろ >>896
エロ本は入り口右側より左側の方が売れる 機械学習で何ができないか分かってきた。
機械学習ブームもいよいよ終焉か。 >>900
>いよいよ終焉か
…もう終わってしまうのですか?今からやろうと思っていました
そうだ、今までのブームのなかで出た最良の参考書を教えてください 0,1のようにクラス分けされたものではなく、連続値の要因分析をしたいと(連続値が高い時に効いているであろう要因など)考えた時に検討されるアルゴリズムはどういうものになるのでしょうか?
回帰木なのかな?と考えたのですが知識も浅く決定木くらいしかイメージが付かないのでそう考えたのですが他にはどのようなアルゴリズムを検討すべきでしょうか?
かなり初歩的な質問ですいません >>902
それでどう木が関係するのかわかってないが。
2つの関係すべてで類似度を計算すれば似通ったのはわかるが。 Google が良いのは、関連広告
アイドルで検索すれば、アイドルの広告、
プログラミングで検索すれば、プログラミングの広告のように、
その人に必要な広告を表示するから、有益
肉売り場に、焼肉のたれが置いてあるようなもので、便利
例えばギャンブルとか、会議室とか、
ユーザーに関係のない広告を見せられても、邪魔なだけ
自分に関係のない広告など、見ないし >>905
前まではそういうターゲッティング広告が万能という風潮もあったけど、全くの新規顧客を開拓するのには向いてなくて、今はまたマスの誘導のための広告をどうするかが流行ってきてるってもっぱらの噂だよな 検索実績ないユーザーが新規に何を検索したかを調べればいいだけだな そもそも志向性の無い人に、CMを見せて、嗜好を促すという毛色の違うアプローチなのである 欲しい商品をちょっと調べたりすると同じジャンルの広告ばかり出るようになるよね
もう買ったからその広告出しても意味ないのに、と思うことが多い 単体の決定木の可視化は作成出来たのですが、ランダムフォレストは可視化可能なのでしょうか?
ランダムフォレストの資料は沢山あるのですが可視化について書かれているものが見当たらないので質問させて頂きました
何百という木を作るので可視化しても意味が捉えにくいから可視化させないのかそもそも出来ないのかどちらなのでしょうか? 文字通り森だから無理
富士の樹海の写真でも貼っとけ >>913
>>914
>>915
ありがとうございます
単体の決定木は見れたのでランダムフォレストのような大量の木はどんな風に見えるのか気になったのでやってみたかったのです
export_graphvizを使おうとするとエラーが出て、その内容で検索してみると不可能だという記事も見つかりました >>916
多分pythonのsklearn使ってるんだと思うけどできるよ。
ただ、見てどうするんだろうとは思う。
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris
from sklearn.tree import export_graphviz
X, y = load_iris(return_X_y=True)
cls = RandomForestClassifier()
cls.fit(X, y)
for i, t in enumerate(cls.estimators_):
export_graphviz(t, "tree_%02d.dot" % i) >>900
結局、AIブームで儲かったのは
エンジニアにGPUを売ったエヌビディアだけというオチだったな
エヌビディアのGPU買ってAI開発して儲けた話は一つも聞いたことがない 普通に各社webサービス内部などでAI開発の成果が金稼いでるだろ AIで超儲けた!
って話は出ないね
ゴールドマンサックスがトレードに使ってるという公式発表は出たが、どこまで事実か NvidiaのGPU売上はAIブームに乗って2015年以降3倍に増加
株価は10倍化 AIとトレードを結び付けないほうが良い。
ここで前も書いた気がするが、株価はAIでも、どんな手段でも予測できない可能性がある。
効率的市場仮説というやつだが。 正しいなら、いかなる手段でも予測できない事になるからAIですら無意味。
効率的市場仮説(こうりつてきしじょうかせつ)
現時点での株式市場には利用可能なすべての新たな情報が直ちに織り込まれており、超過リターンを得ることはできず、株価の予測は不可能であるという学説である。
ランダム・ウォークを説明する考え方になるが、科学的に証明はされてはおらず、確からしいという仮説の域を出ていない。
効率的市場仮説の下、株価指数連動型インデックスファンドとETF(上場投資信託)が誕生し、目覚ましく普及してきた。
https://www.nomura.co.jp/terms/japan/ko/A02426.html システムが一切、予測できてないのに、儲かるんだったら運でしか無い。 ゴールドラッシュから、同じ事の繰り返しだな
金を掘る人よりも、金を掘る人に道具を売る人が金持ちになる AIを使った投資で儲かるならグーグルがとっくに手を付けて成功しているはず
最先端の技術が真っ先に注ぎ込まれるのは軍事と金融 AIを使っているヘッジファンドが高リターンを出しているのは事実だし、
開発メンバーは、GoogleやIBMの最前線からヘッドハントされた精鋭揃い。
データに隠れている情報を引っ張り出し、
AIとして活用できることが出来る人間は、本当に、ごく僅かしか存在しないと思われる。
日本国内のポイントカード各社が、
6,000万〜8,000万件の顧客の購買データを持っていながら、
広告ぐらいしか活かせていないのに象徴されるように kaggleの電話番号認証のSMSが来ないんだけど
なんでかな?
+818012345678
+81-80-1234-5678
+8180-1234-5678
みたいの全部ダメ GoogleやIBMの最前線からヘッドハントされた精鋭揃い
www 機械学習を使いこなすNetflix社員の年収は5300万円 >>935
どこで誰がいつ何を買ったかまではわかるんじゃないの? 日本にいる限り、機械学習の論文をスクラッチで実装できるレベルになっても
大していい収入は得られないみたいだなあ
まあ。海の向こうでも5000万とかもらっているのは、
機械学習で新しいビジネスを開拓できる一部の人間だけみたいだけど プリファード何とかの人たちは結構もらってると思うけど 論文読んで実装するだけで高級もらえる仕事なんて世界中どこにもねえだろ >>939
いわゆるAI産業って基本的に詐欺だから、コンサルできないと金にはならないだろうな
実業で実質的な大きな利益を出すのはほぼ不可能でしょ AIが詐欺ってそもそもアホな考えだぞ。
グーグルのアルファ碁でAIの実力が示されてて有効だ。
AIが、人間がプログラムするよりも、人間のプロよりも強くなった。 >>943
うん。AIすごいね。で、どうやって金を生み出すの?
そう聞かれて相手に夢を見せられるような回答ができる?
それがコンサル力だよ
実際に利益が出るかどうかは問題じゃないし、問題にしてはいけない
そこに自ら手を突っ込んでしまうと一気に泥臭くなって単価が下がる たいして売上実績もないのに将来性だけで上場したHEROSの社長が一番AIを上手く活用してるよね >>945
君はもちろん払わないだろうけど、基本的にデータ分析やAI系の商売相手ってITについて素人同然のユーザー企業だからね
流行りだからなんかやってみることになったけどよくわかんないんだよね〜予算あるけど何やったらいいのかな〜くらいの意識よ
で金取ってPoCして「やれることはやった。期待したほどの効果が出なかったのは、お前らが選定したテーマとデータが悪いから。」で客に押し付けて逃げる
それがAIビジネス データ突っ込んだら必要な前処理と
最適な学習手法と
最適な評価指標を自動で教えてくれるツールが欲しいわ。 1銘柄の株価上下を予測するのが精度はでなくても、
1000銘柄くらい一気に同時学習させて
好調な上位10銘柄を出力させてそれらに
分散投資すればいいのではないだろうか。
問題は売却タイミングだな。
1度買ってしまったものはその銘柄の上下を
予測しなけりゃならんからな。
となると1ヶ月後に株価の増分が最大になる銘柄の
上位10を予測させて1ヶ月後に必ず売却すれば
いいのか。
テスト精度がそれなりに良くて、
勿論時系列データのSARIMAXを考慮すれば上手く
行きそうな気もするが… >「やれることはやった。期待したほどの効果が出なかったのは、お前らが選定したテーマとデータが悪いから。」で客に押し付けて逃げる
それがAIビジネス
請負ならそれでいいんだろうけどね レス数が950を超えています。1000を超えると書き込みができなくなります。