【統計分析】機械学習・データマイニング21

■ このスレッドは過去ログ倉庫に格納されています
2018/11/04(日) 14:34:36.02ID:W830XVm1a
機械学習とデータマイニングについて何でもいいので語れ若人

※ワッチョイだよん

次スレ立ての際は、一行目冒頭に
!extend:on:vvvvv:1000:512つけてね

■関連サイト
機械学習の「朱鷺の杜Wiki」
http://ibisforest.org/
DeepLearning研究 2016年のまとめ
http://qiita.com/eve_yk/items/f4b274da7042cba1ba76

■前スレ
【統計分析】機械学習・データマイニング20
https://mevius.5ch.net/test/read.cgi/tech/1533635797/
VIPQ2_EXTDAT: default:vvvvv:1000:512:----: EXT was configured
2018/12/15(土) 10:52:28.95ID:xkVRNWRz0
統計検定でいいんでゅわ
2018/12/15(土) 11:30:35.29ID:kyezZXERa
統計学の研究者になるわけでもないのに統計学の論文書く必要などない
赤青緑本が理解できていれば後は必要に応じて学べばOK
2018/12/15(土) 12:27:01.90ID:xkVRNWRz0
410は文系ってことだ
2018/12/15(土) 13:12:41.57ID:eVBSbVQr0
機械学習に数学はいらない
2018/12/15(土) 14:20:12.17ID:f2LfaFj60
>>410
0本です
本職は機械屋さんです
2018/12/15(土) 14:25:31.33ID:f2LfaFj60
データさいえんてぃすとってなに?
2018/12/15(土) 14:25:47.32ID:f2LfaFj60
何ができるひと?
2018/12/15(土) 15:20:47.62ID:NVB+bBb/0
ggrks
2018/12/15(土) 15:36:11.12ID:f2LfaFj60
>>409
前提となる条件がよくわからないが

>>なんで成立するか
a,b,cそれぞれの間に相関が無いベクトルに変換したからです。
相関が無いと判断される手法によって結果は異なる。

例えばPCAであればa,b,cの相関係数が最小になるように特徴量が分解される。

>>入ってくるデータは作成に使った特徴量を持ってない。
⇒???
言ってることがよくわかりませんが、前処理にて得られたベクトルに一度変換してください。
2018/12/15(土) 15:56:42.77ID:f2LfaFj60
>>409の後半
>>f(a,b,c)を内部でコンピュータが作ってくれて〜〜a,b,cを持つデータを入れたら答えが返ってくる

⇒その認識で合ってます。

任意のA,B,C,D,E,F,‥‥ってデータ(ベクトル)があったとき、a,b,cに変換する関数を作成するのが前処理と考えたらよい
2018/12/15(土) 16:16:03.44ID:f2LfaFj60
>>418
なるほど‥最近
『データさいえんてぃすと』になるためのビジネス講座が流行ってるのですね。

受講による費用対効果は知らんけど。
2018/12/15(土) 16:38:18.36ID:+IDB+5iI0
>>421
答えになっていないぞ、検索もできないのか

データさいえんてぃすとってなに?
何ができるひと?
2018/12/15(土) 16:39:50.66ID:f2LfaFj60
>>421
対したこと出来ない人ってことはわかりました
2018/12/15(土) 23:22:01.13ID:f2LfaFj60
あと線形代数について、大学の一般教養より進んだところまでの学習をお勧めします。

特異値分解、ぺロンフロベニウス根などですね。
Google行列の話など面白く、なかなか応用性があることに気づくと思います。
2018/12/16(日) 10:11:11.58ID:PlxjIYkX0
最初から対したことない奴だと思っていました
2018/12/16(日) 14:00:15.57ID:WrKErRgG0
たいしたことできないってことがわかる機械学習
2018/12/16(日) 14:20:05.34ID:WG5rS8yz0
対したことない人に負けないようレベルアップしてくださいな
428デフォルトの名無しさん (トンモー MM47-LhEE)
垢版 |
2018/12/16(日) 15:03:43.09ID:CelBVMApM
もう15年ほどデータ分析してますけど、
統計学や情報工学の知識が必要になった
ことはわずかです。
しかも基礎的な知識のみ。

客が理解できないことはできませんので。

専門家が増えて、分析の発注者側となってから、
専門的な知識が要求されるようになると思います。
それは20年先でしょうね。
429デフォルトの名無しさん (ワッチョイ 1e80-2dqZ)
垢版 |
2018/12/16(日) 15:08:38.20ID:Q57qqdXG0
データアナリシスとかいっても
仕事のほとんどはデータ抽出加工ドカタだからな
DA()w
2018/12/16(日) 15:10:33.11ID:WG5rS8yz0
>>427
私は立場的にお客さん側の人間なのですが‥
2018/12/16(日) 15:11:30.14ID:WG5rS8yz0
失礼。またずれた。
>>428
私は立場的にお客さん側の人間なのですが‥
2018/12/16(日) 15:47:39.48ID:SBaKPnMMa
自分が低レベルの仕事しか任されていないだけなのを自ら晒して恥ずかしくないのかな
433デフォルトの名無しさん (ワッチョイ 1e80-2dqZ)
垢版 |
2018/12/16(日) 15:59:13.38ID:Q57qqdXG0
市場調査のヤツラとは関わったことがある
そいつらだったら大体どんなヤツラかは分かる

結構狭い業界だからな

そいつらはドカタからみれば客かもしれんが
その先にまた別の客がいる

その別の客をどこがもってるかだからな
当然ココで業界内での力関係の差はっきりみえる
超格差業界
2018/12/16(日) 20:55:55.59ID:LisZ4hwI0
まだ若い学生プログラマーには
学生のうちに知識と創造力の拡充をお願いしたいですね。

物事は簡単であるべきだが、簡単過ぎてはならない。
2018/12/16(日) 21:02:53.02ID:vXltm68N0
その代わり給料と地位をお願いします
2018/12/16(日) 21:20:00.16ID:34+0Dbi20
外資並みによろしく
2018/12/16(日) 21:54:55.87ID:GgN1VImqa
それなら結果出せなければ最低賃金レベルしか出ないけどな
2018/12/16(日) 22:09:11.00ID:hH1Y5jeg0
外資の知り合い居るけど最低賃金なやつ聞いたことない。みな並以上
2018/12/16(日) 22:10:18.61ID:hH1Y5jeg0
と日系の社長が申しております。
って返す方が気が利いてた。スマン
2018/12/16(日) 23:05:59.57ID:LisZ4hwI0
ずっと平凡であるか、価値のある人間を目指すかの違いと思います。
2018/12/17(月) 00:34:07.50ID:ViMAqh+Fa
わざわざ賃金水準教えてくれる時点で世間相場と比べてある程度自信ある人であるという偏ったデータしか計測できていないんだよな
2018/12/17(月) 06:31:38.20ID:AqvOLsEL0
>>412
>赤青緑本が理解できていれば後は必要に応じて学べばOK

赤?
https://www.oreilly.co.jp//books/images/picture_large978-4-87311-758-4.jpeg

青?
https://images-na.ssl-images-amazon.com/images/I/819entjFISL._SL1500_.jpg

緑は?
2018/12/17(月) 06:47:25.76ID:K5iKzo1Q0
赤青緑本、
こういう言い方きらい
2018/12/17(月) 07:26:10.21ID:hmSZUCi50
そんな呼び方が出来てたのかw
チャートみたいな存在になってんだな
2018/12/17(月) 09:37:24.71ID:qI5W00f5M
像本とかラクダ本も読まな
2018/12/17(月) 09:52:02.87ID:qI5W00f5M
赤は➁もあるでよ
447デフォルトの名無しさん (ワッチョイ 23e7-L7tX)
垢版 |
2018/12/17(月) 10:33:03.86ID:Jx08wdAG0
行政機関はExcel形式での統計情報の配布をやめてほしいなあ。
XML形式かCSV形式で一般公開してほしい。
2018/12/17(月) 10:41:14.66ID:5wCelRBnH
初心者でkaggle始めたばっかなんだけどさ
機械学習始める前のイメージだと生のデータをとにかく突っ込めば後は機械が判断してくれると思ってた
でも生のデータの欠損埋めたり、関係性を調べて新しい特徴量作ったり、なんか泥臭くない?
人力の部分が多いんだなってちょっと萎えてきてる。もっと何かすごい技術なイメージだったのに
449デフォルトの名無しさん (アウアウエー Sa82-8c3P)
垢版 |
2018/12/17(月) 10:50:05.23ID:2PsaUU1ba
>>448
no free lunch定理という、どんなデータでもうまくいく万能のアルゴリズムは無いという定理がある
だからそういうデータに特化した処理や、特性に合ったアルゴリズムの選定といった泥臭い事をしないと精度が出せないのは仕方がない
2018/12/17(月) 10:51:21.54ID:w+CCuEs80
>>442
統計の赤・青本かと思った
https://tjo.hatenablog.com/entry/2013/10/08/203547

緑は分からん
2018/12/17(月) 10:56:10.19ID:qI5W00f5M
泥臭いことをやる万能AIを泥臭く一回作るんや
452デフォルトの名無しさん (JP 0H47-CHQN)
垢版 |
2018/12/17(月) 11:17:19.60ID:dHWhre3aH
POMDPってなんて読むの?
ポンディーピー?
453デフォルトの名無しさん (スフッ Sdaa-H6+A)
垢版 |
2018/12/17(月) 11:55:47.72ID:85V8tM2Yd
ディープラーニングや機械学習の数学って
中学生レベルでは無理?
454デフォルトの名無しさん (アウアウウー Sa4f-LVLw)
垢版 |
2018/12/17(月) 11:59:23.77ID:DntVs6XQa
>>424
長谷川浩司先生の「線形代数」に載っている。
2018/12/17(月) 11:59:26.03ID:d/krKCoDM
そもそも、最近の中学生は統計学も幾何学もしないんでしょ?
2018/12/17(月) 12:02:57.12ID:jkPJsDhgM
微積やんなよ
2018/12/17(月) 12:18:19.23ID:n3iny2IT0
>>453
別に大丈夫
微分積分と言っても結局はモデル構築が主なので、
そこまで深く知らなくてもよい
最小二乗法とかも言葉の意味知ってれば大体理解できる。後は関数に放り込むだけだし
2018/12/17(月) 12:19:08.02ID:H6jXePT1a
>>450
緑=人文・社会科学の統計学 (基礎統計学)
https://www.amazon.co.jp/dp/4130420666/
459デフォルトの名無しさん (アウアウウー Sa4f-LVLw)
垢版 |
2018/12/17(月) 12:26:23.19ID:DntVs6XQa
>>456
線形の方が微積より必要。マセマ でもやれ。
2018/12/17(月) 12:29:27.44ID:jkPJsDhgM
せやな
2018/12/17(月) 12:44:39.16ID:hc1NFolx0
機械学習に数学はいらない
2018/12/17(月) 12:55:59.01ID:TXQpWudsd
>>442
この路線なら久保先生の本じゃね?
2018/12/17(月) 14:35:16.79ID:oMwl1qsb0
>>458
なる
2018/12/17(月) 17:43:44.98ID:+K5AHMUC0
要らない派からマセマ派、ルベグまでやれ派と入り乱れてますな
465デフォルトの名無しさん (トンモー MM47-LhEE)
垢版 |
2018/12/17(月) 19:02:53.31ID:n7hAu6UxM
仕事でデータ分析するには
数学は、ほぼ必要ないね。
理論的なこと聞かれたのって2、3回しかないし。
ただ、その2、3回聞かれたときに
ビシッと答えたからずっと高い報酬貰えてるんだと思います。
2018/12/17(月) 19:07:51.30ID:jkPJsDhgM
詐欺師めw
467デフォルトの名無しさん (アウアウイー Sae3-igRr)
垢版 |
2018/12/17(月) 20:48:03.14ID:S6eGuv5Sa
>>464
たしかに、利用する対象や場面によって、
その重要性は変化するから
一概にどちらといえないでしょうね。
468デフォルトの名無しさん (ササクッテロラ Spa3-ISso)
垢版 |
2018/12/18(火) 12:12:42.85ID:yMWs9D+/p
>>447
excelからCSVやXMLに変換するのなんて簡単にできる事じゃね?
受け取る側は色んな人がいるんだからその中で多くの人が慣れ親しんでいる形式を採用するのは判る
2018/12/18(火) 12:30:35.86ID:drKI9kyXM
Excelはねえ。見た目優先で作ってセル結合やらされると、行によってカラムがズレたりして自動化出来なくなるのが問題なのよ
2018/12/18(火) 12:33:21.09ID:drKI9kyXM
Excelを一旦画像にしてAIで処理させた方がいいかもね?
2018/12/18(火) 13:30:36.51ID:gd3MIM5DH
初歩的な質問で申し訳ないんだけどディープラーニングの活性化関数って何のためにあるの?
階段関数は分かる。0か1の2択にしたいんだなって
でもシグモイドやrelu(の0以降)は連続値じゃないですか。なら入ってくる値をそのまま使っても何も問題ないんじゃないか
わざわざ関数に突っ込む意味あるんだろうかって思うんですよ
2018/12/18(火) 13:58:19.11ID:FHpOcoYR0
非線形関数に代入しないと線形変換しかできない。
行列の積と和を繰り返しても連立一次方程式にしかならんのだよ
473デフォルトの名無しさん (ササクッテロラ Spa3-ISso)
垢版 |
2018/12/18(火) 16:51:18.50ID:yMWs9D+/p
>>471
階段関数は微分できなくね?
2018/12/18(火) 18:11:56.54ID:gd3MIM5DH
>>472-473
お二方の言ってることが全く理解できないので自分にはまだ早いことは理解できた
前のノードの値×重みを足し合わせたものを次のノードに送るくらいの認識しかないので線形だの連立方程式だの微分だの何が関係あるのだろうレベル
2018/12/18(火) 20:35:01.16ID:O5jE7AS20
>>472
>行列の積と和を繰り返しても‥

んなこたーない
2018/12/18(火) 22:33:21.28ID:O5jE7AS20
あまり本を鵜呑みにしないように‥
2018/12/19(水) 00:11:12.23ID:R79UPiko0
このへんが簡易な本を嫌うべき理由ですね。
簡便な例でもって納得した気になってしまう。
478デフォルトの名無しさん (オイコラミネオ MM96-QeEb)
垢版 |
2018/12/19(水) 05:06:16.83ID:wdzWFhPYM
>>457 たとえば理論では絶対値たが、計算量を少なくするために二乗に換算すればいいとか、

私が知る範囲の機械学習では見ないけど、たとえば微分方程式を使うなら可能な限り級数展開で近似してから解く、とかじゃない?

機械学習の理論は東大、京大生に任せておくとし、私のようなヴァカは理論に突っ込んで課題をクリアするために、数学よりc++だな。pythonのほうがライブラリあって良さそうだが、産業用途では使えんからなあ。
479デフォルトの名無しさん (オイコラミネオ MM96-QeEb)
垢版 |
2018/12/19(水) 05:13:01.29ID:wdzWFhPYM
高専のとき選択でニューラルネットワークがあってなんに使うんやと寝てたけど、いま普通にデータ突っ込んでるな。

いまいち検出器の選定がわかんないんだよな。入力データのバラツキとかの性質と、検出器の数学的性質を結びつけれる脳みそがあれば、どういう前処理をすべきかわかるし、捗るんだろな
2018/12/19(水) 09:33:59.69ID:jzYXTi8Ia
pythonだと産業用途で使えないという理由が分からないけど学習結果の利用という意味なら例えばtensorflowは言語依存のない形式で学習済みモデルを保存できる
というか機械学習フレームワークで検索上位に出るようなものならほとんどは言語依存ないフォーマットで出せるはず
481デフォルトの名無しさん (ブーイモ MM6f-0Mu6)
垢版 |
2018/12/19(水) 15:02:50.58ID:XaHr9AnuM
〉〉480

たぶん研究段階ではpythonでいいけど、製品レベルに実装する場合は、
pythonではなくc等が主流だから、「製品開発者等では」ってことを
言っているんじゃない?
2018/12/19(水) 15:38:11.72ID:Ms5INDSEM
モデルと実データをライブラリに食わせるCコード書くだけでいいのちゃう
2018/12/19(水) 17:24:57.84ID:Q8dTxw3N0
pythonのコード隠蔽したいのかな。
pythonを暗号化してテキストでもっておき、C++のプログラム内でメモリ上に復号、python本体に送ってキックするってことはできるよ。
メモリを覗かれてしまったらアウトだけどね。
pythonを完全に隠蔽したいならクラウドじゃないとできないな。
484デフォルトの名無しさん (ササクッテロラ Spa3-ISso)
垢版 |
2018/12/19(水) 17:40:50.77ID:R/AQ8eSIp
>>481
製品って具体的にどんなものかによる
組込的なものだとそうかもしれないけど
サービス的なものだと関係ない
2018/12/19(水) 17:51:42.99ID:q2I72u2nM
基礎はやりたいフィールドのテッペンを概観でるレベルで十分
そこで大きな壁が何枚もある事を把握してから必要な基礎を潰していく
いつまでも基礎基礎いっててなかなか前に進まないのが日本教育のだめなとこだな
みんな染み付きすぎて疑問にもおもってない
2018/12/19(水) 17:56:47.59ID:Ms5INDSEM
テッペン見てから必要なだけ降りたらええちゅうことね
2018/12/19(水) 19:38:11.41ID:R79UPiko0
>>485
やりたいフィールドに限定すると、他分野の視点から見えるものも見えなくなる
2018/12/20(木) 00:43:50.31ID:0XNWkq3y0
基礎をおっかけるレベルでそれはねえ
2018/12/20(木) 09:56:46.33ID:zvkF6ECRM
AIを使いたいんじゃない。
茄子の仕分けがしたいのだ。みたいな
2018/12/20(木) 16:02:48.40ID:QKOzYWM00
夢無い記事
https://tech.nikkeibp.co.jp/atcl/nxt/column/18/00138/121400206/?P=1

日本で5人の実力を持ってても、名刺OCRしか活躍の場が無い。
(分析出来るデータが国内企業に無いし)
491デフォルトの名無しさん (ワッチョイ 4523-1q7i)
垢版 |
2018/12/20(木) 17:28:29.50ID:t8x/0UH10
おもろい
492デフォルトの名無しさん (JP 0H59-2M8b)
垢版 |
2018/12/20(木) 17:57:27.11ID:pvKHw8OKH
http://monoist.atmarkit.co.jp/mn/articles/1812/18/news047.html
なんじゃこりゃw
2018/12/20(木) 18:09:43.22ID:BNnLdzd/a
https://paiza.hatenablog.com/entry/2018/12/20/【1位はGo言語】機械学習人気でPython・R言語も上位に!
494デフォルトの名無しさん (オイコラミネオ MM2b-8XTe)
垢版 |
2018/12/20(木) 19:10:08.34ID:y/0AbOWxM
>>483 そこまでする人は最初からCで書くだろう。
2018/12/20(木) 20:26:07.75ID:1ZGu8YZza
>>490
名刺の会社にGrandmasterが2人もいるの不思議だよな
GAFAとかヤフーとかメルカリに行けばいいのにと思うけど、開発環境が魅力的なのかな
2018/12/20(木) 20:37:23.22ID:m4Vq6pGD0
>日本人の名刺なら「98%の精度で種別を判定できる」
う〜〜〜〜ん
2018/12/20(木) 21:55:38.26ID:1IWPdvcn0
メルカリ・・・
2018/12/20(木) 22:03:38.17ID:jyk8KY1l0
>>492
> 2020〜2021年ごろをめどに実用化を目指す。

はいはい
2018/12/20(木) 22:19:39.52ID:zmoosF6L0
>>490
この人なんで名刺に拘るんかな
他業種でも引く手あまたやないの
2018/12/20(木) 22:41:01.49ID:m4Vq6pGD0
>>499
給料良かったか、社風が合ってたんじゃないかな
勤務時間に勉強出来るとかじゃないとすぐに陳腐化してしまう
2018/12/20(木) 23:08:54.62ID:1IWPdvcn0
転職はIT系の中でさえあんまり遠くに行けないんだよ
2018/12/20(木) 23:15:30.51ID:1ZGu8YZza
kagglerはGrandmasterになると目標がなくなって弱くなる説ある
503デフォルトの名無しさん (スフッ Sd43-7yME)
垢版 |
2018/12/21(金) 15:13:58.46ID:e1hlpNlkd
ディープラーニングで、ロト6等の数字選択式宝くじの予想をやる場合
過去の全ての当選数字のデータを
多分、教師なし学習をさせて
AIが自動で特徴を見つけて、次回の当選数字を予測させることをやりたいのですが

どんなアルゴリズムが最適なのでしょうか?
画像認識の場合はCNNですが、次回の当選数字の予測は?
よろしくお願いします。
2018/12/21(金) 15:29:25.68ID:l+qby1fs0
誰がお前の金儲けの為に唯で教えてやるの?
2018/12/21(金) 16:11:56.79ID:rlKfPByqd
こんなところで聞かなくてもググればLSTM使って予測してるの出てくるだろ
2018/12/21(金) 16:37:41.59ID:25HIctKAd
毎年の当たりくじ番号なんて互いに相関が無く、独立な事象過ぎてやるだけ無駄と思われる。それでもやる?
2018/12/21(金) 18:03:46.75ID:vBAMI/Fmd
マジレスするとrand()が最強
DNNと同等の精度が出る
508デフォルトの名無しさん (トンモー MM59-Kky7)
垢版 |
2018/12/21(金) 19:24:26.23ID:y6GICHw5M
>>507
それな。
だが、本当に乱数なのかな?
乱数の検定が圧倒的に否定されたので、
誰かが当たり番号を操作してると思う。
2018/12/21(金) 19:35:05.93ID:NPvPpeG0M
ロトの乱数生成の手法調べたらいいのか
意外と運用適当だったりしそう
2018/12/21(金) 19:37:05.65ID:j1TAG+KNa
コインを投げろ
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況