【統計分析】機械学習・データマイニング23

2019/02/28(木) 20:07:20.50

!extend:on:vvvvvv:1000:512
機械学習とデータマイニングについて語れ若人

■関連サイト
機械学習の「朱鷺の杜Wiki」
http://ibisforest.org/
DeepLearning研究 2016年のまとめ
http://qiita.com/eve_yk/items/f4b274da7042cba1ba76

■前スレ
【統計分析】機械学習・データマイニング22
https://mevius.5ch.net/test/read.cgi/tech/1547338417/

VIPQ2_EXTDAT: default:vvvvvv:1000:512:----: EXT was configured

2019/04/10(水) 08:41:40.81

>>633
禿違

2019/04/10(水) 10:40:49.77

anacondaて使っている人は多いの？
最適化されてなさそうで不安なんだけど

2019/04/10(水) 15:05:42.51

ancondaは初学者用
もう穴の時代は終わった

2019/04/10(水) 15:07:29.07

Anaconda使ってます！初学者です！！！

2019/04/10(水) 15:11:40.13

なんか深層学習の凄いアルゴリズムはないですか？

2019/04/10(水) 19:15:30.26

Pytorch勉強するわ

2019/04/10(水) 19:20:45.40

画像や動画、音声なんかでdeep learningやろうって話じゃなけりゃscikitlearnで十分だよ。
古いと言えばそうだが逆に言えばライブラリとしては結構枯れてる。
まあただこの仕事に憧れる奴はミーハーだろうからそういうのは好きじゃないんだろうけどな。

2019/04/10(水) 20:20:37.68

そもそも本格的にやろうとする人はpythonみたいな遅い言語は使わない

2019/04/10(水) 20:35:35.38

専門外だけどちょっと機械学習やったら後悔したよ
もうやめたい

2019/04/10(水) 20:48:11.24

>>644 自由にやめれば良い。誰にやらされてんだよ。

2019/04/10(水) 21:00:09.35

会社

2019/04/10(水) 21:12:05.86

会社ならDataRobotとかSPSS Modelerみたいな一般向けのツール買えばいいでしょ

2019/04/10(水) 21:21:21.50

ああいうの逆に使いづれーわ。excelのがマシなレベル。

2019/04/10(水) 21:42:06.24

>>646
やれって言われたの？

2019/04/10(水) 21:46:00.32

excel使いではな、公務員に転職したら

2019/04/10(水) 22:07:04.91

結局フォーマット合わせなり微妙な調整するんだからスクリプト書くことになる。
だったら最初からpythonで書いた方がマシっていう当たり前のことがバカには通じない。

2019/04/10(水) 22:27:38.52

ホームページビルダーみたいなもんでしょ

2019/04/10(水) 22:38:51.09

>>652
だからその手の手軽な分析だったらexcel使ってヒストグラムでも出した方がマシって話なんだよ。
ツールありきで考えるような人間はこの仕事に首を突っ込まない方が幸せだよ。
本人も周りも。

2019/04/10(水) 22:40:29.50

分析や機械学習までツールに投げるかは別にしても、データの準備にTalendみたいなETLツール使ったりは普通にやるだろ

2019/04/10(水) 22:51:35.01

>>654
そういうツール使ってうまくいくほど世の中のデータベースはスキーマがまともなことはない。
そしてそういう残念な組織ほど一発ツール使って解決しようとしてドツボにはまる。
スキーマがまともな組織な場合はまともなプログラマがいるのでこういうことで悩んだりしないという
ある種のデッドロックツールなんだよ。

2019/04/10(水) 23:10:31.24

田舎のおじさん企業にも始められる機械学習ツールて位置づけじゃない
そら国内sotaな現場ばかりじゃないからな
MLは高い数学の素養が求められる分またハードル高いし

2019/04/11(木) 05:49:37.85

そこまで高尚でもない

2019/04/11(木) 05:55:00.73

>>650
役所すらRPAに。

2019/04/11(木) 11:44:01.58

pythonは初学者用
もう蛇の時代は終わった

2019/04/11(木) 12:13:20.63

>>656　もう小学生でも遊べる時代だぞ。

2019/04/11(木) 12:15:00.11

>>659 初学者からプロ用途まで幅広く利用される。　実際にAI系はPythonがなければ始まらない。

2019/04/11(木) 18:34:12.24

データが綺麗ならそりゃツールにぶちこむだけで済むだろうが
そんな簡単な話は世間には転がってない。

2019/04/11(木) 19:41:03.21

>>660
そりゃMLツールで遊ぶだけなら誰でも出来るだろ
ビジネスやら研究の領域になったらそんな寝言は出てこん

2019/04/11(木) 21:20:07.45

>>648
分かる。
ビッグデータ分析といっても
ほとんどの会社では
Excelレべル。

python使ってど一のこ―のってのは
増えてきているが
ツール使うほどじゃない。

ツール使うとキレイな
グラフ描けるというぐらい。

Excel使って月収130万の俺が
言うのだから。
儲かってウハウハ！

2019/04/11(木) 21:29:58.73

すげーな（鼻糞ほじほじ）

2019/04/11(木) 22:46:29.44

そもそも、
利用についての話か
開発についてか
研究についてか
全部がごっちゃになってるので
話があわんよね

2019/04/11(木) 23:04:48.44

みんなDLのフレームワークは何使ってる？
やっぱtensorflow？

2019/04/12(金) 00:33:50.18

kerasってフレームワーク？ラッパー？

2019/04/12(金) 00:38:03.84

ラッパーだけどこんあ世間話ならkerasっていっていいんじゃない

2019/04/12(金) 04:37:48.52

ブラックホール観測データからpythonで補間しとった

2019/04/12(金) 04:40:47.15

須山がひよってた

2019/04/12(金) 06:48:10.78

>>661 >>659
pythonは遅い。なんでJuliaを使わない。

2019/04/12(金) 06:49:02.07

>>667
Flux。

2019/04/12(金) 07:28:52.14

速いから使うんじゃなくてライブラリの充実度や実装事例が多いから選ばれるんだぞ

2019/04/12(金) 07:47:44.32

てかライブラリがなけりゃ速いも遅いもないだろ。
結局ライブラリはcで書かれるわけで言語なんて関係ねーわ。

2019/04/12(金) 08:53:06.76

うん、だからpython向けのライブラリの大半と同様機能のライブラリが多言語向けにあるならそっちでもいいだろうけど今のところその点においてpythonから移るほどのメリットがある言語は存在しない

2019/04/12(金) 09:00:06.85

機械学習じゃないけど、昔のライブラリは色々な言語で出すのが流行ってたね

2019/04/12(金) 09:10:07.52

flux？

2019/04/12(金) 09:15:33.99

>>675 pythonライブラリがC で書かれてるからって他の言語で自由に使えるわけじゃないぞ。
結局Python でしか使えないからみんな Python を使ってる。

2019/04/12(金) 11:34:48.14

他言語がpythonと同程度にライブラリやらモジュール群、フレームワークが充実してたらここまでpython一択の状態になってない
てかjulia使ってみたいからjuliaエコシステム構築してけろ

2019/04/12(金) 14:36:30.51

初心者はkeras使うべきだったかもしれん…
pytorchわけわからん…

2019/04/12(金) 21:45:37.39

pythonの文法、numpy(scipy)、pandas、scikit-learnと覚えること一杯過ぎる

2019/04/12(金) 22:16:52.56

全部覚えてる人なんてごく少数だと思うよ。
できる人は、最低限必要な範囲を覚えてて、それ以外は概念を理解して
詳細がどこにあるか探し方が上手い。

2019/04/12(金) 23:13:50.71

【IT】ディープラーニング初心者向けの日本語学習サイト、PFNが無償公開･
https://egg.5ch.net/test/read.cgi/bizplus/1555071423/

2019/04/12(金) 23:15:02.89

初心者はkerasやkeras-rlで十分だよ
中級以上の用途でも既存クラスを継承して必要な所だけ改修すれば大抵は事足りるし

2019/04/13(土) 19:51:09.94

NEURON、てのを見つけた
https://neuron.yale.edu/neuron/

使っている人いる？

2019/04/13(土) 23:30:17.50

>>680
juliaは純粋に良い言語だと思ったよ
行列周りがスッキリかけていいね
一応pythonのライブラリ呼び出せるから無理すれば使えないことはないが、業務で使うレベルにはないかな

2019/04/14(日) 07:52:58.10

フレームワークとライブラリの違いがよくわかりません。
Pythonはフレームワーク？

2019/04/14(日) 08:24:01.10

Python は、プログラミング言語です

「フレームワークライブラリ違い」で検索！

2019/04/14(日) 08:25:20.18

Pythonは言語処理系で、特定のプログラミング言語を解釈して実行する。
フレームワークは文字通り枠組みで、特定のアプリケーションの共通部分
を提供してくれるので、残りの固有の部分を作ればよい。
ライブラリは一般的な機能をまとめたもので、実績のあるものを選ぶことで
ソフトの品質を保ち、テストや開発を効率的する。
敢えて包含関係をつけると Python＜ライブラリ＜フレームワーク

2019/04/14(日) 08:38:57.40

>>684
良さげなサイト。
これを学んだら、G検定合格に結びつく？

2019/04/14(日) 11:23:33.03

就活で機械学習使えます！って言うにはどんなこと理解してればいいの？
取り敢えずオライリーの機械学習の本は1週(完璧に説明出来はしない)してPytorchのサンプルコード使って画像分類してるくらいなんだけど
ちな新卒

2019/04/14(日) 11:58:50.62

>>692
就活する企業による

既にバリバリ使っていう企業ならもう一歩踏み込んで、どんなモデルで何をやっていたか、ハードウェアはどうしていたのか、なぜPyTorchを選んだのか、など機械学習そのものよりも、どう応用したのかが問われる

一方で全く使っていない企業ではそのレベルでも充分だが、やはり機械学習を使って何をしたのかは問われると思う

ただ、正直新人と機械学習にそこまで期待していないので、インターンとかアルバイトで感触と経験を積むほうが余程良いアピールになる

参考までに自社に機械学習できますで入ってきた新人は
・海外の論文を読んで自分で実装できる
・実際に機械学習で役に立つ何かを作った
・フレームワークの違いを熱く語れる
・FPGAで分類アルゴリズムを実装しました
とレベルは高かったが、入社して活用できているかは疑問
選ぶ会社間違えてないか？と心配になるレベル

2019/04/14(日) 12:20:56.98

割と真面目に新卒は学歴が全て

2019/04/14(日) 12:52:17.65

普通、企業では体系的に教育受けてるやつしか機械学習枠では求めてないよ。
ただ現在は需要のほうが大きくなってるからガバガバな求人もある

2019/04/14(日) 13:38:23.05

機械学習ブームは後２、３年は持つそうだ
ttps://www.sankei.com/premium/news/190414/prm1904140009-n2.html

2019/04/14(日) 14:03:00.79

入門書レベルの機械学習分かります、チュートリアルレベルなら自力でやれます、程度の人は仮に採用されてもその内に仕事の大半が自動化されて単なる作業員に成り下がるのがオチだと思う

◆QZaw55cn4c (ﾜｯﾁｮｲ 7247-yqpC [131.129.112.103]) · 2019/04/14(日) 14:04:26.57

>>696
AI とかは、なんか胡散臭いとどうしても思ってしまっていましたが（そんな人は多いのですかそれとも少ないのですか？）、この記事をみて認識を改めました、まだまだ可能性があると踏んでいる人はいるのですね

2019/04/14(日) 14:11:43.04

「頭の良い人」ほど意外と気付いていないことが多いが
世の中には「AI」より劣る人は大量に存在する
そういうのが一巡して一掃されるまでは続くだろ

◆QZaw55cn4c (ﾜｯﾁｮｲ 7247-yqpC [131.129.112.103]) · 2019/04/14(日) 14:16:59.66

>>699
現在の AI がやっていることよりも少ないことしか考えない人はすくなからずいるってことですか？
たとえば「原発再稼動反対」とか「自衛隊は違憲」の人たちだというのなら、少しだけわかるような気もします
でも私も彼らと似たり寄ったりなのかもしれない、という気もします、なぜなら彼らより考えているという証拠がないから

2019/04/14(日) 15:12:47.32

東ロボが技術的には保守的なのに偏差値50越えてるってことはそういうことだろう
東ロボ以下の人間が半分以上いる

2019/04/14(日) 15:15:40.40

正解データつくる業者が盛り上がってるよな（）

2019/04/14(日) 15:52:30.18

>>700 なんなんだこのバカは、只のアラシなのか？

2019/04/14(日) 16:00:27.45

理研は機械学習に全振りしちゃってるからそらオワコンとは言えんわな。

2019/04/14(日) 16:09:25.55

>>696
見れない。

2019/04/14(日) 17:13:40.96

>>701
京大ならともかく東大入試は一通りの参考書を丸暗記すればほぼ合格できる
つまり完璧な読解力さえ身につけられればコンピュータでも合格は容易

2019/04/14(日) 17:45:50.21

>>705
おま環

2019/04/14(日) 18:37:00.59

>>706
まるで「完璧な読解力」を実現するのが容易みたいな言い回しだな

2019/04/14(日) 19:27:38.81

He runs the shop.

2019/04/14(日) 19:58:08.96

学歴高い人多いのね
学歴低いから萎縮しちゃう

◆QZaw55cn4c (ﾜｯﾁｮｲ 7247-yqpC [131.129.112.103]) · 2019/04/14(日) 20:04:24.66

>>710
すごい人がいっぱいですね…
底辺高卒だから…いろいろとしんどいですね…

2019/04/14(日) 20:26:52.90

教師ありと教師なしだと教師ありの方が精度良いの？

2019/04/14(日) 20:34:12.62

はい

2019/04/14(日) 20:38:59.50

精度がいい悪いじゃなくて、基本的にタスクが違うと思うんだけど

2019/04/14(日) 20:46:53.17

>>714
画像分類なんだけど教師ありと教師なし上司がどっちが良いかも含めて検討しろって言ってた
俺知識が浅いから？？？ってなったんだけど教師なしで画像分類とかやろうとするとオートエンコーダとか使うんだよね？
多分それのことかなぁ…

2019/04/14(日) 21:06:17.07

>>715
教師ありならラベルの推定をするのが目的だし、教師なしならデータの分布自体を学習したりクラスタリングするのが目的になると思うけど
画像分類っていってるんだからラベルの推定をしたいってことなんだろうね

訓練データに全部ラベルがついているなら教師ありで学習するべきだろうし、
ラベルの付いたデータが少なくてたくさんのラベル無しデータがあるなら
半教師あり学習、PU learningや能動学習を検討すべきじゃないかなと思う

2019/04/14(日) 21:36:22.14

>>716
ありがとう
分かりやすい

今はラベル付いてる(自分で付けた)画像で分類出来るか勉強してるんだけど実際現場とかだとNG判別したい画像とかってほぼ取れなくて正常10万枚、不良1枚みたいな割合のデータしか取れないんだけどこういう場合も基本的には教師ありを使うべき？
それとも教師なしみたいな正常と不良の分布とかを学習させた方がいい？

2019/04/14(日) 21:55:55.23

>>717
不良率1/10万とか学習いらなくね？

2019/04/14(日) 21:56:43.63

ミス
学習じゃなくて分類、判別

2019/04/14(日) 22:06:53.96

そのレベルの検出精度を求めるなら機械学習は全然向いてないよ

2019/04/15(月) 12:18:17.97

機械学習とディープラーニングの違いは
一言で言うと

機械学習は、人間が特徴量を設計しなければいけない。
ディープラーニングは、コンピュータが自動で特徴量を学習する。

これでOKですか？

それで、従来の機械学習は廃れたの？

2019/04/15(月) 12:24:42.63

okじゃないです

2019/04/15(月) 12:34:43.64

ディープラーニングも機械学習のひとつでそ。

2019/04/15(月) 12:35:21.99

ディープラーニングは多々存在する機械学習的手法の1つ
これでOK

2019/04/15(月) 12:49:42.19

あまたの分析手法のなかでも
非線形の当てはめチャンピオンが
ディープラーニングと思ってOK？

2019/04/15(月) 16:52:49.51

みんなtensorflowとかkerasとか普通に使えるの？
書き方難しすぎてわけわからないんだけど…

2019/04/15(月) 17:53:51.19

>>726
それなら、SONYのNeural Network Consoleを
使ってみてはどうでしょうか？

2019/04/15(月) 18:21:23.77

keras使えなかったら諦めろ

2019/04/15(月) 19:22:34.95

>>721
他の手法も廃れてはいない
ディープラーニングはデータが大量にいるのと精度出すためのチューニングが難しいから

2019/04/15(月) 22:46:58.67

PyTorch、Chainer、Keras、TensorFlow等の
フレームワークとSONYのNNCなら
どちらの方を学んだ方が良いのでしょうか？

また、これらのフレームワークを使っている人から見て
SONYのNNCはどう思われますか？

2019/04/16(火) 00:07:54.62

>>730
主観で言うから話半分くらいで聞いてもらえば幸い
SonyのNNCは値段を気にしなくて良いのであれば、かなり良いと思う

例を挙げると、ResnetにSEでバイパスして結果をさらにLSTMに流して～、なんてのは慣れていてもコードベースだとごちゃごちゃする
また各レイヤーの入出力の次元を常に意識してコード書く必要があるけど、GUIでそのストレスが軽減されるのは大きい
拙いと言われつつも構造最適化機能がありtalos等のパラメータサーチを自分で設定しなくても済むのは便利だ
GUIで線を繋ぐだけなら初心者でも理解可能だけど、kerasだPyTorchだと言うところから始めると敷居が高くとてもそこまでたどり着けない

にも関わらず、なぜ大ブームにならないかと言うと、理由は二つあると考えている
一つは新たなネットワークを設計する業務がそこまで多くない点
もう一つはバックエンドがNNABLAというkerasでもPyTorchでもないマイナーなものである点

ただONNXという共通フォーマットに対応してからしばらく経つのにまだ流行ってないところを見ると、前者のネットワーク設計業務が業務として定着していないのだと思われる
githubで拾ってきたコードを適当に回せばそれなりに仕事として成立するのだろう

2019/04/16(火) 00:36:10.44

sonyのは素人でもポチポチするだけでできるお手軽ツールだからこれを使いこなすことを目的にしてはならない
なぜなら素人でも使えるものを人よりちょっと使いこなせるのは何の強みにもならないから
何となく雰囲気を掴んで今後更に勉強する前段階とするだけならいいけど

2019/04/16(火) 01:08:21.21

一昔まえならダントツでkeras一択だったんだけど、最近MSがちゃんとやりだしてpytorchが進歩しだした
ハッキリ言ってうざい

2019/04/16(火) 06:46:43.11

初心者ならchainerがおススメ。慣れてからpytorhもkerasもtensorflowもやれ。

2019/04/16(火) 07:22:30.06

msのcntkはオワコンなの？