【統計分析】機械学習・データマイニング30

2021/01/01(金) 09:10:55.46

!extend:on:vvvvvv:1000:512
!extend:on:vvvvvv:1000:512
↑すれたてる毎に１つずつ減るので、減ってたら３回に増やしてたてること。

機械学習とデータマイニングについて語れ若人

＊機械学習に意識・知能は存在しません。
　　人の意識に触れたい方はスレ違いです。

■前スレ
【統計分析】機械学習・データマイニング29
https://mevius.5ch.net/test/read.cgi/tech/1597882603/
-EOF-

VIPQ2_EXTDAT: default:vvvvvv:1000:512:: EXT was configured

2021/04/20(火) 09:05:48.17

ファインチューニングすらしないでいいとか羨ましい

2021/04/20(火) 09:49:15.80

データの仕事するなら数学よりコンサル力が重要
もしくはWeb分析や製造管理などドメイン知識を学んで特化するかだな
技術系でいきたいならクラウド使って基盤から自分で作れるようになれば引く手数多
最適化エンジニアは自動化されて終わるよ

2021/04/20(火) 11:59:17.59

メーカー研究開発やってるけど機械学習に対する敷居はここ数年で大きく下がったね
GUIツールなら実験系の人でも普通に使ってるし
データサイエンスに加えて、それ以外の専門を持たないと厳しいね

2021/04/20(火) 18:16:49.45

>>432
会社バレしたくないから言えないですごめんなさい

>>434
Web分析やりたいなぁ　スクレイピングさせてもらえるなら楽しいだろうな
>>435
ドメイン知識大事なのはわかる
世の中の全員が機械学習できるようになったらとても楽しい世の中になると思う

2021/04/20(火) 18:27:49.71

>>436
特殊なシステムか。。。
ソニーの奴辺りを使ってるかと思った

2021/04/20(火) 22:42:35.89

>>435
というか、専門分野を持たない統計屋が成り立ってる現状が疑問
数学をさらに極めているアクチュアリーでさえ、金融工学等でスキル補強してる

2021/04/20(火) 22:59:27.20

だからデータサイエンス学部とかちょっと心配になるね。

2021/04/20(火) 23:09:28.18

データから突き詰めていけば
その領域の構造も見えてくるんじゃないの？

予備知識として知っておいた方が良いけど
先入観とか思い込みで新たな発見を阻害しているかも

2021/04/20(火) 23:58:44.60

データから突き詰めて、分かった事実の99%は、その領域の人間にとって、何を今さらって言うレベルの常識なのが現実

2021/04/21(水) 00:26:38.44

それでも需要があるのは何故？

2021/04/21(水) 04:57:56.95

（１）マーケティングの成功　（ただ単に運がよくはやれたってだけかもｗ）
（２）１％に賭けてるところもあるかもしれない　（薬系なんかは特に）

2021/04/21(水) 09:27:01.32

いわゆる「暗黙知」の問題を解決できるから
例えば、初心者に対して説明しやすい
あまりにも当たり前だと思い込んでしまっていることは
そもそも話そうとすらしない

2021/04/21(水) 15:29:43.27

それも現場では当たり前だから話そうともしないけどね。

2021/04/21(水) 16:39:38.54

データサイエンス学部って企業と組んでむしろゴリゴリドメイン細分化してなかったっけ
DS実用化の観点からは正解にも見えるけど

2021/04/21(水) 16:58:44.66

企業と組むっていってもデータ渡されてモデル作るだけでしょ
少なくともうちの会社と大学の共同研究はそう
そんなもんKaggleと大差ないよ

2021/04/21(水) 17:10:53.01

ほんまやね
新しい学部だし企業でもないからそこまで深くコミットすること出来ないんでしょね

2021/04/21(水) 18:06:22.19

基礎だけ教えるだけでしょ
あとはpythonかrあたりを習わせて

2021/04/21(水) 20:54:12.98

リコメンドとかは個人毎に人がやるのは作業時間的にむりなんじゃね？
作業時間は人件費、コストになる
売上アップ分より少ないコストで実現できれば投資する価値がある

2021/04/21(水) 21:00:23.59

当たり前と思われている事も
具体的にどの顧客やケースに適用できるかは
勘でしかわからなかっただろうから
担当者毎に違う判断をすることになる

ある担当者は知見を使えると考えるけど
別の担当者は知見を使えると考えない
その知見が明確に認識されていなければ組織内で共有もされていないだろうから
経験の浅い担当者はその知見があることすら認識していない

知見を可視化する事は共有可能になるし
組織全体の成果の底上げにつながる

2021/04/21(水) 21:22:24.85

一般論としてはその通りだけど、実際の仕事では一般論じゃなく個別の課題に対して何をどうすればどう効果があるのかを説明できなきゃいけない
容易に想像できる通り、そのためには最適化より重要なスキルが山ほどある

2021/04/21(水) 21:58:18.31

解くべき問題を探し回って捻り出さなきゃいけない時点で相当なハンデなんだよな
普通のソフトエンジニアリングだったら、解くべき問題なんてそこら辺の事務のおばちゃんに聞けばいくらでも出てくるだろう
逆に言えば解くべき問題を見つけられる人間に希少価値があるとも言えて、だからコンサルの飯の種としては最適だ
一方で解く側の人間にとってはパイの小さな分野だと言える

2021/04/21(水) 22:49:45.31

今の世界中の課題は新型コロナ
データサイエンスで何ができるか

2021/04/21(水) 22:51:36.83

少し前に目の結膜か何かをカメラで撮ると感染しているか判別するAIアプリのニュースがあったな
役に立つのか知らんけど

2021/04/21(水) 22:55:35.42

ガンとか他の病気も早期発見できたら役に立つと思うけどな
トイレの便器にセンサーつけて異常検知するとか言うニュースもあったな

コロナ禍でストレスかかってる人が増えているとかも聞くし
早く検知して対処できたら良いんじゃね？

2021/04/21(水) 23:33:54.27

普通のソフトエンジニアリングでも、データドリブンな開発というのはこれから重要になっていくと思うけどな。
その辺のおばちゃんが言ってることをデータを収集して分析して、本当なら改善すればいいし単に特殊例でそうなっただけならスルーすればいいし。
定性的な開発で済む場合もあるけど、定量的な開発ができることで業務改善できる分野はいっぱいあると思うよ。少しでもそういう見方で意味論をある意味捨象して数値で評価しようとする立場の人間が増えることはいいことだと思うけどな。
まあ、数値の評価ってのはいかようにも出せるので、文系的な議論がしっかりなされた上で数値的な評価で裏付ける、というのがよいと思うけれど。

2021/04/22(木) 02:31:03.78

事務のおばちゃんを例に出すまでもなく、ソフトウェア・エンジニアリングはマネタイズの方法がたくさん開発されてて実績も豊富
DS分野でいうとBI導入が流行ってるのもマネタイズの分かり易さからでしょ

2021/04/22(木) 08:38:37.02

ソフトウェアエンジニアリングとかソフトウェア工学って
ソフトウェアを作るときにバグをどうやったら少なくできるかとか
生産性を上げるにはどうするかとかそう言う分野のことを指すんじゃね？

ソフトウェア事業とかソフトウェアビジネスって言った方が良い

2021/04/22(木) 08:57:06.72

>>459
正解

2021/04/22(木) 09:30:40.56

マネタイズできてるのはかなりの規模で使われた場合ばっかだろ。
中小や受託案件なんかは全く関係ないわ。

2021/04/22(木) 14:18:43.57

>>454
むしろ、コロナ騒動でデータサイエンティストの無力を実感

・国や地域によって患者・重傷者・死者のカウント基準が異なる
・陽性と判定するCt値も同様に定まっていない
・PCR検査以外の感染者の検出方法ほぼ全てで擬陽性が多分に含まれる手段を用いている

データとしてゴミだらけで統計以前。
これらに問題提起をして的外れな対策に意見すべきであった

2021/04/22(木) 14:42:04.01

検査数(当日)と患者数(2日前)とか
そこからかよ。みたいな

2021/04/22(木) 18:30:59.89

>>462
所詮雇われ屋しかいないしな
まともな予測出したのって北海道の免疫学の教授とGoogleくらいでしょ

2021/04/22(木) 19:26:43.57

頼れそうなデータは重症者と死者数なんだが
死んだときに感染していればカウントするそうだから
データとしては「かなり」多めに出るな
誤差さえわからない

2021/04/22(木) 19:47:09.32

「重症」の定義が国によってばらばらなんだが

2021/04/22(木) 19:47:48.04

＋日本の新規感染確定＠PCR分てのは保健所分だけ公表で、医療機関独自系は非カウントなう

2021/04/23(金) 08:36:21.23

死者数のリボルビング発表も言われてるしなあ

2021/04/23(金) 17:31:31.74

ワクチン開発で多数の候補物質からふるい落とすとかに活用したらしいけど
そういうのは半端なくドメイン知識いるし

2021/04/23(金) 18:44:22.53

>>469
候補を出すだけならいらないんじゃない？

2021/04/24(土) 08:25:25.67

データサイエンティスト「こちらが候補の一覧です。何の物質なのかわかりませんけど。」
お客さん「・・・」

おわり

2021/04/24(土) 12:25:29.89

やっぱデータサイエンチストに任せずに自分でやったほうがいいか

2021/04/24(土) 15:21:15.93

>>471
物質名か構造式が出てくれば後は自動で絞り込めるよ
まあそれもデータサイエンティスト側でできるか

2021/04/24(土) 18:30:45.31

製薬やマテリアルは自然界の物質をそのまま変数として使えるから、さほど難しくないテーマ
世の中の大多数のテーマは変数の生成から始めないといけない

2021/04/24(土) 19:20:19.57

データの意味を知らずにできるような単純な問題ならそれこそデータサイエンティストなんか要らんよ
親切なツール使えば現場の人間でも難しくないだろうし、近い将来完全に自動化される

2021/04/24(土) 19:24:54.82

マテリアルもいい記述子見つけるの大変だよ

2021/04/25(日) 12:26:44.89

ワクチン開発でDNNを活用するというのは異常に難易度が高いよ。
例えば、コロナウィルスの場合、COVIDウィルスのスパイクのタンパク質配列とかを
学習データに使用するけど、普通は、この種のウィルス特有のデータを10種類以上
選択する必要がある。このデータ選択は、ウィルスの専門知識がないと無理。
状況によっては公開データが用意されていない場合もあるので、その場合は、
研究室でタンパク質配列とかRNA配列とかを解読する作業も必要となってくる。
さらに、DNNに関しても、既存のネットワークを流用することはできないので、
新規にネットワークのアルゴリズムを作る必要もある。この作業は、普通のAI
エンジニアでは無理。更に、機械学習に関してもかなり膨大なGPUリソースが
必要となる。また、専用のネットワークは動かしてみた上で修正を入れるという
作業が発生するため、TPUv3x1024くらいのリソースを開発期間の数ヶ月に渡って、
占有するという状況が発生する。開発要員としてはウイルス学、AIの各領域のポスドク
クラスの専門研究者を10人くらい集めて、さらにクラウド費用として数億円くらいアサイン
する必要があるかもね。まあ、これはほとんど不可能な要件なんだけどね。

2021/04/25(日) 16:03:32.73

>>477
十年前からきたのかな？

2021/04/25(日) 16:35:58.53

>>477
去年効果のありそうな物質の候補をリストアップしたニュースがあったな

それになんでもDNNを使わなくて良いし

2021/04/27(火) 21:39:48.80

東大卒　旧通産省・工業技術院の元院長・飯塚幸三
「ブレーキを踏んだが、車が加速した」

流石高学歴で上に行った奴だな
この程度の嘘を平気でつけるのがこのクラス
AIで犯罪を起こしそうな率を検出させてみると
政治家とか企業のトップとか軒並み率が高そうだけど
末端労働者程率が低かったりして
犯罪者が作ったルールに一般市民が従っているっていう

2021/04/27(火) 21:55:07.22

菅義偉の詳細データ入れると
99.9％とか出るんだけど
菅総理だけ表向きの事情で0%にしないといけないっていう
そんなチューニングがメンドクサそう
特別なチューニングを何個もやってるうちにおかしなシステムになって
最終的に末端が叩かれて
一般人が犯罪者になるっていう

2021/04/27(火) 22:26:18.40

馬鹿参上

2021/04/28(水) 00:01:36.86

頭にアルミホイル巻いとけ

2021/04/28(水) 00:48:19.24

AI疲れだな
GWにしっかり休んでくれ

2021/04/28(水) 07:27:21.67

あさからわろらされたわｗｗｗ

2021/05/02(日) 11:16:21.40

>>1
sdgと言われるとsgdと空目する

2021/05/02(日) 17:25:15.38

あわしろ氏は、AIはベイズ推論だけで十分だって言ってたけどね。

2021/05/02(日) 18:08:34.90

十分というか今AIと言われているものはほとんどがベイズの枠組みで記述する方が分かりやすいし柔軟的に拡張できるからな

2021/05/02(日) 18:11:39.92

ビショップの本を買ったのですが、積読状態です。
気合入れて読む価値はありますか？

2021/05/02(日) 18:13:31.90

フィールズ賞受賞者のD. マンフォードらのパターン認識の本が全く話題になりませんが、あの本はどういう位置づけの本なのでしょうか？

2021/05/02(日) 19:10:03.88

基礎

2021/05/02(日) 20:33:26.36

一般教養。

2021/05/02(日) 23:43:59.54

>>487
今なら深層学習を最初にやるべきだと思う

2021/05/03(月) 07:36:08.52

>>487
誰？

2021/05/03(月) 08:09:03.39

IT業界に居て知らないことは無いだろ。

2021/05/03(月) 08:14:12.53

知らん。
ニクラウス・ヴィルトとかクヌース級なのか？

Joseph Redmon氏を超えたら紹介してくれ

2021/05/03(月) 08:24:08.67

俺も知らん
俺が好きなのはあんどりゆー先生

2021/05/03(月) 08:56:18.97

だからお前らは駄目なんだよ。

2021/05/03(月) 09:23:32.94

ネタだと思って何も言わんと本気にする馬鹿が出てくるというアレだな。

2021/05/05(水) 10:47:54.94

>>487
誰？

2021/05/05(水) 16:21:28.27

colab pro使ってる人いる？

2021/05/06(木) 11:59:48.85

Colab pro日本からも契約できるようになったんだよな

2021/05/06(木) 13:39:08.91

月1000円ちょっとだから家で機械学習で遊ぶのにいいかなと思って

2021/05/06(木) 19:23:34.81

https://colab.research.google.com/github/cedro3/others/blob/master/DALL_e_sample.ipynb

プログラミング初心者は、このcolabでopenAIのテキスト→画像生成モデルをテスト実行できるぞ

2021/05/12(水) 11:00:45.44

我勉強中なんだけど、
「RMSE(平均平方二乗誤差)を使い求まる解は、誤差が正規分布に従うという前提の下で求まる最尤解と同じになる」

これってどういう意味？

2021/05/12(水) 12:02:35.00

>>505
正規分布を使って最尤推定の式を立ててみな
式変形したら結果がRMSEと同じになる

2021/05/12(水) 12:34:56.40

誤差分布と正規分布の違いとか最近基礎を忘れてきたな。。。

2021/05/13(木) 09:33:19.17

>>506
THX！
やってみるわ

2021/05/14(金) 03:55:13.35

colaboratory使えばGPU買わなくても大丈夫？

2021/05/14(金) 06:00:37.69

>>509
はい

2021/05/16(日) 18:14:37.34

>>510
マジ！？
本番サーバのバッチでも使える？

2021/05/17(月) 11:56:47.57

「X_train, X_test」の大文字ってどうしてます？
面倒なので小文字にしたいのですが、不都合ありますか？

2021/05/17(月) 13:27:31.17

ないよ

2021/05/17(月) 16:02:53.44

>>512
その変数名にしてる人たいていクソコード書いてるから
ちゃんとした入力変数の名前にしたほうがいい

2021/05/17(月) 19:41:41.86

クソチョンw

2021/05/17(月) 21:45:08.12

>>514
Xの大文字を打つのにシフトすら面倒だって言ってる奴にちゃんとした変数名付けろって言っても、馬の耳に念仏なんじゃないか

概念の説明にはx,yが出て来るのは仕方ないとしても、
実際の分析では意味のある名前付けた方がいいというのには完全に同意だけど。
x2やy2に相当するものを使いたくなるときもあるし、
将来コードを見返す自分は赤の他人だと思って分かりやすく書いておかないと折角の努力が資産にならないよね。

2021/05/17(月) 22:50:20.67

行列だから大文字Xなのかと思ってた

2021/05/18(火) 04:49:22.56

>>516
その辺の機械学習の概念を理解するお薦め本ありますか？

2021/05/18(火) 11:04:58.96

いや、pythonの規約を普通に守ればそこは小文字始まりだろ。
それを破るならそれなりの理由が必要だわ。

2021/05/18(火) 12:41:52.89

jupyter notebookみたいな書き捨てコードだったら何でもいいよ

2021/05/18(火) 15:26:01.83

ていうか変数名くらいAIでわかりやすいの勝手に付けて欲しい
人間が考えるのはおかしい

2021/05/18(火) 16:19:30.43

テンソルの変換するからXだの言われても辛いのよ
前処理も一緒にやる場合はどの段階のXなの？ってなる

2021/05/18(火) 17:17:37.19

>>521
そこまでAIができるなら、お前らなんかいらんわ

2021/05/18(火) 18:13:53.05

行列だとしても、単に大文字だとわかりにくいから、mat_Rとか名前つけることあるな。回転行列だけど。
数式ですら字体や添字で区別を色々つけないと訳分からなくなる。

2021/05/18(火) 18:44:16.23

回転行列？
転置のことか？
転置は昔からTと相場が決まっとる

2021/05/18(火) 19:49:43.85

転置ではないよ。。

2021/05/18(火) 19:50:07.22

回転行列は回転変換の話で転置とは無関係だろ

2021/05/18(火) 19:55:16.40

長くてもいいから読めば分かる名前にする。これが原理原則
メモ帳でプログラミングでもしない限り補完してくれるので変数名の長さは問題にはならない

2021/05/18(火) 20:07:18.39

ぬるぽ

2021/05/18(火) 20:46:05.40

コメントを書いても良いけどな

2021/05/19(水) 08:09:56.86

配列の形はよくコメントに残すようにしている

2021/05/19(水) 10:50:43.72

pycharm使っている人います？
有料の価値ありますか？

VSCodeを使ってますが、プラグインやカスタマイズが面倒なので、pycharmに乗り換えようかと
ワタシは初学者です