【統計分析】機械学習・データマイニング30

2021/01/01(金) 09:10:55.46

!extend:on:vvvvvv:1000:512
!extend:on:vvvvvv:1000:512
↑すれたてる毎に１つずつ減るので、減ってたら３回に増やしてたてること。

機械学習とデータマイニングについて語れ若人

＊機械学習に意識・知能は存在しません。
　　人の意識に触れたい方はスレ違いです。

■前スレ
【統計分析】機械学習・データマイニング29
https://mevius.5ch.net/test/read.cgi/tech/1597882603/
-EOF-

VIPQ2_EXTDAT: default:vvvvvv:1000:512:: EXT was configured

2021/04/18(日) 23:14:17.97

フィッシャーの三原則とかある

2021/04/18(日) 23:15:20.18

>>401
主観が出来るだけ入らないように実験計画するんじゃないの？
主観を出来るだけ入れるように実験計画する？

2021/04/18(日) 23:21:52.89

量子論の不確定原理なら人間の主観とか関係なく不確定なんじゃね？
不確定だとしても確率的には値の差があるだろうから9割はこの範囲の値とか決まるだろうな
どんな外れ値でも確率ゼロではないから絶対に間違いとは言えないけど観測される頻度は稀になるはず
それよりも大きな頻度で観測されたら仮説の方が間違いなのは変わらない

2021/04/18(日) 23:35:52.79

>>412
主観入りまくってますがなw

2021/04/19(月) 00:16:28.58

>>409
正規分布という名前が悪すぎます、ガウス分布でいいのです
ガウス分布は数ある誤差分布の one of them

2021/04/19(月) 00:49:42.58

>>412
現象を説明する為にモデルを当てはめる時点で主観入ってる

2021/04/19(月) 09:16:49.17

All models are wrong, but some are useful.

2021/04/19(月) 09:31:02.90

>>416
誰の言葉？

2021/04/19(月) 09:32:33.96

F=G*m1*m2/r^2

2021/04/19(月) 09:35:52.97

George Edward Pelham Box

2021/04/19(月) 10:50:45.42

ニュートン力学は間違ってる(厳密には正しくない)から使えないとか言い出すやつは頭悪いだろ。

2021/04/19(月) 11:20:30.03

スレタイ読めないやつと比べてどっちが頭が悪いの？

2021/04/19(月) 14:28:49.64

>>421
スレタイと関係ないと思っちゃうのか。。そりゃ頭悪いな

2021/04/19(月) 14:37:35.07

>>422
どう関係するの？

2021/04/19(月) 17:58:53.25

>>404
CUDAを動かなくする、という情報は少なくとも自作板では見つからなかったな

2021/04/19(月) 19:34:04.83

>>417
ロジャーペンローズが似たようなことを言っている

2021/04/19(月) 20:34:22.39

人間が考えるなら主観が入り込むというなら全てに主観が入り込むことになる
つまり主観という点では差がない

出てくる成果には現実を上手く説明できるかどうかの差が生じる
より現実を説明できる成果は単なる個人の固定観念とは違う価値のあるもの
現実と合致する程度が高い成果は一個人の主観とは言えない程に質が変わる

2021/04/19(月) 21:20:07.15

主観的か客観的かは重要ではない
どれだけ客観的な手法を構築したとしても予測精度が低ければ使い物にならない

2021/04/20(火) 07:24:15.31

>>420
君は>>416の英文をきちんと理解できてるのかな？

2021/04/20(火) 08:08:47.60

新卒で機械学習エンジニアになったけどGUIで学習するツールが導入されてて、マウスポチポチするだけでお仕事になるの納得行かない

2021/04/20(火) 08:10:50.56

単なる作業員になったらその内捨てられる

2021/04/20(火) 08:20:33.94

>>430
そう、危機感を感じている。
データサイエンス協会の人たちに「ライブラリが使えるだけじゃダメ、数学頑張れ」って教わってきたからモヤモヤする。
ツールでだめだったら即諦めってのも悲しいところ

2021/04/20(火) 08:55:31.90

>>429
どこのシステム？

2021/04/20(火) 09:05:48.17

ファインチューニングすらしないでいいとか羨ましい

2021/04/20(火) 09:49:15.80

データの仕事するなら数学よりコンサル力が重要
もしくはWeb分析や製造管理などドメイン知識を学んで特化するかだな
技術系でいきたいならクラウド使って基盤から自分で作れるようになれば引く手数多
最適化エンジニアは自動化されて終わるよ

2021/04/20(火) 11:59:17.59

メーカー研究開発やってるけど機械学習に対する敷居はここ数年で大きく下がったね
GUIツールなら実験系の人でも普通に使ってるし
データサイエンスに加えて、それ以外の専門を持たないと厳しいね

2021/04/20(火) 18:16:49.45

>>432
会社バレしたくないから言えないですごめんなさい

>>434
Web分析やりたいなぁ　スクレイピングさせてもらえるなら楽しいだろうな
>>435
ドメイン知識大事なのはわかる
世の中の全員が機械学習できるようになったらとても楽しい世の中になると思う

2021/04/20(火) 18:27:49.71

>>436
特殊なシステムか。。。
ソニーの奴辺りを使ってるかと思った

2021/04/20(火) 22:42:35.89

>>435
というか、専門分野を持たない統計屋が成り立ってる現状が疑問
数学をさらに極めているアクチュアリーでさえ、金融工学等でスキル補強してる

2021/04/20(火) 22:59:27.20

だからデータサイエンス学部とかちょっと心配になるね。

2021/04/20(火) 23:09:28.18

データから突き詰めていけば
その領域の構造も見えてくるんじゃないの？

予備知識として知っておいた方が良いけど
先入観とか思い込みで新たな発見を阻害しているかも

2021/04/20(火) 23:58:44.60

データから突き詰めて、分かった事実の99%は、その領域の人間にとって、何を今さらって言うレベルの常識なのが現実

2021/04/21(水) 00:26:38.44

それでも需要があるのは何故？

2021/04/21(水) 04:57:56.95

（１）マーケティングの成功　（ただ単に運がよくはやれたってだけかもｗ）
（２）１％に賭けてるところもあるかもしれない　（薬系なんかは特に）

2021/04/21(水) 09:27:01.32

いわゆる「暗黙知」の問題を解決できるから
例えば、初心者に対して説明しやすい
あまりにも当たり前だと思い込んでしまっていることは
そもそも話そうとすらしない

2021/04/21(水) 15:29:43.27

それも現場では当たり前だから話そうともしないけどね。

2021/04/21(水) 16:39:38.54

データサイエンス学部って企業と組んでむしろゴリゴリドメイン細分化してなかったっけ
DS実用化の観点からは正解にも見えるけど

2021/04/21(水) 16:58:44.66

企業と組むっていってもデータ渡されてモデル作るだけでしょ
少なくともうちの会社と大学の共同研究はそう
そんなもんKaggleと大差ないよ

2021/04/21(水) 17:10:53.01

ほんまやね
新しい学部だし企業でもないからそこまで深くコミットすること出来ないんでしょね

2021/04/21(水) 18:06:22.19

基礎だけ教えるだけでしょ
あとはpythonかrあたりを習わせて

2021/04/21(水) 20:54:12.98

リコメンドとかは個人毎に人がやるのは作業時間的にむりなんじゃね？
作業時間は人件費、コストになる
売上アップ分より少ないコストで実現できれば投資する価値がある

2021/04/21(水) 21:00:23.59

当たり前と思われている事も
具体的にどの顧客やケースに適用できるかは
勘でしかわからなかっただろうから
担当者毎に違う判断をすることになる

ある担当者は知見を使えると考えるけど
別の担当者は知見を使えると考えない
その知見が明確に認識されていなければ組織内で共有もされていないだろうから
経験の浅い担当者はその知見があることすら認識していない

知見を可視化する事は共有可能になるし
組織全体の成果の底上げにつながる

2021/04/21(水) 21:22:24.85

一般論としてはその通りだけど、実際の仕事では一般論じゃなく個別の課題に対して何をどうすればどう効果があるのかを説明できなきゃいけない
容易に想像できる通り、そのためには最適化より重要なスキルが山ほどある

2021/04/21(水) 21:58:18.31

解くべき問題を探し回って捻り出さなきゃいけない時点で相当なハンデなんだよな
普通のソフトエンジニアリングだったら、解くべき問題なんてそこら辺の事務のおばちゃんに聞けばいくらでも出てくるだろう
逆に言えば解くべき問題を見つけられる人間に希少価値があるとも言えて、だからコンサルの飯の種としては最適だ
一方で解く側の人間にとってはパイの小さな分野だと言える

2021/04/21(水) 22:49:45.31

今の世界中の課題は新型コロナ
データサイエンスで何ができるか

2021/04/21(水) 22:51:36.83

少し前に目の結膜か何かをカメラで撮ると感染しているか判別するAIアプリのニュースがあったな
役に立つのか知らんけど

2021/04/21(水) 22:55:35.42

ガンとか他の病気も早期発見できたら役に立つと思うけどな
トイレの便器にセンサーつけて異常検知するとか言うニュースもあったな

コロナ禍でストレスかかってる人が増えているとかも聞くし
早く検知して対処できたら良いんじゃね？

2021/04/21(水) 23:33:54.27

普通のソフトエンジニアリングでも、データドリブンな開発というのはこれから重要になっていくと思うけどな。
その辺のおばちゃんが言ってることをデータを収集して分析して、本当なら改善すればいいし単に特殊例でそうなっただけならスルーすればいいし。
定性的な開発で済む場合もあるけど、定量的な開発ができることで業務改善できる分野はいっぱいあると思うよ。少しでもそういう見方で意味論をある意味捨象して数値で評価しようとする立場の人間が増えることはいいことだと思うけどな。
まあ、数値の評価ってのはいかようにも出せるので、文系的な議論がしっかりなされた上で数値的な評価で裏付ける、というのがよいと思うけれど。

2021/04/22(木) 02:31:03.78

事務のおばちゃんを例に出すまでもなく、ソフトウェア・エンジニアリングはマネタイズの方法がたくさん開発されてて実績も豊富
DS分野でいうとBI導入が流行ってるのもマネタイズの分かり易さからでしょ

2021/04/22(木) 08:38:37.02

ソフトウェアエンジニアリングとかソフトウェア工学って
ソフトウェアを作るときにバグをどうやったら少なくできるかとか
生産性を上げるにはどうするかとかそう言う分野のことを指すんじゃね？

ソフトウェア事業とかソフトウェアビジネスって言った方が良い

2021/04/22(木) 08:57:06.72

>>459
正解

2021/04/22(木) 09:30:40.56

マネタイズできてるのはかなりの規模で使われた場合ばっかだろ。
中小や受託案件なんかは全く関係ないわ。

2021/04/22(木) 14:18:43.57

>>454
むしろ、コロナ騒動でデータサイエンティストの無力を実感

・国や地域によって患者・重傷者・死者のカウント基準が異なる
・陽性と判定するCt値も同様に定まっていない
・PCR検査以外の感染者の検出方法ほぼ全てで擬陽性が多分に含まれる手段を用いている

データとしてゴミだらけで統計以前。
これらに問題提起をして的外れな対策に意見すべきであった

2021/04/22(木) 14:42:04.01

検査数(当日)と患者数(2日前)とか
そこからかよ。みたいな

2021/04/22(木) 18:30:59.89

>>462
所詮雇われ屋しかいないしな
まともな予測出したのって北海道の免疫学の教授とGoogleくらいでしょ

2021/04/22(木) 19:26:43.57

頼れそうなデータは重症者と死者数なんだが
死んだときに感染していればカウントするそうだから
データとしては「かなり」多めに出るな
誤差さえわからない

2021/04/22(木) 19:47:09.32

「重症」の定義が国によってばらばらなんだが

2021/04/22(木) 19:47:48.04

＋日本の新規感染確定＠PCR分てのは保健所分だけ公表で、医療機関独自系は非カウントなう

2021/04/23(金) 08:36:21.23

死者数のリボルビング発表も言われてるしなあ

2021/04/23(金) 17:31:31.74

ワクチン開発で多数の候補物質からふるい落とすとかに活用したらしいけど
そういうのは半端なくドメイン知識いるし

2021/04/23(金) 18:44:22.53

>>469
候補を出すだけならいらないんじゃない？

2021/04/24(土) 08:25:25.67

データサイエンティスト「こちらが候補の一覧です。何の物質なのかわかりませんけど。」
お客さん「・・・」

おわり

2021/04/24(土) 12:25:29.89

やっぱデータサイエンチストに任せずに自分でやったほうがいいか

2021/04/24(土) 15:21:15.93

>>471
物質名か構造式が出てくれば後は自動で絞り込めるよ
まあそれもデータサイエンティスト側でできるか

2021/04/24(土) 18:30:45.31

製薬やマテリアルは自然界の物質をそのまま変数として使えるから、さほど難しくないテーマ
世の中の大多数のテーマは変数の生成から始めないといけない

2021/04/24(土) 19:20:19.57

データの意味を知らずにできるような単純な問題ならそれこそデータサイエンティストなんか要らんよ
親切なツール使えば現場の人間でも難しくないだろうし、近い将来完全に自動化される

2021/04/24(土) 19:24:54.82

マテリアルもいい記述子見つけるの大変だよ

2021/04/25(日) 12:26:44.89

ワクチン開発でDNNを活用するというのは異常に難易度が高いよ。
例えば、コロナウィルスの場合、COVIDウィルスのスパイクのタンパク質配列とかを
学習データに使用するけど、普通は、この種のウィルス特有のデータを10種類以上
選択する必要がある。このデータ選択は、ウィルスの専門知識がないと無理。
状況によっては公開データが用意されていない場合もあるので、その場合は、
研究室でタンパク質配列とかRNA配列とかを解読する作業も必要となってくる。
さらに、DNNに関しても、既存のネットワークを流用することはできないので、
新規にネットワークのアルゴリズムを作る必要もある。この作業は、普通のAI
エンジニアでは無理。更に、機械学習に関してもかなり膨大なGPUリソースが
必要となる。また、専用のネットワークは動かしてみた上で修正を入れるという
作業が発生するため、TPUv3x1024くらいのリソースを開発期間の数ヶ月に渡って、
占有するという状況が発生する。開発要員としてはウイルス学、AIの各領域のポスドク
クラスの専門研究者を10人くらい集めて、さらにクラウド費用として数億円くらいアサイン
する必要があるかもね。まあ、これはほとんど不可能な要件なんだけどね。

2021/04/25(日) 16:03:32.73

>>477
十年前からきたのかな？

2021/04/25(日) 16:35:58.53

>>477
去年効果のありそうな物質の候補をリストアップしたニュースがあったな

それになんでもDNNを使わなくて良いし

2021/04/27(火) 21:39:48.80

東大卒　旧通産省・工業技術院の元院長・飯塚幸三
「ブレーキを踏んだが、車が加速した」

流石高学歴で上に行った奴だな
この程度の嘘を平気でつけるのがこのクラス
AIで犯罪を起こしそうな率を検出させてみると
政治家とか企業のトップとか軒並み率が高そうだけど
末端労働者程率が低かったりして
犯罪者が作ったルールに一般市民が従っているっていう

2021/04/27(火) 21:55:07.22

菅義偉の詳細データ入れると
99.9％とか出るんだけど
菅総理だけ表向きの事情で0%にしないといけないっていう
そんなチューニングがメンドクサそう
特別なチューニングを何個もやってるうちにおかしなシステムになって
最終的に末端が叩かれて
一般人が犯罪者になるっていう

2021/04/27(火) 22:26:18.40

馬鹿参上

2021/04/28(水) 00:01:36.86

頭にアルミホイル巻いとけ

2021/04/28(水) 00:48:19.24

AI疲れだな
GWにしっかり休んでくれ

2021/04/28(水) 07:27:21.67

あさからわろらされたわｗｗｗ

2021/05/02(日) 11:16:21.40

>>1
sdgと言われるとsgdと空目する

2021/05/02(日) 17:25:15.38

あわしろ氏は、AIはベイズ推論だけで十分だって言ってたけどね。

2021/05/02(日) 18:08:34.90

十分というか今AIと言われているものはほとんどがベイズの枠組みで記述する方が分かりやすいし柔軟的に拡張できるからな

2021/05/02(日) 18:11:39.92

ビショップの本を買ったのですが、積読状態です。
気合入れて読む価値はありますか？

2021/05/02(日) 18:13:31.90

フィールズ賞受賞者のD. マンフォードらのパターン認識の本が全く話題になりませんが、あの本はどういう位置づけの本なのでしょうか？

2021/05/02(日) 19:10:03.88

基礎

2021/05/02(日) 20:33:26.36

一般教養。

2021/05/02(日) 23:43:59.54

>>487
今なら深層学習を最初にやるべきだと思う

2021/05/03(月) 07:36:08.52

>>487
誰？

2021/05/03(月) 08:09:03.39

IT業界に居て知らないことは無いだろ。

2021/05/03(月) 08:14:12.53

知らん。
ニクラウス・ヴィルトとかクヌース級なのか？

Joseph Redmon氏を超えたら紹介してくれ

2021/05/03(月) 08:24:08.67

俺も知らん
俺が好きなのはあんどりゆー先生

2021/05/03(月) 08:56:18.97

だからお前らは駄目なんだよ。

2021/05/03(月) 09:23:32.94

ネタだと思って何も言わんと本気にする馬鹿が出てくるというアレだな。

2021/05/05(水) 10:47:54.94

>>487
誰？

2021/05/05(水) 16:21:28.27

colab pro使ってる人いる？

2021/05/06(木) 11:59:48.85

Colab pro日本からも契約できるようになったんだよな

2021/05/06(木) 13:39:08.91

月1000円ちょっとだから家で機械学習で遊ぶのにいいかなと思って

2021/05/06(木) 19:23:34.81

https://colab.research.google.com/github/cedro3/others/blob/master/DALL_e_sample.ipynb

プログラミング初心者は、このcolabでopenAIのテキスト→画像生成モデルをテスト実行できるぞ

2021/05/12(水) 11:00:45.44

我勉強中なんだけど、
「RMSE(平均平方二乗誤差)を使い求まる解は、誤差が正規分布に従うという前提の下で求まる最尤解と同じになる」

これってどういう意味？

2021/05/12(水) 12:02:35.00

>>505
正規分布を使って最尤推定の式を立ててみな
式変形したら結果がRMSEと同じになる

2021/05/12(水) 12:34:56.40

誤差分布と正規分布の違いとか最近基礎を忘れてきたな。。。

2021/05/13(木) 09:33:19.17

>>506
THX！
やってみるわ

2021/05/14(金) 03:55:13.35

colaboratory使えばGPU買わなくても大丈夫？