【統計分析】機械学習・データマイニング30
■ このスレッドは過去ログ倉庫に格納されています
!extend:on:vvvvvv:1000:512
!extend:on:vvvvvv:1000:512
↑すれたてる毎に1つずつ減るので、減ってたら3回に増やしてたてること。
機械学習とデータマイニングについて語れ若人
*機械学習に意識・知能は存在しません。
人の意識に触れたい方はスレ違いです。
■前スレ
【統計分析】機械学習・データマイニング29
https://mevius.5ch.net/test/read.cgi/tech/1597882603/
-EOF-
VIPQ2_EXTDAT: default:vvvvvv:1000:512:: EXT was configured >>401
主観が出来るだけ入らないように実験計画するんじゃないの?
主観を出来るだけ入れるように実験計画する? 量子論の不確定原理なら人間の主観とか関係なく不確定なんじゃね?
不確定だとしても確率的には値の差があるだろうから9割はこの範囲の値とか決まるだろうな
どんな外れ値でも確率ゼロではないから絶対に間違いとは言えないけど観測される頻度は稀になるはず
それよりも大きな頻度で観測されたら仮説の方が間違いなのは変わらない >>409
正規分布という名前が悪すぎます、ガウス分布でいいのです
ガウス分布は数ある誤差分布の one of them >>412
現象を説明する為にモデルを当てはめる時点で主観入ってる All models are wrong, but some are useful. ニュートン力学は間違ってる(厳密には正しくない)から使えないとか言い出すやつは頭悪いだろ。 >>421
スレタイと関係ないと思っちゃうのか。。そりゃ頭悪いな >>404
CUDAを動かなくする、という情報は少なくとも自作板では見つからなかったな >>417
ロジャーペンローズが似たようなことを言っている 人間が考えるなら主観が入り込むというなら全てに主観が入り込むことになる
つまり主観という点では差がない
出てくる成果には現実を上手く説明できるかどうかの差が生じる
より現実を説明できる成果は単なる個人の固定観念とは違う価値のあるもの
現実と合致する程度が高い成果は一個人の主観とは言えない程に質が変わる 主観的か客観的かは重要ではない
どれだけ客観的な手法を構築したとしても予測精度が低ければ使い物にならない >>420
君は>>416の英文をきちんと理解できてるのかな? 新卒で機械学習エンジニアになったけどGUIで学習するツールが導入されてて、マウスポチポチするだけでお仕事になるの納得行かない >>430
そう、危機感を感じている。
データサイエンス協会の人たちに「ライブラリが使えるだけじゃダメ、数学頑張れ」って教わってきたからモヤモヤする。
ツールでだめだったら即諦めってのも悲しいところ データの仕事するなら数学よりコンサル力が重要
もしくはWeb分析や製造管理などドメイン知識を学んで特化するかだな
技術系でいきたいならクラウド使って基盤から自分で作れるようになれば引く手数多
最適化エンジニアは自動化されて終わるよ メーカー研究開発やってるけど機械学習に対する敷居はここ数年で大きく下がったね
GUIツールなら実験系の人でも普通に使ってるし
データサイエンスに加えて、それ以外の専門を持たないと厳しいね >>432
会社バレしたくないから言えないですごめんなさい
>>434
Web分析やりたいなぁ スクレイピングさせてもらえるなら楽しいだろうな
>>435
ドメイン知識大事なのはわかる
世の中の全員が機械学習できるようになったらとても楽しい世の中になると思う >>436
特殊なシステムか。。。
ソニーの奴辺りを使ってるかと思った >>435
というか、専門分野を持たない統計屋が成り立ってる現状が疑問
数学をさらに極めているアクチュアリーでさえ、金融工学等でスキル補強してる だからデータサイエンス学部とかちょっと心配になるね。 データから突き詰めていけば
その領域の構造も見えてくるんじゃないの?
予備知識として知っておいた方が良いけど
先入観とか思い込みで新たな発見を阻害しているかも データから突き詰めて、分かった事実の99%は、その領域の人間にとって、何を今さらって言うレベルの常識なのが現実 (1)マーケティングの成功 (ただ単に運がよくはやれたってだけかもw)
(2)1%に賭けてるところもあるかもしれない (薬系なんかは特に) いわゆる「暗黙知」の問題を解決できるから
例えば、初心者に対して説明しやすい
あまりにも当たり前だと思い込んでしまっていることは
そもそも話そうとすらしない それも現場では当たり前だから話そうともしないけどね。 データサイエンス学部って企業と組んでむしろゴリゴリドメイン細分化してなかったっけ
DS実用化の観点からは正解にも見えるけど 企業と組むっていってもデータ渡されてモデル作るだけでしょ
少なくともうちの会社と大学の共同研究はそう
そんなもんKaggleと大差ないよ ほんまやね
新しい学部だし企業でもないからそこまで深くコミットすること出来ないんでしょね 基礎だけ教えるだけでしょ
あとはpythonかrあたりを習わせて リコメンドとかは個人毎に人がやるのは作業時間的にむりなんじゃね?
作業時間は人件費、コストになる
売上アップ分より少ないコストで実現できれば投資する価値がある 当たり前と思われている事も
具体的にどの顧客やケースに適用できるかは
勘でしかわからなかっただろうから
担当者毎に違う判断をすることになる
ある担当者は知見を使えると考えるけど
別の担当者は知見を使えると考えない
その知見が明確に認識されていなければ組織内で共有もされていないだろうから
経験の浅い担当者はその知見があることすら認識していない
知見を可視化する事は共有可能になるし
組織全体の成果の底上げにつながる 一般論としてはその通りだけど、実際の仕事では一般論じゃなく個別の課題に対して何をどうすればどう効果があるのかを説明できなきゃいけない
容易に想像できる通り、そのためには最適化より重要なスキルが山ほどある 解くべき問題を探し回って捻り出さなきゃいけない時点で相当なハンデなんだよな
普通のソフトエンジニアリングだったら、解くべき問題なんてそこら辺の事務のおばちゃんに聞けばいくらでも出てくるだろう
逆に言えば解くべき問題を見つけられる人間に希少価値があるとも言えて、だからコンサルの飯の種としては最適だ
一方で解く側の人間にとってはパイの小さな分野だと言える 今の世界中の課題は新型コロナ
データサイエンスで何ができるか 少し前に目の結膜か何かをカメラで撮ると感染しているか判別するAIアプリのニュースがあったな
役に立つのか知らんけど ガンとか他の病気も早期発見できたら役に立つと思うけどな
トイレの便器にセンサーつけて異常検知するとか言うニュースもあったな
コロナ禍でストレスかかってる人が増えているとかも聞くし
早く検知して対処できたら良いんじゃね? 普通のソフトエンジニアリングでも、データドリブンな開発というのはこれから重要になっていくと思うけどな。
その辺のおばちゃんが言ってることをデータを収集して分析して、本当なら改善すればいいし単に特殊例でそうなっただけならスルーすればいいし。
定性的な開発で済む場合もあるけど、定量的な開発ができることで業務改善できる分野はいっぱいあると思うよ。少しでもそういう見方で意味論をある意味捨象して数値で評価しようとする立場の人間が増えることはいいことだと思うけどな。
まあ、数値の評価ってのはいかようにも出せるので、文系的な議論がしっかりなされた上で数値的な評価で裏付ける、というのがよいと思うけれど。 事務のおばちゃんを例に出すまでもなく、ソフトウェア・エンジニアリングはマネタイズの方法がたくさん開発されてて実績も豊富
DS分野でいうとBI導入が流行ってるのもマネタイズの分かり易さからでしょ ソフトウェアエンジニアリングとかソフトウェア工学って
ソフトウェアを作るときにバグをどうやったら少なくできるかとか
生産性を上げるにはどうするかとかそう言う分野のことを指すんじゃね?
ソフトウェア事業とかソフトウェアビジネスって言った方が良い マネタイズできてるのはかなりの規模で使われた場合ばっかだろ。
中小や受託案件なんかは全く関係ないわ。 >>454
むしろ、コロナ騒動でデータサイエンティストの無力を実感
・国や地域によって患者・重傷者・死者のカウント基準が異なる
・陽性と判定するCt値も同様に定まっていない
・PCR検査以外の感染者の検出方法ほぼ全てで擬陽性が多分に含まれる手段を用いている
データとしてゴミだらけで統計以前。
これらに問題提起をして的外れな対策に意見すべきであった 検査数(当日)と患者数(2日前)とか
そこからかよ。みたいな >>462
所詮雇われ屋しかいないしな
まともな予測出したのって北海道の免疫学の教授とGoogleくらいでしょ 頼れそうなデータは重症者と死者数なんだが
死んだときに感染していればカウントするそうだから
データとしては「かなり」多めに出るな
誤差さえわからない +日本の新規感染確定@PCR分てのは保健所分だけ公表で、医療機関独自系は非カウントなう ワクチン開発で多数の候補物質からふるい落とすとかに活用したらしいけど
そういうのは半端なくドメイン知識いるし >>469
候補を出すだけならいらないんじゃない? データサイエンティスト「こちらが候補の一覧です。何の物質なのかわかりませんけど。」
お客さん「・・・」
おわり やっぱデータサイエンチストに任せずに自分でやったほうがいいか >>471
物質名か構造式が出てくれば後は自動で絞り込めるよ
まあそれもデータサイエンティスト側でできるか 製薬やマテリアルは自然界の物質をそのまま変数として使えるから、さほど難しくないテーマ
世の中の大多数のテーマは変数の生成から始めないといけない データの意味を知らずにできるような単純な問題ならそれこそデータサイエンティストなんか要らんよ
親切なツール使えば現場の人間でも難しくないだろうし、近い将来完全に自動化される ワクチン開発でDNNを活用するというのは異常に難易度が高いよ。
例えば、コロナウィルスの場合、COVIDウィルスのスパイクのタンパク質配列とかを
学習データに使用するけど、普通は、この種のウィルス特有のデータを10種類以上
選択する必要がある。このデータ選択は、ウィルスの専門知識がないと無理。
状況によっては公開データが用意されていない場合もあるので、その場合は、
研究室でタンパク質配列とかRNA配列とかを解読する作業も必要となってくる。
さらに、DNNに関しても、既存のネットワークを流用することはできないので、
新規にネットワークのアルゴリズムを作る必要もある。この作業は、普通のAI
エンジニアでは無理。更に、機械学習に関してもかなり膨大なGPUリソースが
必要となる。また、専用のネットワークは動かしてみた上で修正を入れるという
作業が発生するため、TPUv3x1024くらいのリソースを開発期間の数ヶ月に渡って、
占有するという状況が発生する。開発要員としてはウイルス学、AIの各領域のポスドク
クラスの専門研究者を10人くらい集めて、さらにクラウド費用として数億円くらいアサイン
する必要があるかもね。まあ、これはほとんど不可能な要件なんだけどね。 >>477
去年効果のありそうな物質の候補をリストアップしたニュースがあったな
それになんでもDNNを使わなくて良いし 東大卒 旧通産省・工業技術院の元院長・飯塚幸三
「ブレーキを踏んだが、車が加速した」
流石高学歴で上に行った奴だな
この程度の嘘を平気でつけるのがこのクラス
AIで犯罪を起こしそうな率を検出させてみると
政治家とか企業のトップとか軒並み率が高そうだけど
末端労働者程率が低かったりして
犯罪者が作ったルールに一般市民が従っているっていう 菅義偉の詳細データ入れると
99.9%とか出るんだけど
菅総理だけ表向きの事情で0%にしないといけないっていう
そんなチューニングがメンドクサそう
特別なチューニングを何個もやってるうちにおかしなシステムになって
最終的に末端が叩かれて
一般人が犯罪者になるっていう あわしろ氏は、AIはベイズ推論だけで十分だって言ってたけどね。 十分というか今AIと言われているものはほとんどがベイズの枠組みで記述する方が分かりやすいし柔軟的に拡張できるからな ビショップの本を買ったのですが、積読状態です。
気合入れて読む価値はありますか? フィールズ賞受賞者のD. マンフォードらのパターン認識の本が全く話題になりませんが、あの本はどういう位置づけの本なのでしょうか? >>487
今なら深層学習を最初にやるべきだと思う 知らん。
ニクラウス・ヴィルトとかクヌース級なのか?
Joseph Redmon氏を超えたら紹介してくれ ネタだと思って何も言わんと本気にする馬鹿が出てくるというアレだな。 Colab pro日本からも契約できるようになったんだよな 月1000円ちょっとだから家で機械学習で遊ぶのにいいかなと思って 我勉強中なんだけど、
「RMSE(平均平方二乗誤差)を使い求まる解は、誤差が正規分布に従うという前提の下で求まる最尤解と同じになる」
これってどういう意味? >>505
正規分布を使って最尤推定の式を立ててみな
式変形したら結果がRMSEと同じになる 誤差分布と正規分布の違いとか最近基礎を忘れてきたな。。。 colaboratory使えばGPU買わなくても大丈夫? ■ このスレッドは過去ログ倉庫に格納されています