【統計分析】機械学習・データマイニング31

2021/09/26(日) 01:32:46.82

!extend:on:vvvvvv:1000:512
!extend:on:vvvvvv:1000:512
↑すれたてる毎に１つずつ減るので、減ってたら３回に増やしてたてること。

機械学習とデータマイニングについて語れ若人

＊機械学習に意識・知能は存在しません。
　　人の意識に触れたい方はスレ違いです。

■前スレ
【統計分析】機械学習・データマイニング29
https://mevius.5ch.net/test/read.cgi/tech/1597882603/
-EOF-
【統計分析】機械学習・データマイニング30
https://mevius.5ch.net/test/read.cgi/tech/1609459855/

VIPQ2_EXTDAT: default:vvvvvv:1000:512:: EXT was configured

2022/04/18(月) 00:02:15.50

>>29
さてそれはどうでしょうか
実は1月～3月ほど強度のストレス下にあり、一睡もできない日々が2ヶ月続きました（体力維持のためしっかり食べてビタミン剤で補強しても体重は15kgも減りました）が、じゃあ記憶が全然できなかったかというとそうでもなかったです…
今ではサイコパス呼ばわりされちゃっています、私は結構タフですねえ…

2022/04/18(月) 01:44:31.01

本当に2ヶ月(24x60=1440時間)覚醒し続けたならもう死んでる。
つまり、2ヶ月一睡もしなかったというのは妄想。そりゃ精神障害扱いされるわ。

2022/04/18(月) 10:27:14.26

今yandexクラウドって日本から契約できるかな？

2022/04/23(土) 00:30:31.12

機械学習メインでやってる人からすると、例えばGLMみたいな統計モデリングはどういう扱い？機械学習の一部？

2022/04/23(土) 00:48:26.73

学習データを元にモデルのパラメータを推定するんだから機械学習

2022/04/23(土) 20:31:19.17

最小二乗法も機械学習?

2022/04/23(土) 23:00:18.32

うん

2022/04/23(土) 23:24:04.66

というより機械学習が統計崩れ

2022/04/24(日) 00:02:27.67

＞　お前は毎朝起きるたびに俺に負けたことを思い出すよ＾＾

あー、ホンッとに思い出すなあ（笑）
キチガイの嘘つきの低レベルFランの、
朝鮮ゴキブリBot君は、
チョン独特の「なにもできないけど俺のほうがジャップより偉い！」的な
ことはよーくわかったよ。
ホントなにもできない朝鮮ゴキブリBot君！

クソチョンｗ
クソチョンはウンコを食べる糞食人種w
クソチョンはゲリ便をじゅるじゅると
うまそうに食うw

2022/04/24(日) 02:26:30.49

最小二乗法は機械学習ではないな
計算過程に学習が必要でないから

2022/04/24(日) 03:32:27.95

「学習」という言葉をどう定義しているの？

2022/04/24(日) 09:31:15.29

学習用データに応じて結果が変わるんだから最小二乗法も学習してるでしょ

2022/04/24(日) 16:32:36.67

クラスタリングも機械学習定期

2022/04/24(日) 17:33:03.56

最近傍法も機械学習

2022/04/24(日) 17:57:41.63

〇〇はAIですかも同系統の質問だけど何でそんなことが気になるのか不思議

2022/04/24(日) 21:10:28.13

いや最小二乗法は解析的に解くから学習してないだろう
学習の定義とかしらんが、機械学習ではない

2022/04/24(日) 21:13:53.85

評価関数をMSEにして回帰してるなら機械学習

2022/04/24(日) 22:11:05.81

>>497
解析的に解けるかどうかってそんなに重要か?
最小二乗法をあえて確率的勾配法で解いたら機械学習と呼べる?
データが大量でメモリに乗らない時に使う手段だが

2022/04/24(日) 23:04:26.15

MLの定義なんて決まってないからな
入れる奴もいれば入れない奴もいるってだけ
俺は最小二乗法も入ると考えてるけど、内心では古典的なクラスタリング含めてそんなもんML扱いすんなよと思ってる

2022/04/25(月) 08:28:54.71

こんなこと言っても線形回帰に精度で負けちゃうんだよね

2022/04/25(月) 17:57:03.33

成田悠輔ってどうよ？

2022/04/26(火) 01:25:38.26

回帰の勾配ブースティング木の勾配がMSEの微分で残差となるのは理解できたのですが、
分類問題の場合の各決定木の勾配って何になるのでしょうか？

2022/04/26(火) 06:10:44.32

mse

2022/04/27(水) 14:32:11.91

lecunとbengioとhintonは普通の研究者のひとつ上のレベルにいるのな
大体の技術の先駆者で驚愕
最近のlecunのインタビュー読んだけどまだアイデアがあるみたいだな
arcfaceでひーこら言ってる俺とは違いすぎて挫折感ハンパない

2022/04/28(木) 01:23:19.89

割と微妙かな。いうほどクリティカルな論文は出してないんじゃ。

2022/04/28(木) 13:28:27.59

東大がディープフェイク検出アルゴリズムを出したみたい

2022/04/28(木) 13:39:10.55

まばたきしないとか髪ぼやけるとか、人間なら検出できるって言ってたからな
そのうちディープフェイク側が精度上がるだろ

2022/04/28(木) 14:29:37.14

てかそうやって進歩させるのがGANのコンセプトではあるわな。

2022/04/28(木) 20:37:53.29

違う

2022/05/07(土) 06:55:36.29

Qiita のこの記事、実にいいなぁ

機械学習でなんとかしようと安易に考えるな
https://qiita.com/nonbiri15/items/cfc6909ff71273b63f5e

ディープラーニングなら学習すればできるんでしょ、と言う奴、どっか遠くの星にでもに行ってほしい

2022/05/07(土) 07:29:24.11

たとえば、お客さんが受け取った帳票が領収書か請求書かを自動判別したい場合、

今まで受け取った領収書と請求書の画像を学習データにしてDLに学習させて、できた簡単とか言う奴いるけど
・未知の帳票フォーマットに対して有効なのかそれ？
・受け取った帳票は全部印字・記入済なんだが、そんなんで学習していいのか？（未記入帳票は不要なの？）

そんなんには怖くってまかせられないんだが、おいらの感覚は合ってるよね

2022/05/07(土) 07:52:28.76

たとえば文字枠のある用紙に書かれた手書き文字を OCR する場合

・手書き文字だから枠からはみ出すし、はみ出す位置もさまざまだし、
・文字枠も1桁ごとだったり3桁ごとだったり点線だったりキリがない

こういうのは対象画像をそのまま（枠付きで）DLに学習させても、読めますよなんてとても言えんと思うんだが。最近はそうでもないのか？

昔は専門家がデータ眺めてうんうん唸ってロジックを考えていたが、そういうのも大切だよねと

2022/05/07(土) 08:12:58.95

あと、学習データで評価してお客に報告するアホ技術者？もシリウスβあたりに左遷して欲しい
スキャンしなおしたら同じ紙でも別データだよね、とかいうやつも

正読率80%はぎりぎり最低ラインで、どんな方法を使ってもこの程度はいきます
95%を超えるあたりからが勝負です。頑張りましょうね。と言いたい

2022/05/07(土) 12:37:56.46

simclrはしんくらーで良いの？

2022/05/07(土) 13:07:42.38

>>512-514
基本的に事前に確認しておく内容かと
後から言われても対処できんよ

2022/05/07(土) 13:59:18.26

>>516
誰が何を確認するの？
学習データとして妥当なのかそれ、という話なんだが

2022/05/07(土) 14:17:45.58

学習データの妥当性や追加のデータが必要かどうかも普通は打ち合わせしとくよね？
最終的なアウトプットを出す為に必要なデータもエンジニアから提案あるよね？

2022/05/07(土) 14:31:19.87

学習データが1000万件ぐらいあれば話が変わってくるけど
現実にあるのはせいぜい1万件、ひどいと100件ぐらいで
何とかしてくれと言ってくる

2022/05/07(土) 14:35:10.26

無茶なこと言ってくる人多いからね
最初にはっきりさせておかないと後々面倒になるんだよ
今は周りも大分理解が進んできてるけどさ

2022/05/07(土) 14:51:30.69

「100件でやれ」といわれて「それじゃ少なすぎてできない」というのは簡単だけど
本当にできないとは限らないからな
そこが難しいところなんだよ
「やる気になれない」とか「俺には無理」ってだけ

2022/05/07(土) 15:00:50.77

>>518
学習データの妥当性って基本的にベンダー側が確認するもんだよね？
お客さん的には、領収書と請求書が見分けられる提案が貰えれば、他はどうでもいい。
ベンダー側の危機感知能力に依存するんじゃないだろうか。
しくじると悲惨。しかも試験運用では完璧だったりする。

2022/05/07(土) 15:02:08.44

自分の研究開発テーマだったら取り組む
他部門からの依頼だと確証が持てないから断るかな

2022/05/09(月) 20:40:18.05

初心者の質問ですみません
学習中にバッチサイズを変更すると、lossとaccuracyが変わってしまうんですが、
バッチサイズによって収束値が変わるってことでしょうか？
それだとバッチサイズの設定が結果の精度に影響しませんか？

2022/05/10(火) 08:13:30.90

>>524
影響するよー。だからハイパーパラメータの調整はバッチサイズも含むんだよー。ミニバッチが内部的に何やってるかはググってね。でも、ざっくり、学習パラメータ最適化時のサンプリングサイズだと思えばいいよー

2022/05/10(火) 08:51:59.10

>>525
ありがとうございます
やっぱり影響するんですね
そうなると、モデルの作り方、パラメータの設定方法、必ず正しいというやり方がないので、
初心者にはハードルが高いですね
もうある程度適当にエイヤーでやってみるしかないですね

2022/05/10(火) 08:59:18.09

>>526
正しいやり方はないけど、単純なアルゴリズムでベースラインモデル作って評価基準を作り、独自のモデルがそれと比較して優位かを確認しながら進めるという、方法論のテンプレはあるよー。
今ならAutoMLを使うのもいいねー。対応しているタスクならだけどねー

2022/05/10(火) 09:43:02.83

>>527
AutoML、初めて知りました
無知でもできそうですねｗ
試しに入れてみました
いろいろ勉強できそうです
教えてくださりありがとうございました

2022/05/10(火) 11:29:37.64

tpot自動すぎて怖いｗｗｗ
エポック数すら指定しないし
追加学習したほうがよさそうなのにこれ以上は過学習になるんだろうか

2022/05/10(火) 13:14:08.17

バッチはサイズだけでなくサンプルのまとめ方が重要になる場合も
たとえば数字の文字認識をする場合は１つのバッチに0-9のサンプルがバランスよく
含まれるようにした方が学習がうまく行く
逆に、0だけ、1だけとかでバッチを作ってしまうとなかなか収束しなくなる

2022/05/10(火) 13:20:34.71

前にtpot使ったけどボロボロだったぞ

2022/05/10(火) 14:00:41.96

>>531
正直あんまり収束してない感じなので追加学習させたいのですが、やり方がわかりませんｗ

2022/05/10(火) 18:02:27.33

>>530
確かにそういうこと起こりそうだけど、なんか指摘してる論文てあったっけ？

2022/05/10(火) 18:17:38.04

>>533
具体的な論文は把握してないけど、時系列予測で考えると直感的な理解が得られ易いと思うよー

2022/05/10(火) 18:35:36.21

>>533
俺も論文とかはわからないが教科書に載ってるレベルの話なような
バッチのサンプルでまとめて勾配を計算するので、サンプルのバランスが悪いと
ウエイトがあっちに行ったりこっちに行ったりしてしまうが、
バランスが良いとあるべき方向に真っ直ぐ進みやすい、ということかなと直感的には理解している

2022/05/10(火) 18:51:37.71

・日立、週休3日で給与維持　生産性向上へ働き方改革時間から成果へ転換
・日立、最低勤務時間を撤廃　「週休3日」も可能に
・2022年の新入社員、79.8%がテレワーク　オフィスの必要性は？
・日立、富士通、NEC…「ジョブ型雇用」を大企業が続々導入する理由
・日立やNECが導入へ　「週休3日」は人材獲得の切り札
・リクルートグループ、週休｢約3日｣に。4月から年間休日を145日に増加へ
・カルビー／国内社員3900人を対象に副業解禁

2022/05/10(火) 19:37:35.64

>>535
確率的最急降下法だから、偏った方向に突き進むのは良くないとか、そういう次元の話だと思っていた

2022/05/10(火) 19:43:41.75

そういうことかと

2022/05/11(水) 02:35:50.86

確率的勾配降下法と最急降下法が混じってないか？

最急降下法 : 全サンプルで一度に勾配を求めてウエイトを更新
確率的勾配降下法：１サンプル毎に勾配を求めてウエイトを更新
ミニバッチ勾配降下法：ミニバッチ毎に勾配を求めてウエイトを更新

んで >>524- あたりから話してるのはミニバッチ勾配降下法についてね

2022/05/11(水) 03:49:48.40

ごめん訂正ありがと

2022/05/11(水) 06:58:42.56

ミニバッチも偏ってたら駄目じゃない？

2022/05/11(水) 09:33:13.11

駄目だよね
偏ったサンプルの気持ちいい場所に捕まってしまう

2022/05/11(水) 09:43:34.76

確率的勾配降下法でもミニバッチでもサンプルの与え方が偏るのはダメ
普通は学習ツールがランダムシャッフルしてくれるから気にしなくてもだいたいうまく行くが
性質の違うデータの種類がいっぱいあるような場合はランダムに任せてるとバッチ内のサンプルが
偏りやすくなる場合がある
そのため、たいていの学習プラットフォームではバッチを生成する処理を上書きするための
手段が用意されてたりする
バッチの処理順序はランダムでok

2022/05/11(水) 13:57:20.69

ミニバッチでもバッチのデータと全データで勾配方向が違うから確率的になるけどな
バッチサイズが小さいとそのズレは比較的大きくなる

2022/05/11(水) 15:02:21.52

でもその差を理論的だったり実験的に検証してる論文はないんじゃない？

2022/05/11(水) 15:06:03.86

さすがにあるだろ。80年代にありそう

2022/05/11(水) 16:21:53.90

学習に使う全データは実際に発生するデータの部分集合である事は変わらない
全データで勾配を計算したとしても母集団の情報を使っている事にはならないから確率的勾配降下とも解釈できる

あくまでも学習データに限定して最急降下というだけ
未知データに対する汎化能力で見ると最急降下になっているかは分からない

2022/05/11(水) 20:06:44.40

それはなんかズレてるような
学習データでしか学習しない（勾配を求めて降下させることもない）んだから母集団とか持ち出さなくても

確率的と最急降下の本質的な違いは、確率的に学習することによりローカルミニマムを抜け出す
チャンスがあるかどうかなのでは
そういう意味ではミニバッチ法も確率的だというのはあってると思う

2022/05/11(水) 20:15:05.10

サイコロふってサンプル選んでミニバッチ作ることが確率的なの？

2022/05/11(水) 20:32:09.62

サンプルの選び方によって勾配が変わるので学習の方向はあっち行ったりこっち行ったりする
でもどちらかと言うと正しい方向に進む確率の方がちょっとだけ高い
そういう意味で確率的、なんだと思う

これはアニーリング問題と同じで、分子を最初は大きくランダムに動かして
（でもちょっとだけ正しい方向に進みやすくして）少しずつ動きを小さくしていくと
最も安定したところに収束する
分子の動き＝温度で、温度を十分にゆっくり下げると最適解に到達することが証明されてる

だからDLでも学習率(温度と等価)の下げ方が重要なんだが最近は自動になって便利だね

2022/05/11(水) 20:57:45.21

>>548
テスト用にデータを分けておいて汎化能力を評価する
過学習になっていないかを確認するため
それでもその後運用すると未学習データに対する精度が要求より低かったりする

2022/05/11(水) 23:37:55.47

過学習
意味: うまくいかないときの言い訳

2022/05/11(水) 23:47:40.71

過学習できるってことはうまくいってるってことだよ

2022/05/12(木) 09:15:39.58

初期の学習率てどうやって決めれば良いの？それとオプティマイザも

2022/05/12(木) 09:16:43.48

adam選んどきゃ正解なの？

2022/05/12(木) 11:51:42.19

ユニット数とかすべてひっくるめて、無限にある組み合わせの中から適当に選んで試しまくってよさげなのを決めるしかないよ
autokerasみたいなの使って半自動で探すのもいいけど、制限も多いから自力(コーディング)で探すのが楽

2022/05/12(木) 15:04:07.76

過学習なんて言葉いい加減禁句にしてほしい。
エラソぶったおっさんが学会でわかった口して過学習、過学習‥‥‥ブツブツ。、

（苦笑）

2022/05/12(木) 15:07:39.54

ただの造語に騙されないように‥‥‥

2022/05/12(木) 15:30:13.49

オーバーフィッティングならいいのか？

2022/05/12(木) 17:20:58.10

たとえばオセロや囲碁などのボードゲームではビットボードが使われてると思うんですが、
学習をさせるときは配列にビットを展開しないといけないんでしょうか？
それともインプットをビットボードの数値にしてもうまく学習できますか？
展開するとしたら結構な計算量とメモリ消費量になると思うのですが、現実どう処理されてるんでしょうか？

2022/05/12(木) 17:40:20.64

bit単位で扱うことはないな。画像データのほうがはるかにメモリ食う
具体的にはゲーム処理は1マス1enum（内部的には4byteかな)でやるし、学習データは1マス1floatの割り当てでやる
オセロなら8x8マスだからfloat[64] 用意して自駒あるとこ1、敵-1、何もなしzero、入力マスク用にbool[64]用意して駒おけるとこだけtrueにして
lstmも何も使わない単純なPPOに突っ込むだけで一日で勝てないとこまでいくよ

2022/05/12(木) 18:07:08.93

配列のほとんどの部分が0なので
疎な配列、疎行列あたりのライブラリを使って
メモリを節約する

2022/05/12(木) 18:20:42.07

適当なオープンソースのやつみたら分かるんじゃね？

2022/05/12(木) 18:43:11.76

>>555
3層パーセプトロンのような、小さいニューラルネットならAdam
VGGやResNetのような、深いネットワークなら、SGDが良いとされる
学習率はとりまデフォルトで様子見

2022/05/12(木) 19:08:36.43

過学習の何が気に入らないのか
過学習は過学習だろ

2022/05/12(木) 19:13:03.75

>>565
過学習って学習しているわけじゃなく、学習データを丸暗記してるのと同じだよね
それを学習といいたくないんじゃないかな

2022/05/12(木) 19:17:06.59

過学習と学習不足(未学習)は機械学習の基本的な考え方だねー。varianceとbiasと考えてもいいよー
ところがディープラーニングの世界では、過学習の先に突然精度が上がる現象が確認されてるよー
不思議だねー

2022/05/12(木) 19:26:27.74

>>567
この現象、体験したことないんだけどMNISTあたりでも観測できるの？

2022/05/12(木) 19:30:00.86

>>567
適当にぐぐったけどこれのこと？

過学習後も精度向上!?【論文】Deep Double Descent: Where Bigger Models and More Data Hurt の解説
https://www.acceluniverse.com/blog/developers/2020/01/deep-double-descent-where-bigger-models-and-more-data-hurt.html

ニワカに信じがたいので、ちょっと読んでみる

2022/05/12(木) 19:34:46.68

丸暗記だって学習は学習
人間でも暗記は必要最低限だけにして知識を効率活用できる人もいれば丸暗記したことしか理解できずちょっと応用問題出されただけで理解不能に陥る人もいる

2022/05/12(木) 19:35:33.93

Double Descentだねー
大規模言語モデルだと前提になってるよー

2022/05/12(木) 19:38:29.11

とはいえ過学習を是とすると、それはただの全文検索なので
Double Descent, Overparameterizationは既知の概念ではない何かなんだろうねー

2022/05/12(木) 19:41:34.38

>>568
トイプロブレムで実証したことはないけど、実務で大きめのモデルを扱っている人は、みんなそれっぽい現象を観測した経験があると思うよー
とはいえ、概念を先に知らないと偶然としか思わないんだけどねー

2022/05/12(木) 20:23:08.75

>>573
ふうん

2022/05/12(木) 22:36:43.51

>>567
局所解って話ではないの？

2022/05/12(木) 23:38:12.85

事例が多くなると
結局あらゆる事例が網羅されるという意味じゃね?

2022/05/12(木) 23:53:34.27

この分野まともな理屈なんて何一つねーんだし
深く考えても無駄よ
他の工学分野とかもっと理論でガチガチに固めてるしな

2022/05/13(金) 12:37:27.02

日本の研究者って理論も弱いよね

2022/05/13(金) 15:43:58.39

弱いというか、現実のDNNの収束過程とは離れた、あまりに理論寄りすぎることばっかりやってる。

2022/05/13(金) 16:49:05.19

現実の結果の説明は多分この先もできないよね

2022/05/13(金) 16:53:12.85

岡谷さんってどうですか？