【統計分析】機械学習・データマイニング31

2021/09/26(日) 01:32:46.82

!extend:on:vvvvvv:1000:512
!extend:on:vvvvvv:1000:512
↑すれたてる毎に１つずつ減るので、減ってたら３回に増やしてたてること。

機械学習とデータマイニングについて語れ若人

＊機械学習に意識・知能は存在しません。
　　人の意識に触れたい方はスレ違いです。

■前スレ
【統計分析】機械学習・データマイニング29
https://mevius.5ch.net/test/read.cgi/tech/1597882603/
-EOF-
【統計分析】機械学習・データマイニング30
https://mevius.5ch.net/test/read.cgi/tech/1609459855/

VIPQ2_EXTDAT: default:vvvvvv:1000:512:: EXT was configured

2022/05/12(木) 19:13:03.75

>>565
過学習って学習しているわけじゃなく、学習データを丸暗記してるのと同じだよね
それを学習といいたくないんじゃないかな

2022/05/12(木) 19:17:06.59

過学習と学習不足(未学習)は機械学習の基本的な考え方だねー。varianceとbiasと考えてもいいよー
ところがディープラーニングの世界では、過学習の先に突然精度が上がる現象が確認されてるよー
不思議だねー

2022/05/12(木) 19:26:27.74

>>567
この現象、体験したことないんだけどMNISTあたりでも観測できるの？

2022/05/12(木) 19:30:00.86

>>567
適当にぐぐったけどこれのこと？

過学習後も精度向上!?【論文】Deep Double Descent: Where Bigger Models and More Data Hurt の解説
https://www.acceluniverse.com/blog/developers/2020/01/deep-double-descent-where-bigger-models-and-more-data-hurt.html

ニワカに信じがたいので、ちょっと読んでみる

2022/05/12(木) 19:34:46.68

丸暗記だって学習は学習
人間でも暗記は必要最低限だけにして知識を効率活用できる人もいれば丸暗記したことしか理解できずちょっと応用問題出されただけで理解不能に陥る人もいる

2022/05/12(木) 19:35:33.93

Double Descentだねー
大規模言語モデルだと前提になってるよー

2022/05/12(木) 19:38:29.11

とはいえ過学習を是とすると、それはただの全文検索なので
Double Descent, Overparameterizationは既知の概念ではない何かなんだろうねー

2022/05/12(木) 19:41:34.38

>>568
トイプロブレムで実証したことはないけど、実務で大きめのモデルを扱っている人は、みんなそれっぽい現象を観測した経験があると思うよー
とはいえ、概念を先に知らないと偶然としか思わないんだけどねー

2022/05/12(木) 20:23:08.75

>>573
ふうん

2022/05/12(木) 22:36:43.51

>>567
局所解って話ではないの？

2022/05/12(木) 23:38:12.85

事例が多くなると
結局あらゆる事例が網羅されるという意味じゃね?

2022/05/12(木) 23:53:34.27

この分野まともな理屈なんて何一つねーんだし
深く考えても無駄よ
他の工学分野とかもっと理論でガチガチに固めてるしな

2022/05/13(金) 12:37:27.02

日本の研究者って理論も弱いよね

2022/05/13(金) 15:43:58.39

弱いというか、現実のDNNの収束過程とは離れた、あまりに理論寄りすぎることばっかりやってる。

2022/05/13(金) 16:49:05.19

現実の結果の説明は多分この先もできないよね

2022/05/13(金) 16:53:12.85

岡谷さんってどうですか？

2022/05/13(金) 20:05:28.18

>>577
あなたが知らないだけなんじゃないの？

2022/05/13(金) 20:07:45.53

学習は教師信号との誤差とかで決まる評価関数の値を小さくする結合とかのパラメータを見つける問題に帰着するんだろうな
大まかに言えば組合せ最適化問題

2022/05/13(金) 21:14:31.29

問題にしてるレイヤーが違うんだろ
パラメーターだなんだってのは理論だらけだけど
そのデータからどうして予測できるんだ（どんな特徴が使われてるんだ）とか、このモデルよりもあっちのモデルのほうがうまくいく理由は？みたいなとこはこじつけだらけ

2022/05/14(土) 00:04:16.45

理論がないってのは言い過ぎだけど、まあまだわからんことは多いのは事実。
ある程度わかってもパラメータチューニングについては機械的に探すって話はずっと続きそうではある。

2022/05/14(土) 06:50:37.09

>>585
別に言い過ぎではないよ。
色々試行錯誤してデモ向けチャンピオンﾃﾞｰﾀ探して
発表や論文書いてそこまで、やりっ放し。
再現性無しじゃ理論も減った暮れも

2022/05/14(土) 16:15:39.79

ただのフィッティング技法と考えてよい
教師なし学習は逆フィッティングだが

2022/05/14(土) 17:29:08.39

別の手法として発表されたものが
理論的には同じことをしてるという事もある

2022/05/14(土) 19:16:10.33

ファッションでやってる輩が増えてて困る

2022/05/14(土) 19:28:08.46

逆フィッティングとは

2022/05/14(土) 23:22:49.99

>>589
誰だって最初はにわかな存在ですし、分野としては新規参入者が多いことは喜ばしいことですよ。

2022/05/15(日) 05:04:53.83

>>590
集合と集合の分離する（最大限離す）境界を作成するという意味で用いた。多意はない

>>591
↓これ見たとき何か勘違いしてる輩のギャグかなと思った
https://youtu.be/-MCO1FOeaOI

2022/05/16(月) 11:59:51.09

cnnで特徴抽出するときの中間層てどこでもいいの？
convの直後がいいの？それとも活性化通した後のがいいの？

2022/05/16(月) 12:08:39.95

>>593
転移学習の話なら出力層の直前までを再利用することが多いよー
XAIの話ならなんとも言えないねー。ただ、あまり深い層だと(人が見て)解釈が難しいことが多いよー

2022/05/16(月) 15:03:25.33

>>594
fc入る直前のを特徴として使ってた
他の層も特徴として一緒に使えば精度か上がるかなって思った

2022/05/18(水) 13:41:31.07

顔認識の肌色差別問題て、グレースケールでやれば良くない？

2022/05/18(水) 16:39:07.89

>>596
余計強調されるんじゃないですかね。

2022/05/18(水) 16:45:09.98

monkeyとか出てくるの？

2022/05/18(水) 17:48:14.11

>>596
グレースケールも次元削減の一種だねー
結局元データの特徴量が強調されるよー

2022/05/18(水) 17:51:38.15

コントラスト補正したくらいじゃ改善されないかな

2022/05/18(水) 19:44:51.20

>>596
白人と黒人の写真グレースケールにしてみ？

2022/05/18(水) 22:33:01.65

ゴリラと認識されてしまった黒人画像見たが・・・
あれは仕方ないね、俺らの目でもそう見えかねん

な、黄猿ども？

2022/05/18(水) 23:29:26.78

>>602
老眼では？

2022/05/19(木) 06:52:29.21

すみません素朴な疑問ですが

>>596
学習データに偏りがあるんじゃ、と思ったんですがそんなことはない？

>>600
学習用の画像データはそのまま使うのが普通なんでしょうか？定正準化とかしないもの？（よくしらない）

黒猫の撮影が難しいように（真っ黒い毛玉にしか見えない）
肌の色によっては識別が難しいのはしょうがないと思う
カメラ側が工夫して、そういう人でも特徴を出しやすい画像を作る方がよいのでは

2022/05/19(木) 16:52:03.32

グレーススケール後に適当なフィルタかけてエッジ画像にしてからでも駄目？⤵

2022/05/19(木) 18:30:15.97

>>605
CNNはエッジ検出も行っているといえるねー
それでも誤検出するなら、データの問題を先に考えるのが今のトレンドだねー
本質的に区別ができないという可能性もあるけど、それなら人が違和感持たないので、なんか不測があるんだろうねー

2022/05/19(木) 19:46:45.99

>>605
骨格や髪型から人種判別して差別する可能性は残る

2022/05/19(木) 21:36:05.49

そもそも元レスの顔認識の肌色差別問題が具体的に何を指しているのか分からないですからね。

2022/05/22(日) 17:55:57.69

未知語しかないコーパスに対して辞書無しで単語のわかち書きをやりたいんだけど今のスタンダードな手法はなんですか？
以下見つけたものですが他にオススメあったら教えて下さい

https://github.com/shimo-lab/sembei
行列分解による単語分散表現、出現頻度が低いワードは単語として認識されないのでわかち書きはできない
https://github.com/musyoku/python-npylm
良さげだけどwindowsで環境構築できなかった

2022/05/22(日) 18:45:40.92

>>609
目的が分かち書きだと万能な方法はないねー
何らかのタスクの前処理ならBPEやSPがいいねー

2022/05/22(日) 21:01:10.93

モノリンガルコーパスがあるならベイズ教師無しで単語分割するやつがあったな

2022/05/24(火) 12:14:32.31

モンテカルロ木探索をしてくれるPythonのライブラリはありますか？

2022/05/24(火) 12:23:50.92

ある

2022/05/24(火) 16:34:45.13

日経プログラム買え

2022/05/24(火) 17:11:53.62

自分でデータセット作るの面倒くさそうだね
適正数もわからんし
ネットなりカメラなりで揃えなきゃいけないし

2022/05/24(火) 18:11:03.03

なんの話？

2022/05/24(火) 18:47:38.96

画像分類でもやりたそうな感じだけど具体的需要がなさそう

**615** (ﾜｯﾁｮｲ a67e-guLU [121.93.95.95]) · 2022/05/24(火) 19:04:18.42

>>616
>>617
kerasの実用的な使用方法探してたんだけど、調べてもイマイチ
自分で思いつくものはOCRだったり時系列だったりで違うっぽい
植物分類とか車種のデータセット自分でつくるのもめんどくさいなーとなったところです

2022/05/24(火) 19:19:53.27

手段が目的化してんだろ
考え直したほうがいい

2022/05/24(火) 20:05:35.87

卒研かよ(笑)

2022/05/25(水) 09:27:48.52

生き物好きならネタは腐るほどあるが
それでもデータセット作りは面倒

2022/05/26(木) 13:24:36.20

画像分類の練習したいんですが、画像のピクセル数ってデータセットで統一しないといけないんですか？
ネットで拾ってきてばらばらのときはどうすればいいですか？

2022/05/26(木) 16:25:26.04

リサイズ

2022/05/26(木) 17:02:35.13

Crop

2022/05/26(木) 17:37:50.23

昔のモデルを拾ってきて実行したらリサイズ関数が現在バージョンで無効になってて
そこだけ小改造したなあ

2022/05/26(木) 18:25:55.94

>>622
データセットの正規化や標準化で調べるとよいかと。

基本的にはライブラリに仕組みが用意されてます。

2022/05/29(日) 10:13:03.26

本に書いてある通りにCartPoleやったのに全然学習してくれなくて、
コード見直したらコピペしてたところが微妙に違ってて自分が悪かったｗ

2022/06/05(日) 20:36:53.10

PythonのtensorflowでResNETを書いたら、
CustomMaskWarning: Custom mask layers require a config and must override get_config. When loading, the custom mask layer must be passed to the custom_objects argument.
warnings.warn('Custom mask layers require a config and must override '
という警告が出て、うまく学習しません。
get_configとやらを書くようなのですが、どこにどのように書けばいいのでしょうか？

2022/06/07(火) 09:53:50.73

https://jdla.connpass.com/event/249769/

なんでjdla会員と検定資格合格者だけに限定するのかわからん😡

人材を増やしたいんじゃないのか

すぐ利権化するのなこんな資格、日本限定のごく一部の組織しか重要視しないのに

2022/06/07(火) 12:45:06.42

>>629
その極一部の組織が主催してるからでは？

2022/06/07(火) 13:13:20.27

>>630
そういう閉じた発想を批判してる

講演の最初と最後にjdlaを紹介するだけでいいだろ

conpassのこの手のイベントは大体無料で、特別な参加資格を要さずに広く参加者を募るのに

2022/06/07(火) 14:53:21.30

>>631
そう思うのなら開かれた組織が開催する方だけに参加すればいいと言われるだけでは？

2022/06/07(火) 18:21:58.87

Rの年収が高いのは一部の金融が入ってるからだろと思ってたけど、
実際はpythonで利益がたっぷり取れてて給料が高い会社がプラスアルファで学術的アプローチのものもフォローしたいからRの人を採用してるんだと気づいた。
Rを使える人が結果を出すわけじゃないが、Rができれば今のところ高給に就職できるのは間違い

2022/06/07(火) 21:42:22.03

それはどの言語にも言える話で、特定の分野の高給取りが何かの事情で特定の言語を使っているとその言語の収入平均が上がる相関があるだけで、
特定の言語ができるから給料が上がる訳じゃないんだよな。
大体高給取りは優秀だからどの言語も必要になれば使うだろうっていう。
どの分野、どの会社で働くかの方がよっぽど因子としてはでかいと思う。

2022/06/07(火) 22:35:24.62

統計を知らない人がR言語だけ覚えたって仕事にありつけるわけはないがな

2022/06/08(水) 15:02:01.86

>>629
取り合えず運営に文句言っといた

2022/06/08(水) 20:02:49.23

ngセンセの講義は学生じゃなくてもお金払わなくても見られるね

有名私大はお金払った人しか相手にしないということをしないで無料で講義を公開してうまくやってる

niconicoはお金払わない人冷遇してyoutubeが大繁盛

2022/06/08(水) 21:05:01.16

この世で最も鬱陶しいもの
業界通気取りの部外者からのアドバイス

2022/06/10(金) 23:17:09.23

機械学習勉強しているとよくわからない間はベイズが偉いように感じるけど
本当はベイズはたいしたことなくて，偉いのはオイラーやラグランジュ，ハミルトンだよな。

2022/06/10(金) 23:57:15.52

>>639
我々凡人が優劣をつけて論じる姿が滑稽なことは確かだと思いますが。

2022/06/13(月) 11:26:59.27

google brainとかopenaiに勤めてる日本人ているのかな

2022/06/13(月) 18:08:45.23

これ実画像を数式で再現して、その再現された画像を使って学習するって話で合ってる？
結局数式で再現可能な画像しか学習出来ないなら実世界では使えないと思うんだけどどうなんだろう

大量の実画像データの収集が不要なAIを開発
－数式からAIが自動学習、人の判断を経た学習と同程度以上の認識精度を実現－
https://www.aist.go.jp/aist_j/press_release/pr2022/pr20220613/pr20220613.html

2022/06/13(月) 18:45:12.30

>>642
仮に現実の空間を再現した仮想空間、メタバースみたいなのがあったとしたら
そこから2Dにした画像と、現実世界の写真と学習するAIにはどっちでもいいんじゃね？
結果的に役に立つモデルを作れるなら元データが実写かCGか絵画がとかはどうでも良いかも

2022/06/13(月) 19:02:28.63

>>642
実世界によく見られるパターン(フラクタル)を数式で再現する訳だから使えるんだろう

2022/06/15(水) 11:17:31.40

https://arxiv.org/abs/2206.04615
この手の論文に日本人がいなくて寂しい

2022/06/15(水) 11:22:52.64

機械は思考できるか

2022/06/15(水) 12:05:30.32

他人が思考してるかなんて判断しようが無いし

2022/06/15(水) 15:39:57.11

本で読んだけど、われわれもラジオのようなものかもしれないって話
ラジオは自分を分解して、しゃべれる謎やボリュームやチャンネルが変わる謎を解き明かそうとするが、電波塔から電波が飛んできてることを知らないからいつまでたっても謎が謎のままだと
われわれも思考したり自由意思で何かしたりしているけど、実は全部操られてるかもねって話
そうするとわれわれの思考とPCでプログラム動かすのは大差ないということになる

2022/06/15(水) 16:03:34.37

思い出した
意識は傍観者である、って本
スレチすまそ

2022/06/15(水) 18:15:43.49

おもろそうね読んでみる

2022/06/15(水) 18:31:04.72

過半数の人間はルーチンワークしかしないしな
それを知能と言うのかどうかという問題はある

2022/06/15(水) 19:06:46.53

学習したものだろｗ

2022/06/15(水) 20:06:42.41

「GoogleのAIが感情や知性を獲得した」というエンジニアの指摘は間違っていると専門家から批判が殺到
https://gigazine.net/news/20220614-google-ai-lamda-sentient-nonsens/

これこれ

2022/06/15(水) 23:50:10.86

人間の行動のうち反射、条件反射は統計学習というよりは
if then else
過半数の人間は反射、条件反射しかしない
これは知能なのか?
学習の結果ではあるのだが

2022/06/16(木) 10:20:18.17

小脳の機能の実現は簡単だｗ

2022/06/16(木) 13:28:09.52

jupyterで一つのセルのアウトプットで複数のfigureの出力(axesではなくて)ってできますか?

2022/06/17(金) 10:55:07.17

AlphaZeroのプログラムを本に書いてある通りやったのにうまく動かないぞ、この本は糞だな、
って思ってたんだけど、ふとプログラムを見たときにおかしいところがあって、確認したら自分の打ち間違いだったorz

2022/06/17(金) 21:03:08.74

kaggleのノートブックってメモリ不足でkaggleの環境じゃエラーになるやつって公開してる人います?

2022/06/18(土) 22:30:04.73

詳しくないけど
確かにたまにKaggle環境で実行するとタイムアウトだかで最後までいかないコードあるよね
そうなのかなと思ってる

2022/06/19(日) 03:58:41.62

CNNで、各出力が０－２５５になっています
１というのが邪魔で、学習で最終的に０に収束するのですが、さっさと０にしてしまう方法はありませんか？

2022/06/19(日) 06:32:29.92

なんか草

2022/06/19(日) 07:38:29.27

俺には状況がまったく分からん

2022/06/19(日) 09:35:16.08

何が問題なのかわからんが、完全に0になると勾配も消失するので学習が進まなくなるのでは

2022/06/20(月) 14:17:38.78

知性=intelligenceで、AI=artificial intelligenceなののに、AIが知性を獲得したって何

感情とか意識を語るならまず感情とか意識を定義しないとダメだろ
あいまいな「動物が持ってるもの」みたいなニュアンスで語るから議論にすらならないわけで

2022/06/20(月) 14:28:02.14

>>664
自分もその通りだと思う
まず、自分に備わっている感情や意識だと感じているものはなんなのかを定義し、
そして果たして自分以外の他人は感情や意識を持っているのかという疑問に答えなければAIが感情や意識を持っているかどうかなんて議論できないよね。
素朴に「自分も他人も意識を持っているに違いない」から出発してしまう人が多いように思う。

2022/06/20(月) 17:55:39.64

相手が人工無能でも気付かずにチャットし続ける人は一定数居るからな