【統計分析】機械学習・データマイニング31

■ このスレッドは過去ログ倉庫に格納されています
2021/09/26(日) 01:32:46.82ID:fnXwjiVa0
!extend:on:vvvvvv:1000:512
!extend:on:vvvvvv:1000:512
↑すれたてる毎に1つずつ減るので、減ってたら3回に増やしてたてること。

機械学習とデータマイニングについて語れ若人

*機械学習に意識・知能は存在しません。
  人の意識に触れたい方はスレ違いです。

■前スレ
【統計分析】機械学習・データマイニング29
https://mevius.5ch.net/test/read.cgi/tech/1597882603/
-EOF-
【統計分析】機械学習・データマイニング30
https://mevius.5ch.net/test/read.cgi/tech/1609459855/
VIPQ2_EXTDAT: default:vvvvvv:1000:512:: EXT was configured
2022/05/12(木) 19:13:03.75ID:SeeVGpfXx
>>565
過学習って学習しているわけじゃなく、学習データを丸暗記してるのと同じだよね
それを学習といいたくないんじゃないかな
567デフォルトの名無しさん (ワッチョイ ee10-cfd4 [153.243.43.6])
垢版 |
2022/05/12(木) 19:17:06.59ID:QHBqVOhI0
過学習と学習不足(未学習)は機械学習の基本的な考え方だねー。varianceとbiasと考えてもいいよー
ところがディープラーニングの世界では、過学習の先に突然精度が上がる現象が確認されてるよー
不思議だねー
2022/05/12(木) 19:26:27.74ID:awPT4EK2M
>>567
この現象、体験したことないんだけどMNISTあたりでも観測できるの?
2022/05/12(木) 19:30:00.86ID:SeeVGpfXx
>>567
適当にぐぐったけどこれのこと?

過学習後も精度向上!?【論文】Deep Double Descent: Where Bigger Models and More Data Hurt の解説
https://www.acceluniverse.com/blog/developers/2020/01/deep-double-descent-where-bigger-models-and-more-data-hurt.html

ニワカに信じがたいので、ちょっと読んでみる
2022/05/12(木) 19:34:46.68ID:V9a83oNra
丸暗記だって学習は学習
人間でも暗記は必要最低限だけにして知識を効率活用できる人もいれば丸暗記したことしか理解できずちょっと応用問題出されただけで理解不能に陥る人もいる
571デフォルトの名無しさん (ワッチョイ ee10-cfd4 [153.243.43.6])
垢版 |
2022/05/12(木) 19:35:33.93ID:QHBqVOhI0
Double Descentだねー
大規模言語モデルだと前提になってるよー
572デフォルトの名無しさん (ワッチョイ ee10-cfd4 [153.243.43.6])
垢版 |
2022/05/12(木) 19:38:29.11ID:QHBqVOhI0
とはいえ過学習を是とすると、それはただの全文検索なので
Double Descent, Overparameterizationは既知の概念ではない何かなんだろうねー
573デフォルトの名無しさん (ワッチョイ ee10-cfd4 [153.243.43.6])
垢版 |
2022/05/12(木) 19:41:34.38ID:QHBqVOhI0
>>568
トイプロブレムで実証したことはないけど、実務で大きめのモデルを扱っている人は、みんなそれっぽい現象を観測した経験があると思うよー
とはいえ、概念を先に知らないと偶然としか思わないんだけどねー
2022/05/12(木) 20:23:08.75ID:gGBQiRDa0
>>573
ふうん
2022/05/12(木) 22:36:43.51ID:m2THFYn4M
>>567
局所解って話ではないの?
2022/05/12(木) 23:38:12.85ID:XThBUtns0
事例が多くなると
結局あらゆる事例が網羅されるという意味じゃね?
2022/05/12(木) 23:53:34.27ID:CoPLz2Vj0
この分野まともな理屈なんて何一つねーんだし
深く考えても無駄よ
他の工学分野とかもっと理論でガチガチに固めてるしな
2022/05/13(金) 12:37:27.02ID:AsvYLwfP0
日本の研究者って理論も弱いよね
2022/05/13(金) 15:43:58.39ID:nFnwnz+O0
弱いというか、現実のDNNの収束過程とは離れた、あまりに理論寄りすぎることばっかりやってる。
2022/05/13(金) 16:49:05.19ID:NE9V9IQG0
現実の結果の説明は多分この先もできないよね
581デフォルトの名無しさん (ワッチョイ 0255-/AKQ [59.147.205.222])
垢版 |
2022/05/13(金) 16:53:12.85ID:N8AZ2EKD0
岡谷さんってどうですか?
2022/05/13(金) 20:05:28.18ID:UTtAr0xn0
>>577
あなたが知らないだけなんじゃないの?
2022/05/13(金) 20:07:45.53ID:UTtAr0xn0
学習は教師信号との誤差とかで決まる評価関数の値を小さくする結合とかのパラメータを見つける問題に帰着するんだろうな
大まかに言えば組合せ最適化問題
2022/05/13(金) 21:14:31.29ID:btyzcX5fa
問題にしてるレイヤーが違うんだろ
パラメーターだなんだってのは理論だらけだけど
そのデータからどうして予測できるんだ(どんな特徴が使われてるんだ)とか、このモデルよりもあっちのモデルのほうがうまくいく理由は?みたいなとこはこじつけだらけ
2022/05/14(土) 00:04:16.45ID:0dDHcT1o0
理論がないってのは言い過ぎだけど、まあまだわからんことは多いのは事実。
ある程度わかってもパラメータチューニングについては機械的に探すって話はずっと続きそうではある。
2022/05/14(土) 06:50:37.09ID:O8qOoha4a
>>585
別に言い過ぎではないよ。
色々試行錯誤してデモ向けチャンピオンデータ探して
発表や論文書いてそこまで、やりっ放し。
再現性無しじゃ理論も減った暮れも
2022/05/14(土) 16:15:39.79ID:tMZG04rkd
ただのフィッティング技法と考えてよい
教師なし学習は逆フィッティングだが
2022/05/14(土) 17:29:08.39ID:4saW8Bc8M
別の手法として発表されたものが
理論的には同じことをしてるという事もある
2022/05/14(土) 19:16:10.33ID:tMZG04rkd
ファッションでやってる輩が増えてて困る
590デフォルトの名無しさん (ワッチョイ ca10-Vod4 [153.243.53.4])
垢版 |
2022/05/14(土) 19:28:08.46ID:3asw//Zv0
逆フィッティングとは
2022/05/14(土) 23:22:49.99ID:gU3pbgYf0
>>589
誰だって最初はにわかな存在ですし、分野としては新規参入者が多いことは喜ばしいことですよ。
2022/05/15(日) 05:04:53.83ID:RG3j7DCt0
>>590
集合と集合の分離する(最大限離す)境界を作成するという意味で用いた。多意はない

>>591
↓これ見たとき何か勘違いしてる輩のギャグかなと思った
https://youtu.be/-MCO1FOeaOI
2022/05/16(月) 11:59:51.09ID:oRnyDlKgM
cnnで特徴抽出するときの中間層てどこでもいいの?
convの直後がいいの?それとも活性化通した後のがいいの?
594デフォルトの名無しさん (ワッチョイ ca10-biPL [153.243.43.6])
垢版 |
2022/05/16(月) 12:08:39.95ID:ucnn58bs0
>>593
転移学習の話なら出力層の直前までを再利用することが多いよー
XAIの話ならなんとも言えないねー。ただ、あまり深い層だと(人が見て)解釈が難しいことが多いよー
2022/05/16(月) 15:03:25.33ID:04bK1tejM
>>594
fc入る直前のを特徴として使ってた
他の層も特徴として一緒に使えば精度か上がるかなって思った
2022/05/18(水) 13:41:31.07ID:cOuIvIQpM
顔認識の肌色差別問題て、グレースケールでやれば良くない?
2022/05/18(水) 16:39:07.89ID:SlOJ3xLY0
>>596
余計強調されるんじゃないですかね。
2022/05/18(水) 16:45:09.98ID:1kgDoT/jH
monkeyとか出てくるの?
599デフォルトの名無しさん (ワッチョイ ca10-Kq3f [153.243.43.6])
垢版 |
2022/05/18(水) 17:48:14.11ID:tbtjI4Jo0
>>596
グレースケールも次元削減の一種だねー
結局元データの特徴量が強調されるよー
2022/05/18(水) 17:51:38.15ID:cOuIvIQpM
コントラスト補正したくらいじゃ改善されないかな
601デフォルトの名無しさん (ワッチョイ ca10-Vod4 [153.243.53.4])
垢版 |
2022/05/18(水) 19:44:51.20ID:z8mk94f90
>>596
白人と黒人の写真グレースケールにしてみ?
2022/05/18(水) 22:33:01.65ID:9twh3XQB0
ゴリラと認識されてしまった黒人画像見たが・・・
あれは仕方ないね、俺らの目でもそう見えかねん

な、黄猿ども?
2022/05/18(水) 23:29:26.78ID:SlOJ3xLY0
>>602
老眼では?
2022/05/19(木) 06:52:29.21ID:6liSYt1H0
すみません素朴な疑問ですが

>>596
学習データに偏りがあるんじゃ、と思ったんですがそんなことはない?

>>600
学習用の画像データはそのまま使うのが普通なんでしょうか? 定正準化とかしないもの?(よくしらない)


黒猫の撮影が難しいように(真っ黒い毛玉にしか見えない)
肌の色によっては識別が難しいのはしょうがないと思う
カメラ側が工夫して、そういう人でも特徴を出しやすい画像を作る方がよいのでは
2022/05/19(木) 16:52:03.32ID:edTczYU6M
グレーススケール後に適当なフィルタかけてエッジ画像にしてからでも駄目?⤵
606デフォルトの名無しさん (ワッチョイ ca10-biPL [153.243.43.6])
垢版 |
2022/05/19(木) 18:30:15.97ID:zHi3KVOI0
>>605
CNNはエッジ検出も行っているといえるねー
それでも誤検出するなら、データの問題を先に考えるのが今のトレンドだねー
本質的に区別ができないという可能性もあるけど、それなら人が違和感持たないので、なんか不測があるんだろうねー
607デフォルトの名無しさん (ワッチョイ ca10-Vod4 [153.243.53.4])
垢版 |
2022/05/19(木) 19:46:45.99ID:MWEO0MI00
>>605
骨格や髪型から人種判別して差別する可能性は残る
2022/05/19(木) 21:36:05.49ID:0P/kzYsp0
そもそも元レスの顔認識の肌色差別問題が具体的に何を指しているのか分からないですからね。
2022/05/22(日) 17:55:57.69ID:iVOTdrTva
未知語しかないコーパスに対して辞書無しで単語のわかち書きをやりたいんだけど今のスタンダードな手法はなんですか?
以下見つけたものですが他にオススメあったら教えて下さい

https://github.com/shimo-lab/sembei
行列分解による単語分散表現、出現頻度が低いワードは単語として認識されないのでわかち書きはできない
https://github.com/musyoku/python-npylm
良さげだけどwindowsで環境構築できなかった
610デフォルトの名無しさん (ワッチョイ e610-kFU8 [153.243.43.6])
垢版 |
2022/05/22(日) 18:45:40.92ID:rU+wfvkz0
>>609
目的が分かち書きだと万能な方法はないねー
何らかのタスクの前処理ならBPEやSPがいいねー
2022/05/22(日) 21:01:10.93ID:pMmiMThE0
モノリンガルコーパスがあるならベイズ教師無しで単語分割するやつがあったな
2022/05/24(火) 12:14:32.31ID:I+NBTrD50
モンテカルロ木探索をしてくれるPythonのライブラリはありますか?
2022/05/24(火) 12:23:50.92ID:+v3XfkcC0
ある
2022/05/24(火) 16:34:45.13ID:eTu9tEN2M
日経プログラム買え
2022/05/24(火) 17:11:53.62ID:9QRmEXzLM
自分でデータセット作るの面倒くさそうだね
適正数もわからんし
ネットなりカメラなりで揃えなきゃいけないし
2022/05/24(火) 18:11:03.03ID:+v3XfkcC0
なんの話?
2022/05/24(火) 18:47:38.96ID:FOAlso0MH
画像分類でもやりたそうな感じだけど具体的需要がなさそう
2022/05/24(火) 19:04:18.42ID:RN1pZpwH0
>>616
>>617
kerasの実用的な使用方法探してたんだけど、調べてもイマイチ
自分で思いつくものはOCRだったり時系列だったりで違うっぽい
植物分類とか車種のデータセット自分でつくるのもめんどくさいなーとなったところです
2022/05/24(火) 19:19:53.27ID:umKX1IFsH
手段が目的化してんだろ
考え直したほうがいい
2022/05/24(火) 20:05:35.87ID:+v3XfkcC0
卒研かよ(笑)
2022/05/25(水) 09:27:48.52ID:Mav3r0Hwr
生き物好きならネタは腐るほどあるが
それでもデータセット作りは面倒
2022/05/26(木) 13:24:36.20ID:mBsXmcA10
画像分類の練習したいんですが、画像のピクセル数ってデータセットで統一しないといけないんですか?
ネットで拾ってきてばらばらのときはどうすればいいですか?
2022/05/26(木) 16:25:26.04ID:WPeCiMTRM
リサイズ
624デフォルトの名無しさん (ワッチョイ 8b97-llY8 [218.221.184.26])
垢版 |
2022/05/26(木) 17:02:35.13ID:t8LrFIJ+0
Crop
2022/05/26(木) 17:37:50.23ID:xQN+HpOG0
昔のモデルを拾ってきて実行したらリサイズ関数が現在バージョンで無効になってて
そこだけ小改造したなあ
2022/05/26(木) 18:25:55.94ID:LACA6skg0
>>622
データセットの正規化や標準化で調べるとよいかと。

基本的にはライブラリに仕組みが用意されてます。
2022/05/29(日) 10:13:03.26ID:s6sbnJ7C0
本に書いてある通りにCartPoleやったのに全然学習してくれなくて、
コード見直したらコピペしてたところが微妙に違ってて自分が悪かったw
2022/06/05(日) 20:36:53.10ID:iN8cahSF0
PythonのtensorflowでResNETを書いたら、
CustomMaskWarning: Custom mask layers require a config and must override get_config. When loading, the custom mask layer must be passed to the custom_objects argument.
warnings.warn('Custom mask layers require a config and must override '
という警告が出て、うまく学習しません。
get_configとやらを書くようなのですが、どこにどのように書けばいいのでしょうか?
2022/06/07(火) 09:53:50.73ID:yKocZueUM
https://jdla.connpass.com/event/249769/

なんでjdla会員と検定資格合格者だけに限定するのかわからん😡

人材を増やしたいんじゃないのか

すぐ利権化するのなこんな資格、日本限定のごく一部の組織しか重要視しないのに
2022/06/07(火) 12:45:06.42ID:53O0dhtQ0
>>629
その極一部の組織が主催してるからでは?
2022/06/07(火) 13:13:20.27ID:yKocZueUM
>>630
そういう閉じた発想を批判してる

講演の最初と最後にjdlaを紹介するだけでいいだろ

conpassのこの手のイベントは大体無料で、特別な参加資格を要さずに広く参加者を募るのに
2022/06/07(火) 14:53:21.30ID:53O0dhtQ0
>>631
そう思うのなら開かれた組織が開催する方だけに参加すればいいと言われるだけでは?
633デフォルトの名無しさん (テテンテンテン MM7f-JoGv [133.106.44.166])
垢版 |
2022/06/07(火) 18:21:58.87ID:uJy/Pt6VM
Rの年収が高いのは一部の金融が入ってるからだろと思ってたけど、
実際はpythonで利益がたっぷり取れてて給料が高い会社がプラスアルファで学術的アプローチのものもフォローしたいからRの人を採用してるんだと気づいた。
Rを使える人が結果を出すわけじゃないが、Rができれば今のところ高給に就職できるのは間違い
634デフォルトの名無しさん (ワッチョイ 4397-GLPP [182.171.246.142])
垢版 |
2022/06/07(火) 21:42:22.03ID:npjA282C0
それはどの言語にも言える話で、特定の分野の高給取りが何かの事情で特定の言語を使っているとその言語の収入平均が上がる相関があるだけで、
特定の言語ができるから給料が上がる訳じゃないんだよな。
大体高給取りは優秀だからどの言語も必要になれば使うだろうっていう。
どの分野、どの会社で働くかの方がよっぽど因子としてはでかいと思う。
2022/06/07(火) 22:35:24.62ID:4dYY0IzZ0
統計を知らない人がR言語だけ覚えたって仕事にありつけるわけはないがな
2022/06/08(水) 15:02:01.86ID:FLJL3iOCM
>>629
取り合えず運営に文句言っといた
2022/06/08(水) 20:02:49.23ID:hN+YtWYD0
ngセンセの講義は学生じゃなくてもお金払わなくても見られるね

有名私大はお金払った人しか相手にしないということをしないで無料で講義を公開してうまくやってる

niconicoはお金払わない人冷遇してyoutubeが大繁盛
2022/06/08(水) 21:05:01.16ID:pcEQrtJPa
この世で最も鬱陶しいもの
業界通気取りの部外者からのアドバイス
2022/06/10(金) 23:17:09.23ID:FN9GlUM30
機械学習勉強しているとよくわからない間はベイズが偉いように感じるけど
本当はベイズはたいしたことなくて,偉いのはオイラーやラグランジュ,ハミルトンだよな。
2022/06/10(金) 23:57:15.52ID:z4Q3reov0
>>639
我々凡人が優劣をつけて論じる姿が滑稽なことは確かだと思いますが。
2022/06/13(月) 11:26:59.27ID:VNGpPyKIM
google brainとかopenaiに勤めてる日本人ているのかな
2022/06/13(月) 18:08:45.23ID:06/t495PM
これ実画像を数式で再現して、その再現された画像を使って学習するって話で合ってる?
結局数式で再現可能な画像しか学習出来ないなら実世界では使えないと思うんだけどどうなんだろう



大量の実画像データの収集が不要なAIを開発
-数式からAIが自動学習、人の判断を経た学習と同程度以上の認識精度を実現-
https://www.aist.go.jp/aist_j/press_release/pr2022/pr20220613/pr20220613.html
2022/06/13(月) 18:45:12.30ID:WBHaax/Q0
>>642
仮に現実の空間を再現した仮想空間、メタバースみたいなのがあったとしたら
そこから2Dにした画像と、現実世界の写真と学習するAIにはどっちでもいいんじゃね?
結果的に役に立つモデルを作れるなら元データが実写かCGか絵画がとかはどうでも良いかも
644デフォルトの名無しさん (ワッチョイ cf10-UWq1 [153.243.53.4])
垢版 |
2022/06/13(月) 19:02:28.63ID:ULQZauRw0
>>642
実世界によく見られるパターン(フラクタル)を数式で再現する訳だから使えるんだろう
2022/06/15(水) 11:17:31.40ID:UJIi++3CM
https://arxiv.org/abs/2206.04615
この手の論文に日本人がいなくて寂しい
2022/06/15(水) 11:22:52.64ID:DLWFzlOj0
機械は思考できるか
2022/06/15(水) 12:05:30.32ID:UJIi++3CM
他人が思考してるかなんて判断しようが無いし
2022/06/15(水) 15:39:57.11ID:sQ3kwlup0
本で読んだけど、われわれもラジオのようなものかもしれないって話
ラジオは自分を分解して、しゃべれる謎やボリュームやチャンネルが変わる謎を解き明かそうとするが、電波塔から電波が飛んできてることを知らないからいつまでたっても謎が謎のままだと
われわれも思考したり自由意思で何かしたりしているけど、実は全部操られてるかもねって話
そうするとわれわれの思考とPCでプログラム動かすのは大差ないということになる
2022/06/15(水) 16:03:34.37ID:sQ3kwlup0
思い出した
意識は傍観者である、って本
スレチすまそ
2022/06/15(水) 18:15:43.49ID:UJIi++3CM
おもろそうね読んでみる
2022/06/15(水) 18:31:04.72ID:oaz3/shQ0
過半数の人間はルーチンワークしかしないしな
それを知能と言うのかどうかという問題はある
2022/06/15(水) 19:06:46.53ID:DLWFzlOj0
学習したものだろw
2022/06/15(水) 20:06:42.41ID:Q/0PD45r0
「GoogleのAIが感情や知性を獲得した」というエンジニアの指摘は間違っていると専門家から批判が殺到
https://gigazine.net/news/20220614-google-ai-lamda-sentient-nonsens/

これこれ
2022/06/15(水) 23:50:10.86ID:oaz3/shQ0
人間の行動のうち反射、条件反射は統計学習というよりは
if then else
過半数の人間は反射、条件反射しかしない
これは知能なのか?
学習の結果ではあるのだが
2022/06/16(木) 10:20:18.17ID:AP0F3km20
小脳の機能の実現は簡単だw
2022/06/16(木) 13:28:09.52ID:xbJMxKufa
jupyterで一つのセルのアウトプットで複数のfigureの出力(axesではなくて)ってできますか?
2022/06/17(金) 10:55:07.17ID:k+1tjOJq0
AlphaZeroのプログラムを本に書いてある通りやったのにうまく動かないぞ、この本は糞だな、
って思ってたんだけど、ふとプログラムを見たときにおかしいところがあって、確認したら自分の打ち間違いだったorz
2022/06/17(金) 21:03:08.74ID:JQxMflpFa
kaggleのノートブックってメモリ不足でkaggleの環境じゃエラーになるやつって公開してる人います?
2022/06/18(土) 22:30:04.73ID:yvqJPccNM
詳しくないけど
確かにたまにKaggle環境で実行するとタイムアウトだかで最後までいかないコードあるよね
そうなのかなと思ってる
2022/06/19(日) 03:58:41.62ID:VCmz0n6H0
CNNで、各出力が0−255になっています
1というのが邪魔で、学習で最終的に0に収束するのですが、さっさと0にしてしまう方法はありませんか?
2022/06/19(日) 06:32:29.92ID:q3JdLoGK0
なんか草
662デフォルトの名無しさん (ワッチョイ 9612-kP8k [121.3.137.7])
垢版 |
2022/06/19(日) 07:38:29.27ID:tC2ai9t40
俺には状況がまったく分からん
2022/06/19(日) 09:35:16.08ID:G2ekVkpa0
何が問題なのかわからんが、完全に0になると勾配も消失するので学習が進まなくなるのでは
2022/06/20(月) 14:17:38.78ID:g6RK1j7U0
知性=intelligenceで、AI=artificial intelligenceなののに、AIが知性を獲得したって何

感情とか意識を語るならまず感情とか意識を定義しないとダメだろ
あいまいな「動物が持ってるもの」みたいなニュアンスで語るから議論にすらならないわけで
665デフォルトの名無しさん (ブーイモ MMce-rvTB [163.49.211.107])
垢版 |
2022/06/20(月) 14:28:02.14ID:A7lPYgwwM
>>664
自分もその通りだと思う
まず、自分に備わっている感情や意識だと感じているものはなんなのかを定義し、
そして果たして自分以外の他人は感情や意識を持っているのかという疑問に答えなければAIが感情や意識を持っているかどうかなんて議論できないよね。
素朴に「自分も他人も意識を持っているに違いない」から出発してしまう人が多いように思う。
666デフォルトの名無しさん (アウアウウー Saa3-vQ73 [106.181.220.152])
垢版 |
2022/06/20(月) 17:55:39.64ID:67whDYmfa
相手が人工無能でも気付かずにチャットし続ける人は一定数居るからな
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況