【統計分析】機械学習・データマイニング29

2020/08/20(木) 09:16:43.41

!extend:on:vvvvvv:1000:512
!extend:on:vvvvvv:1000:512
↑すれたてる毎に１行ずつ減るので、減ってたら３回に増やしてたてること。

機械学習とデータマイニングについて語れ若人

＊機械学習に意識・知能は存在しません。
　　人の意識に触れたい方はスレ違いです。

■前スレ
【統計分析】機械学習・データマイニング28
https://mevius.5ch.net/test/read.cgi/tech/1588293154/
-EOF-

VIPQ2_EXTDAT: default:vvvvvv:1000:512:: EXT was configured

2020/08/20(木) 09:23:35.64

乙

2020/08/20(木) 14:00:34.88

文献調査してると
最近ほとんど日本人の名前を見かけないことに気づく

2020/08/20(木) 18:49:51.17

mnistで各画像のピクセルを特徴量にして学習するってのは理解しました
同様にして犬だの猫だのの画像を大量に突っ込めば判定できるってのもイメージできる
でも画像内部の物体検出して四角で囲ってラベルつけるってのはあれは一体どういう仕組みになるんです？
対象領域の検出方法とか、大きさがバラバラの範囲をどう判別するのかとか、さっぱりわからない
そもそもどういうモデルを作ってるのか、何を特徴量にして判定してるのか、haarlikeだのrcnnだのの解説読んでもイメージ全くつかめないんですが
分かりやすく解説してるところとかないですかね

2020/08/20(木) 19:18:22.18

さあね

2020/08/20(木) 20:23:50.52

地道に矩形をずらしながら判定してるだけだったような

2020/08/20(木) 22:39:23.92

>>4
Googleの自動運転車かなんかのでは
人や車や自転車やバイクを本社の倉庫で８方向から撮影した画像でそれぞれ学習するんだってさ。
それを、エヌビディアのCUDAで並列化してパターン認識させるとよ。

2020/08/21(金) 08:19:06.99

https://youtu.be/qqHfbTCxRMI

まったく伝わってこなくて草

2020/08/21(金) 09:14:56.27

>>4
領域検出とかセグメンテーションっていう分野だね
いろいろやり方がある
ディープラーニングと組み合わせて検索すればいろいろ引っかかるよ

2020/08/21(金) 10:22:29.78

勉強し始めたけど最小二乗法がよくわかりません。
式を見ると残差二乗和が用いられててそれを最小にしてるのはわかります。
一方で平均二乗誤差を使って最小化もできると思うのですが、それは最小二乗法とは言わないのでしょうか。

2020/08/21(金) 10:54:42.43

https://blog.shikoan.com/deeplearning-is-not-ols/

2020/08/21(金) 11:06:27.67

正規分布を仮定したら分散が最小になるから二乗誤差が用いられる

2020/08/21(金) 15:10:02.58

>>10
学習後の出力=予測と実際の値との差をどう測定するかによるんじゃないかな
目的によってその距離をどうしたら都合が良いか
文字列間の距離とかも考えることはできるだろう
ユークリッド距離とかマンハッタン距離とか

2020/08/21(金) 15:31:15.30

>>10
統計の基本を勉強しなさい

2020/08/21(金) 21:41:48.22

>>14
Wikipediaにもそれなりにちゃんと書いてあるじゃないの

2020/08/21(金) 22:25:54.46

>>3
文献だけじゃなく新興企業
ユニコーン企業もほとんど無いからな
古巣の企業がこれから落ちて行くのはわかっているが
有力な新興企業も出て来そうにない
政府が焦って日本にシリコンバレーのようなものを構築させようと試みていたけどおそらく盛り上がらない
スマホのシェアもダメでスマートウォッチもダメでAIの分野は周回遅れ
新しい分野は何も無いからな
昔ながらのモノ作りの部分で頑張っている日本企業は多いけども
全体的に政治家や経営者勢が、自分だけ良ければそれでいい
ってことで保身に走った感は否めない

2020/08/21(金) 23:25:44.23

>>15
笑いが欲しいのか？

2020/08/22(土) 22:40:51.66

>>16
PFNもファナックと協力して頑張ってるみたいだけど、
成果がパッとしないのは人材に恵まれないせいか？

2020/08/23(日) 20:01:15.60

ファナックは営業車の色がちょっとあれだよな
わざわざロボットに合わせなくていいのに
営業車から出てきた営業マンのジャケットが
ロボットと同じ色合だった時のガッカリ感は今でも記憶に残っている
同じ黄色でも違う感じの黄色でも良かったんじゃないかと

シンプルで美しく、使いやすくて直感的にわかりやすいっていう
見た目に拘った会社が米国で初めて時価総額２兆ドルを突破してるんで
結構そういうのは大事かもしれない

2020/08/23(日) 20:04:05.24

カリスマ指導者も昔
莫大な金を使って製品を開発しておいて
売れたら売れただけ赤になるという価格設定で
「行き届かないと意味が無いんだ！」と経営陣とやり合っていたけども
まさかここまで大きくなるとは思わなかっただろうな
戻って来た時に自分を追い込んだ旧経営陣、役員陣を片っ端から切って行ったらしいけど
でも倒産寸前の状態から会社を立て直したのはあれだからな

2020/08/24(月) 22:07:09.43

ニューラルネットワーク勉強してて画像処理でCNNとかの話題になった途端断絶があると思わん？
さっきまでのノードどこ行った？重みは？バックプロパゲーションは？って
うんうん唸って重みに当たるものがフィルターの行列の数値で、ノードが画素の数値のまとまりで、っていうのが本とかstackoverflowとかと格闘してようやく見えてきた
みんなここ簡単に乗り越えられたもんなの？この辺の解説をやってる本が全く無くてどうなってんのと思った

2020/08/25(火) 00:23:41.79

畳み込め

2020/08/25(火) 00:28:26.10

>>20 自分の給与が一ドルなんだから怖いもの無しだろ。
誰にも遠慮する事ないんだからな。

当時会社の時価総額以上の資産を持ってたんじゃないのかな、ディズニーの筆頭株主だったから。

2020/08/25(火) 01:49:15.15

>>21
CNNのサワリで重み共有って聞かなかった？
ニューラルネットワークの重みを制約すると畳込になるよ

2020/08/25(火) 10:15:18.86

>>21
そんなあなたに超おすすめ
https://www.youtube.com/watch?v=vU-JfZNBdYU
わりとまじで必見

2020/08/25(火) 10:23:40.49

>>25
声・・

2020/08/25(火) 10:50:06.93

気持ち悪いから低評価押してきた

2020/08/25(火) 11:33:17.94

めっちゃわかりやすいやん

2020/08/25(火) 13:22:18.28

ホップフィールドネットワークって一つの行列に複数の画像を埋め込む技術なの？

2020/08/25(火) 13:23:52.90

巡回サラリーマン問題を解くためのもの

2020/08/26(水) 21:40:51.73

カメラの顔検出して年齢予測するのを見たんだけど、あれは顔画像を検出するためのモデルと顔画像から年齢を推定するモデルの2つが必要になるの？
顔画像に対して年齢をラベル付けしたデータ食わせてもそれだけじゃ検出部分ができねぇよなと思ったんだけど合ってる？

2020/08/26(水) 22:09:49.75

そだね

2020/08/29(土) 10:13:54.41

初心者の初歩的な質問で申し訳ないんだけど
seq2seqで使うコーパスの、出現数の少ない単語をUNKに変えたものもどう扱えばいいのかわからない
UNKが含まれている文は学習しないほうがいいのか
それともUNKの部分だけone-hot表現するときにすべての次元を0にすればいいのか
それともUNKの部分を抜かして、次の単語をone-hot表現すればいいのか
誰か教えてください

2020/08/29(土) 10:30:49.38

unkの扱いも訓練させる必要がある
idを割り当てた上で訓練すればよい

2020/08/29(土) 17:32:36.48

UNK を　う●こ　と　脳内よみあげしてしまった・・・
　λ...　＜　ちょっとスイカ食ってくる

2020/08/29(土) 18:19:55.59

バグ
は
ハゲ
に観える

2020/08/29(土) 18:24:28.66

>>36
(ヾﾉ･x･`)

2020/08/29(土) 21:06:37.41

＞　お前は毎朝起きるたびに俺に負けたことを思い出すよ＾＾

あー、ホンッとに思い出すなあ（笑）
キチガイの嘘つきの低レベルFランの、
朝鮮ゴキブリBot君は、
チョン独特の「なにもできないけど俺のほうがジャップより偉い！」的な
ことはよーくわかったよ。
ホントなにもできない朝鮮ゴキブリBot君！

クソチョンｗ

Pythonさえろくにできないバカチョンのくせに
できるとほざくクソチョンw

日本で強姦と窃盗を繰り返す
犯罪者在日のクソチョンw

2020/08/30(日) 00:21:49.17

>>35
もうソレでしか読めなくなってしもたor?

2020/08/30(日) 03:14:50.04

>>39
そこまで重症ではないようだ。

2020/08/30(日) 10:06:31.17

ニューラルネットワークって統計なの？

2020/08/30(日) 10:13:19.05

中身を理解すれば統計学の一部になるが、理解せずただ使うだけなら統計とか関係ない単純作業

2020/08/30(日) 14:40:07.23

釣れないネタ

2020/08/30(日) 17:36:55.84

ニューラルネットワークの分類は関数解析では？

2020/08/30(日) 21:24:42.51

アホ参上

2020/08/30(日) 22:17:31.07

機械学習の公平性ってどういう問題設定なの…
予測と決定（予測結果をどう使うか）は別問題だと思うんだけど。

2020/08/30(日) 22:20:31.00

AIが4chで学習して暴走する問題設定

2020/08/30(日) 23:04:23.27

このスレもaiが生成してる

2020/08/31(月) 00:31:26.76

機械学習によって、女性をある仕事に採用しない方がいいとか、黒人はゴリラににてるとかの結果がでるとまずいそうな

2020/08/31(月) 00:40:23.30

>>46
この辺読んどけ
http://www.cs.toronto.edu/~madras/presentations/fairness-ml-uaig.pdf

2020/08/31(月) 01:01:45.29

>>49
ゴリラの方は学習データと予測対象の母集団が一致していないという、単なるサンプリングの失敗じゃない？

2020/08/31(月) 02:57:09.77

ポリコレだろ

2020/08/31(月) 08:51:09.63

MS のtayなるchatbot逝ってたな

2020/08/31(月) 11:51:45.74

polymer clay collectionか

2020/08/31(月) 14:33:01.05

>>50
ありがとう。
発展途上でまだしっかりとした問題設定はできてないと理解しました。

2020/08/31(月) 23:58:59.03

名大会話コーパス読み込んでseq2seqやってんだけどめっちゃ重い
メモリ16ギガ　gtx1060ってスペック不足?
それともコードが悪い?

2020/09/01(火) 01:21:04.58

>>56
ディープラーニングで画像処理するならメモリとグラボの性能
ようするに右脳系処理だけど
自然言語文字列処理はストレージの読み書きとCPUの性能による
いわゆる左脳系処理だから
M.2やSSDとXeon phiね

2020/09/01(火) 02:03:10.61

>>57
m.2 ssdではあるけどcpuは第８世代のi5-8500を使ってる
初めて作ったaiだから普通どれだけリソース食うのかわからないけど、エポックが後半になってくるとメモリもcpuも99%に張り付く
xeonに買い替えたほうがいい?

2020/09/01(火) 20:19:08.65

>>56
seq2seqでなにやるの？

2020/09/02(水) 08:27:13.44

>>58
自然言語をAIでごにょごにょーってやろうとすると
最終段階一歩前くらいが
メモリ爆食いでCPU負荷もモリモリかかるのが普通っぽいぞ。
おれさまの経験によれば。

2020/09/02(水) 08:57:32.90

朝鮮人に統計分析は無理ゲーw

2020/09/02(水) 18:06:31.19

pytorchを少しいじってみた
こんなに簡単にニューラルネットワークを定義できることに驚き
みんな自分でnn.Moduleを継承したクラスをごりごり書いてるの？
自分に出来る気がしない。。。

2020/09/02(水) 20:23:13.12

そこまでやってる人は少ないんじゃないかな
上位のAPI使うだけでも結構いろいろできちゃうし
俺も必要に迫られるまでは手を出す気がしない
勉強してもすぐ陳腐化しちゃうしね

しかしAttentionはもっと簡単に使えるようにならんものか

2020/09/02(水) 22:32:11.11

>>62
nn.Sequentialでじゅうぶん

2020/09/02(水) 22:52:02.42

モデルをゴリゴリに作り込むのは趣味でやってほしい。
実務だと引継ぎ不能に…。

2020/09/02(水) 22:55:19.06

pytorchに鞍替えすっか～

2020/09/02(水) 23:43:57.93

仕事だろ（）

2020/09/03(木) 00:33:16.06

モデルをゴリゴリに作り込むことでそれに見合うリターンが得られるならいいんだけど、

・そもそも目的関数の選択が適切でない
・予測対象の母集団が定義できていない
・偏ったデータを考えもなく使っている
・簡単な特徴量を1つ追加した方が精度が改善する

だったりして、粗大ゴミが作られるのが怖くて…。

2020/09/03(木) 02:10:35.74

そしてライブラリのバージョンアップで動かなくなるという罠

2020/09/03(木) 07:58:01.68

kerasの英仏翻訳のサンプルプログラムにattentionぶちこむにはどうすればいいんだ？

2020/09/03(木) 08:32:39.06

>>68
うまく作れば
複雑怪奇にならなくない？

2020/09/03(木) 10:15:35.69

うまく作るってのが一番難しいんだけどな

2020/09/03(木) 10:34:00.34

>>70
Attentionを使うための便利なものはKerasには用意されてないっぽい
実装してる人のコード見ると、ベクトル演算とか組み合わせてグラフ繋げて自力で作ってたりする
あまりに大変すぎるので、そのうち何かサポートが追加されるんじゃないかと期待してるが

誰か簡単な方法知ってたら教えてくれ

2020/09/03(木) 21:01:30.17

kerasではなくpytorchのほうがいいのかな
face book嫌いだから使いたくないけど

2020/09/03(木) 21:05:35.93

kerasのサンプルあるよね？

2020/09/03(木) 21:08:09.53

attentionて普通に組んだら計算コスト洒落にならなそう。

2020/09/03(木) 21:31:54.12

うお、KerasにAttentionレイヤー用意されてたのか
tf.keras.layers.Attention
いつの間に

2020/09/03(木) 21:34:25.70

>>74
坊主憎けりゃ、だな
お前が使ってもfacebookは1ミクロンも得しないから安心して使え

2020/09/04(金) 02:46:34.87

エロ動画のモザイク取り除くai作りたい、てかなんで誰も発売しないんだ

2020/09/04(金) 03:47:31.78

それはAI界最大級の難しいテーマだからな。
コンピューターには性欲がないからw

2020/09/04(金) 07:19:00.27

>>79-80の流れに朝からﾜﾛﾗｻﾚﾀｰﾖ（・∀・）

2020/09/04(金) 07:50:08.83

発想が童貞みたい

2020/09/04(金) 08:02:56.49

>>79
つ
https://i.imgur.com/Lysnw37.jpg

2020/09/04(金) 09:56:18.30

>>79
あるよ

2020/09/04(金) 10:27:07.17

あるにはあるけど、エロ画像だけ学習させて商品として提供してる会社がなくないか
昔の全然とれないモザイクリムーバーみたいに売れば大ヒットだとおもうんだけどなあ

2020/09/04(金) 11:29:39.09

活性化関数は出力を得るためにかけるんだよね？
dropoutはどの層で有効にすればいいの？中間層すべて？

2020/09/04(金) 12:30:33.71

顔消しモザ消そうとしてちんこが生えたらどうするんだ

2020/09/04(金) 14:01:51.90

>>86
上：せやな
下：やりすぎても、やらなさすぎてもうまくいかず、さじ加減が職人芸だときいている

2020/09/04(金) 14:47:29.83

>>68
数学や統計を極めても、上2つは難しくね？

2020/09/04(金) 14:59:55.37

>>88
ありがと
そっかー、うーむ🤔

2020/09/04(金) 15:03:17.37

りんごちゃんとはるな愛の区別が出来ないんだけど過学習かな

2020/09/04(金) 16:54:52.03

>>89
上2つが適切に設定されていないと、結論の妥当性が示せない。

2020/09/04(金) 17:16:08.49

>>68
モデルゴリゴリ以前の問題なのでは

2020/09/04(金) 18:22:35.09

>>86
中間層すべてにかけるのが普通かな
出力層にもかける流派もあるらしいが
ドロップアウト率は入力層に近い方を高く、遠い方を低くするもんらしい

2020/09/04(金) 19:15:53.20

非線形関数を通さないと線型結合を繰り返すだけになるんじゃないか？
あと微分しても一定の値だからバックプロパゲーションも出来ないのでは？

2020/09/04(金) 19:35:31.74

>>94
ヒントンの論文だと
全中間層でdropoutかけてる図がでてたんだよね

悩む🤔

2020/09/05(土) 10:16:29.80

GeForce RTX 3090はFP32性能が36TFLOPSか、すげーな
しかしせっかくTensorCoreが載ってるのに、これって学習には使えないのね
FP16しか対応してないからかな？　確かにFP16じゃBPがうまく進まなそうだが
性能半分でいいから、FP32対応してくれればいいのに
せっかくの汎用マトリクス演算ユニットなのにもったいない

2020/09/05(土) 11:20:16.92

個人で買えるかわからないけどこんなのもあるな
https://jpn.nec.com/hpc/sxauroratsubasa/features/index.html

2020/09/05(土) 11:36:28.67

>>97
どこでそんなマヌケな情報を手に入れたんだよ

2020/09/05(土) 11:41:53.99

>>98
XEON PHIより難易度高そうだけど
THX