【統計分析】機械学習・データマイニング29

2020/08/20(木) 09:16:43.41

!extend:on:vvvvvv:1000:512
!extend:on:vvvvvv:1000:512
↑すれたてる毎に１行ずつ減るので、減ってたら３回に増やしてたてること。

機械学習とデータマイニングについて語れ若人

＊機械学習に意識・知能は存在しません。
　　人の意識に触れたい方はスレ違いです。

■前スレ
【統計分析】機械学習・データマイニング28
https://mevius.5ch.net/test/read.cgi/tech/1588293154/
-EOF-

VIPQ2_EXTDAT: default:vvvvvv:1000:512:: EXT was configured

2020/08/25(火) 10:23:40.49

>>25
声・・

2020/08/25(火) 10:50:06.93

気持ち悪いから低評価押してきた

2020/08/25(火) 11:33:17.94

めっちゃわかりやすいやん

2020/08/25(火) 13:22:18.28

ホップフィールドネットワークって一つの行列に複数の画像を埋め込む技術なの？

2020/08/25(火) 13:23:52.90

巡回サラリーマン問題を解くためのもの

2020/08/26(水) 21:40:51.73

カメラの顔検出して年齢予測するのを見たんだけど、あれは顔画像を検出するためのモデルと顔画像から年齢を推定するモデルの2つが必要になるの？
顔画像に対して年齢をラベル付けしたデータ食わせてもそれだけじゃ検出部分ができねぇよなと思ったんだけど合ってる？

2020/08/26(水) 22:09:49.75

そだね

2020/08/29(土) 10:13:54.41

初心者の初歩的な質問で申し訳ないんだけど
seq2seqで使うコーパスの、出現数の少ない単語をUNKに変えたものもどう扱えばいいのかわからない
UNKが含まれている文は学習しないほうがいいのか
それともUNKの部分だけone-hot表現するときにすべての次元を0にすればいいのか
それともUNKの部分を抜かして、次の単語をone-hot表現すればいいのか
誰か教えてください

2020/08/29(土) 10:30:49.38

unkの扱いも訓練させる必要がある
idを割り当てた上で訓練すればよい

2020/08/29(土) 17:32:36.48

UNK を　う●こ　と　脳内よみあげしてしまった・・・
　λ...　＜　ちょっとスイカ食ってくる

2020/08/29(土) 18:19:55.59

バグ
は
ハゲ
に観える

2020/08/29(土) 18:24:28.66

>>36
(ヾﾉ･x･`)

2020/08/29(土) 21:06:37.41

＞　お前は毎朝起きるたびに俺に負けたことを思い出すよ＾＾

あー、ホンッとに思い出すなあ（笑）
キチガイの嘘つきの低レベルFランの、
朝鮮ゴキブリBot君は、
チョン独特の「なにもできないけど俺のほうがジャップより偉い！」的な
ことはよーくわかったよ。
ホントなにもできない朝鮮ゴキブリBot君！

クソチョンｗ

Pythonさえろくにできないバカチョンのくせに
できるとほざくクソチョンw

日本で強姦と窃盗を繰り返す
犯罪者在日のクソチョンw

2020/08/30(日) 00:21:49.17

>>35
もうソレでしか読めなくなってしもたor?

2020/08/30(日) 03:14:50.04

>>39
そこまで重症ではないようだ。

2020/08/30(日) 10:06:31.17

ニューラルネットワークって統計なの？

2020/08/30(日) 10:13:19.05

中身を理解すれば統計学の一部になるが、理解せずただ使うだけなら統計とか関係ない単純作業

2020/08/30(日) 14:40:07.23

釣れないネタ

2020/08/30(日) 17:36:55.84

ニューラルネットワークの分類は関数解析では？

2020/08/30(日) 21:24:42.51

アホ参上

2020/08/30(日) 22:17:31.07

機械学習の公平性ってどういう問題設定なの…
予測と決定（予測結果をどう使うか）は別問題だと思うんだけど。

2020/08/30(日) 22:20:31.00

AIが4chで学習して暴走する問題設定

2020/08/30(日) 23:04:23.27

このスレもaiが生成してる

2020/08/31(月) 00:31:26.76

機械学習によって、女性をある仕事に採用しない方がいいとか、黒人はゴリラににてるとかの結果がでるとまずいそうな

2020/08/31(月) 00:40:23.30

>>46
この辺読んどけ
http://www.cs.toronto.edu/~madras/presentations/fairness-ml-uaig.pdf

2020/08/31(月) 01:01:45.29

>>49
ゴリラの方は学習データと予測対象の母集団が一致していないという、単なるサンプリングの失敗じゃない？

2020/08/31(月) 02:57:09.77

ポリコレだろ

2020/08/31(月) 08:51:09.63

MS のtayなるchatbot逝ってたな

2020/08/31(月) 11:51:45.74

polymer clay collectionか

2020/08/31(月) 14:33:01.05

>>50
ありがとう。
発展途上でまだしっかりとした問題設定はできてないと理解しました。

2020/08/31(月) 23:58:59.03

名大会話コーパス読み込んでseq2seqやってんだけどめっちゃ重い
メモリ16ギガ　gtx1060ってスペック不足?
それともコードが悪い?

2020/09/01(火) 01:21:04.58

>>56
ディープラーニングで画像処理するならメモリとグラボの性能
ようするに右脳系処理だけど
自然言語文字列処理はストレージの読み書きとCPUの性能による
いわゆる左脳系処理だから
M.2やSSDとXeon phiね

2020/09/01(火) 02:03:10.61

>>57
m.2 ssdではあるけどcpuは第８世代のi5-8500を使ってる
初めて作ったaiだから普通どれだけリソース食うのかわからないけど、エポックが後半になってくるとメモリもcpuも99%に張り付く
xeonに買い替えたほうがいい?

2020/09/01(火) 20:19:08.65

>>56
seq2seqでなにやるの？

2020/09/02(水) 08:27:13.44

>>58
自然言語をAIでごにょごにょーってやろうとすると
最終段階一歩前くらいが
メモリ爆食いでCPU負荷もモリモリかかるのが普通っぽいぞ。
おれさまの経験によれば。

2020/09/02(水) 08:57:32.90

朝鮮人に統計分析は無理ゲーw

2020/09/02(水) 18:06:31.19

pytorchを少しいじってみた
こんなに簡単にニューラルネットワークを定義できることに驚き
みんな自分でnn.Moduleを継承したクラスをごりごり書いてるの？
自分に出来る気がしない。。。

2020/09/02(水) 20:23:13.12

そこまでやってる人は少ないんじゃないかな
上位のAPI使うだけでも結構いろいろできちゃうし
俺も必要に迫られるまでは手を出す気がしない
勉強してもすぐ陳腐化しちゃうしね

しかしAttentionはもっと簡単に使えるようにならんものか

2020/09/02(水) 22:32:11.11

>>62
nn.Sequentialでじゅうぶん

2020/09/02(水) 22:52:02.42

モデルをゴリゴリに作り込むのは趣味でやってほしい。
実務だと引継ぎ不能に…。

2020/09/02(水) 22:55:19.06

pytorchに鞍替えすっか～

2020/09/02(水) 23:43:57.93

仕事だろ（）

2020/09/03(木) 00:33:16.06

モデルをゴリゴリに作り込むことでそれに見合うリターンが得られるならいいんだけど、

・そもそも目的関数の選択が適切でない
・予測対象の母集団が定義できていない
・偏ったデータを考えもなく使っている
・簡単な特徴量を1つ追加した方が精度が改善する

だったりして、粗大ゴミが作られるのが怖くて…。

2020/09/03(木) 02:10:35.74

そしてライブラリのバージョンアップで動かなくなるという罠

2020/09/03(木) 07:58:01.68

kerasの英仏翻訳のサンプルプログラムにattentionぶちこむにはどうすればいいんだ？

2020/09/03(木) 08:32:39.06

>>68
うまく作れば
複雑怪奇にならなくない？

2020/09/03(木) 10:15:35.69

うまく作るってのが一番難しいんだけどな

2020/09/03(木) 10:34:00.34

>>70
Attentionを使うための便利なものはKerasには用意されてないっぽい
実装してる人のコード見ると、ベクトル演算とか組み合わせてグラフ繋げて自力で作ってたりする
あまりに大変すぎるので、そのうち何かサポートが追加されるんじゃないかと期待してるが

誰か簡単な方法知ってたら教えてくれ

2020/09/03(木) 21:01:30.17

kerasではなくpytorchのほうがいいのかな
face book嫌いだから使いたくないけど

2020/09/03(木) 21:05:35.93

kerasのサンプルあるよね？

2020/09/03(木) 21:08:09.53

attentionて普通に組んだら計算コスト洒落にならなそう。

2020/09/03(木) 21:31:54.12

うお、KerasにAttentionレイヤー用意されてたのか
tf.keras.layers.Attention
いつの間に

2020/09/03(木) 21:34:25.70

>>74
坊主憎けりゃ、だな
お前が使ってもfacebookは1ミクロンも得しないから安心して使え

2020/09/04(金) 02:46:34.87

エロ動画のモザイク取り除くai作りたい、てかなんで誰も発売しないんだ

2020/09/04(金) 03:47:31.78

それはAI界最大級の難しいテーマだからな。
コンピューターには性欲がないからw

2020/09/04(金) 07:19:00.27

>>79-80の流れに朝からﾜﾛﾗｻﾚﾀｰﾖ（・∀・）

2020/09/04(金) 07:50:08.83

発想が童貞みたい

2020/09/04(金) 08:02:56.49

>>79
つ
https://i.imgur.com/Lysnw37.jpg

2020/09/04(金) 09:56:18.30

>>79
あるよ

2020/09/04(金) 10:27:07.17

あるにはあるけど、エロ画像だけ学習させて商品として提供してる会社がなくないか
昔の全然とれないモザイクリムーバーみたいに売れば大ヒットだとおもうんだけどなあ

2020/09/04(金) 11:29:39.09

活性化関数は出力を得るためにかけるんだよね？
dropoutはどの層で有効にすればいいの？中間層すべて？

2020/09/04(金) 12:30:33.71

顔消しモザ消そうとしてちんこが生えたらどうするんだ

2020/09/04(金) 14:01:51.90

>>86
上：せやな
下：やりすぎても、やらなさすぎてもうまくいかず、さじ加減が職人芸だときいている

2020/09/04(金) 14:47:29.83

>>68
数学や統計を極めても、上2つは難しくね？

2020/09/04(金) 14:59:55.37

>>88
ありがと
そっかー、うーむ🤔

2020/09/04(金) 15:03:17.37

りんごちゃんとはるな愛の区別が出来ないんだけど過学習かな

2020/09/04(金) 16:54:52.03

>>89
上2つが適切に設定されていないと、結論の妥当性が示せない。

2020/09/04(金) 17:16:08.49

>>68
モデルゴリゴリ以前の問題なのでは

2020/09/04(金) 18:22:35.09

>>86
中間層すべてにかけるのが普通かな
出力層にもかける流派もあるらしいが
ドロップアウト率は入力層に近い方を高く、遠い方を低くするもんらしい

2020/09/04(金) 19:15:53.20

非線形関数を通さないと線型結合を繰り返すだけになるんじゃないか？
あと微分しても一定の値だからバックプロパゲーションも出来ないのでは？

2020/09/04(金) 19:35:31.74

>>94
ヒントンの論文だと
全中間層でdropoutかけてる図がでてたんだよね

悩む🤔

2020/09/05(土) 10:16:29.80

GeForce RTX 3090はFP32性能が36TFLOPSか、すげーな
しかしせっかくTensorCoreが載ってるのに、これって学習には使えないのね
FP16しか対応してないからかな？　確かにFP16じゃBPがうまく進まなそうだが
性能半分でいいから、FP32対応してくれればいいのに
せっかくの汎用マトリクス演算ユニットなのにもったいない

2020/09/05(土) 11:20:16.92

個人で買えるかわからないけどこんなのもあるな
https://jpn.nec.com/hpc/sxauroratsubasa/features/index.html

2020/09/05(土) 11:36:28.67

>>97
どこでそんなマヌケな情報を手に入れたんだよ

2020/09/05(土) 11:41:53.99

>>98
XEON PHIより難易度高そうだけど
THX

2020/09/05(土) 11:42:29.92

それはスパコンでは？

2020/09/05(土) 12:01:56.16

>>97
ggたけどそれらしい情報がないが

2020/09/05(土) 12:12:25.16

>>102
出てるよ
fp16だと71tflopsだってさ

2020/09/05(土) 12:26:15.00

nVidiaのTensorCoreはFP32には対応していない
いちおう、TensorflowなんかでもFP16設定にすればTensorCoreも学習に使ってくれるみたいね
もっとも試してみた人のブログとか見てるとやっぱFP16じゃ精度が悲惨なことになるらしい
ttps://qiita.com/kuroyagi/items/e70c55cbc88fc0ed0220
そういう意味じゃやっぱ推論専用という捉え方でいいんじゃないかな
71Tflopsとか夢があるけどなあ

2020/09/05(土) 12:45:27.03

× nVidiaのTensorCoreはFP32には対応していない
〇 GTX/RTXのTensorCoreはFP32には対応していない

A100とかだとFP32/64も対応してる。学習アクセラレータなんだからそりゃそうだ
グラボに載ってるTensorCoreは対応してなくて推論専用って話ね

2020/09/05(土) 12:47:02.54

そうそう

2020/09/05(土) 13:09:00.94

RTX 30シリーズはSSDから直接グラフィックデータを読み込めるらしいが
たぶんDLの学習データ転送にも使えるよね
flopsもメモリ帯域も上がってるしDL用途にも別次元の速さが実感できそうだ

2020/09/05(土) 15:27:22.54

>>103
例えばどれ？

2020/09/05(土) 15:57:37.62

>>108
103じゃないが、↓によると238Tensor-TFLOPSとなってるな
https://pc.watch.impress.co.jp/docs/news/1274381.html
Tensor-TFLOPSってのがよくわからんがFP16の性能かな？

FP16までしか対応してないソースは↓
https://www.nvidia.com/ja-jp/data-center/tensor-cores/
「サポートされている Tensor コア精度」に書いてある
Turingまでしか記載がないが、AmpereもFP32に対応したなんて発表はないし、
推論専用という位置づけは変わらないので一緒だろう

2020/09/05(土) 16:04:23.39

>>109
ありがとん

2020/09/05(土) 16:33:54.61

Tensor-TFlopsについて自己レス
Tflopsは普通ベクトル演算性能を指すが、TensorCoreは固定サイズのマトリクス演算なので
こういう書き方をしてるらしい
ピーク性能は238Tflopsなんだろうけど(FP16)、計算粒度が大きいんでよほどタスクが都合のいい
サイズでないと無駄が大きくなってしまう、と。

2020/09/05(土) 16:37:01.69

普通に個人が使うならスリッパがベストかのう

2020/09/05(土) 17:09:43.08

17万円のThreadripper 3960Xで5Tflops
11万円のRTX 3080で30Tflops

DL専用ならやっぱRTXでは
まあCPUの汎用性も捨てがたいけど
昔よりCPUの並列化が進んで差が縮まってるから悩むな

2020/09/05(土) 18:13:07.70

[RTX3090]
CUDA Core : 35.7Tflops
TensorCore : 285Tflops
RT Core : 69Tflops

これだけポテンシャルがあるのにDLで使えるのはCUDAの35.7Tflopsだけ
なんか虚しくなってくるな
ゲーム用に売れてるおかげで安く買えるわけだから仕方ないと思わんといかんのか

2020/09/05(土) 22:07:46.07

THX
3960Xかな

2020/09/05(土) 23:55:05.96

seq2seqのembeddingレイヤーに事前学習させたword2vecの重みを用いるとき、デコーダの文章を生成する合図につかう<EOS>の取り扱いはどうすればいいんだ
word2vecにEOSを学習させてベクトル化しなきゃいけないんだけど、学習データの最後の行に適当に付け足しとけばいいのか?
それとも学習データの行末すべてにEOSを付け足せばいいのか

2020/09/06(日) 02:41:40.34

word2vecをembeddingレイヤにぶっこんだけど、リソース不足でバッチ数を下げざる負えなくなった
ヒカキンの持ってる1tbメモリmacが憎い

2020/09/06(日) 07:49:06.02

>>116
「word2vec 追加学習」で検索してみるとしあわせに

>>117
あいつそんなものもってるのか！

そうそう
自然言語の機械学習って
なんかしらんが（？）最後の段階あたりでくっそメモリ食う

2020/09/06(日) 08:02:00.79

gpu用意すればいいじゃん

2020/09/06(日) 08:27:37.29

fasttextってゴミなの？

2020/09/06(日) 09:09:53.49

ごみじゃないよ(笑)

2020/09/06(日) 10:20:49.37

＞　お前は毎朝起きるたびに俺に負けたことを思い出すよ＾＾

あー、ホンッとに思い出すなあ（笑）
キチガイの嘘つきの低レベルFランの、
朝鮮ゴキブリBot君は、
チョン独特の「なにもできないけど俺のほうがジャップより偉い！」的な
ことはよーくわかったよ。
ホントなにもできない朝鮮ゴキブリBot君！

クソチョンｗ

Pythonさえろくにできないバカチョンのくせに
できるとほざくクソチョンw

日本で強姦と窃盗を繰り返す
犯罪者在日のクソチョンw

2020/09/06(日) 12:07:37.08

自宅でGPU回し続けたら電気代がかかりそうやね…

2020/09/06(日) 12:15:42.57

>>104 AI ではFP16 じゃ使い物にならないから、bfloat16 というフォーマットが出て来た。

bfloat16 形式は、符号ビットが 1 つ、指数ビットが 8 つ、仮数ビットが 7 つ、暗黙の仮数ビットが 1 つの [1:8:7] の形式です。これに対し、標準の 16 ビット浮動小数（fp16）形式は [1:5:10] です。

2020/09/06(日) 12:19:11.43

>>119
入力がおおおおおいと何をどうやっても最終段階でメモリくっそ食うのだが
gpuで解決できるのんけ？
だとしたら大発見ｗ

>>123
どこでやっても電気代は誰かが払っている