【統計分析】機械学習・データマイニング32

2022/08/01(月) 01:56:45.77

!extend:on:vvvvvv:1000:512
!extend:on:vvvvvv:1000:512
↑すれたてる毎に１つずつ減るので、減ってたら３回に増やしてたてること。

機械学習とデータマイニングについて語れ若人

＊機械学習に意識・知能は存在しません。
　　人の意識に触れたい方はスレ違いです。

■前スレ
【統計分析】機械学習・データマイニング29
https://mevius.5ch.net/test/read.cgi/tech/1597882603/
-EOF-
【統計分析】機械学習・データマイニング30
https://mevius.5ch.net/test/read.cgi/tech/1609459855/
【統計分析】機械学習・データマイニング31
https://mevius.5ch.net/test/read.cgi/tech/1632587566/

VIPQ2_EXTDAT: default:vvvvvv:1000:512:: EXT was configured

2022/10/28(金) 19:55:56.56

どうせくる

2022/10/28(金) 19:58:36.42

速度倍になりつづけてるなら指数関数的に速度上がってるだろw

2022/10/29(土) 02:26:37.43

俯瞰すればその通りだけど、時間軸の中に居れば倍になり続けるだけでは？

2022/10/29(土) 03:22:20.72

試合前の馬の映像をリアルタイムで見る機能があれば、
動画解析のレース予想が盛り上がりそうだな

2022/10/29(土) 07:14:03.88

勝ちそうな馬にかけても報酬は少ないってのがなぁ

2022/10/29(土) 11:03:16.91

>>666
単位時間で倍になり続けることを指数関数的な増加というのだけど、663のいう指数関数的な増加というのはなんのこと？

2022/10/29(土) 11:23:00.08

y=(2^n)*x と y=x^n で嚙み合っていないんだな

2022/10/29(土) 11:30:46.72

指数関数すら理解していないなら機械学習とかやる前に高校数学からやり直した方が

2022/10/29(土) 11:33:09.41

横だけど、RTX30からRTX40に上がるのが単位時間だろ、次はRTX50だろうが間隔が一定しているかどうかは知らん

2022/10/29(土) 11:43:34.84

指数関数、概念としては理解しているけど、名前と概念が未だに結びつかない
高校時代も数学だけは得意だったんだけど

2022/10/29(土) 11:50:21.89

対数関数、一次関数、べき乗関数、指数関数のグラフの違いを認識出来れば大丈夫

2022/10/29(土) 11:53:16.32

エロい人が作ったライブラリ利用するだけだから
数学力は要らんよ
データセット作成したら総当たりで最適化すれば良いだけ
ぶっちゃけモデルのΣとかいっぱい書いてる数式みても訳わからんのだが
分かった所で意味ないし

2022/10/29(土) 11:55:17.35

さすがにそれではまずいだろｗ

2022/10/29(土) 12:36:24.28

指数関数ということに関して叩かれてるけど、言い方が不十分だったから補足する
現状CUDAコアが倍になると速度も倍になるという意味でリニア
だからこれが指数関数的にならないかと思っただけ

2022/10/29(土) 12:55:34.51

指数関数的言いたいだけちゃうんか😅

2022/10/29(土) 12:57:37.47

うっかり間違えた、と言えませんｗ
>言い方が不十分

2022/10/29(土) 13:01:11.74

>>669
時間軸の中に居れば、倍になり続けてるだけで、鼠算式に増えてることが実感できない。
この現象に名前を付けましょう。

2022/10/29(土) 13:08:09.06

TensorFlowをパソコンソフト感覚で使うｗ

2022/10/29(土) 13:10:38.96

エクセルでお絵描きするのも結構楽しいぞ

2022/10/29(土) 13:17:45.73

公比2の等比数列
名前忘れていた

2022/10/29(土) 15:33:24.17

[39.111.228.181]
110件

こいつのせいでスレの雰囲気悪くなってるよな

2022/10/29(土) 15:56:49.80

>>677
指数関数的になるメカニズムがありそうな物理的現象がないだろ、強いて言えば量子ゲート式量子コンピュータぐらいか
>>680
単位時間が長いから実感できないだけだろ。
1日ごとにGPUが倍の性能になっていったらさすがに実感できるだろ

機械学習のための数学の知識はあるのかもしれないが一般的な理系の数学・物理の常識がなさすぎて笑えるわ

2022/10/29(土) 16:18:16.79

ﾜｯﾁｮｲ d6e6-OXP7 [153.166.193.38]くやしいのーｗ

2022/10/29(土) 17:05:19.26

[182.171.246.142]はポエマーｗ

2022/10/29(土) 17:56:58.53

>>685
指数関数も物理も量子も分かってなさそう

2022/10/29(土) 20:37:24.43

ゲラゲラ

468 名前：デフォルトの名無しさん (ﾜｯﾁｮｲ e597-MPMO [182.171.246.142])[] 投稿日：2022/09/23(金) 03:50:53.34 ID:uVbpzvWc0
>>451
リー群の性質を持ったリーマン多様体とさとか最近のSFの映像によく使われている印象だし、数学得意なTAはリー群ぐらい勉強してると思うよ。
回転をなんとかうまく制御できないかと考えるとぶち当たる壁だから。

2022/10/29(土) 21:59:52.23

cudaコア数だけなら国内では未発売のMX570がMXシリーズなのに2000コア達成してるんだなｗ
でもVRAMが小さ過ぎる
これならGTX1660tiあたりの方が深層学習向けならまだ良い、
とは言っても、VRAM8GBないと画像中の物体検出すらあまり精度が期待できないからなあ

一方でRTX3060に8GB版が出来ちゃって、今後はお金は足りないけど中古で12GBのVRAMで出来た！
という選択肢がちょっと減ってしまう(or中古だと販売元に余程確認しないと買うものが8GBか12GBか区別できない)事になる

2060も6GB12GBが混ざってる状態だから、この辺は厄介だな

4080が(デスクトップで)16GBオンリーになりそうなのはちょっと安心したが
それでも3080から4080でCUDAコア数の伸びが少な過ぎる
3090→4090の方は、めっちゃ増えた！って感じだが

4070で12GB、4060で10GBとかになればいいんだが
またどうせ4060で8GBとかになるかなあ
いい加減、モバイル用で6GBもやめて欲しい所ｗ

1070tiだとSLIとかがが使えるが、深層学習をするだけならSLI無しの只の複数挿しでも
VRAMを増やせるしスピードも2倍でなく1.7倍くらいなら行ける！って話がある
それだと中古で物凄く安くなってる1070の2～4枚挿しでいいんじゃね？って人もいる
この位になるとBERTの軽量版とかを使える

1つ画像分類モデルを作るためにはかなりのVRAMが要るが、出来たものはずっと小さなVRAMで良い
だから複数回画像分類モデルを使うプログラムを書くなら個別に作っておいて出来たhdf5ファイルを
複数個、状況に応じて呼び出す(その時にGPUの使用メモリを少しずつ制限しておく)なんてのが
必要な作業もある

2022/10/30(日) 02:20:37.46

法人向けのQuadro関係に全く触れてない時点でご察し。

2022/10/30(日) 02:22:42.62

>>690
上には上が存在することを認識せよ
個人には手が出せないだろうけど

2022/10/30(日) 08:20:09.78

長文のポエム

2022/10/31(月) 20:38:27.97

競馬とか予想できるんですか

2022/10/31(月) 21:15:17.63

ギャンブル系は機械学習のような統計学的手法より数理最適化などの手法の方が向いている

2022/11/01(火) 08:34:22.77

ありがとうございます

2022/11/01(火) 19:12:48.84

最近勉強を始めたのですが、自分なりに調べたものの答えを見つけられず
どなたか教えて頂けないでしょうか。

（1）画像に対するアノテーションの作成において、例えば「二匹の犬が写った写真があり、一方の犬にしか犬のタグを付けなかった」とします。
この場合、一方の犬にタグを付けなかったことは学習にどのような影響があるでしょうか。
何も影響がないか、これは犬ではないと否定的に学習されるか、どちらかだと思うのですが。

（2）AccuracyとRecallはどのように使い分けるものでしょうか。
微妙に計算式が異なる事はわかるのですが、使い分け方となるとうまく理解できず...

2022/11/01(火) 19:25:11.81

いい質問

2022/11/01(火) 21:03:25.38

そうだね

2022/11/01(火) 22:26:13.93

おい答えてやれよ
このスレはポエマーしか居ないのか？

2022/11/01(火) 22:43:01.56

>>697
(1)は性能に影響が出る
精度、再現率ともに悪化する

(2)は目的による
googleとかの検索結果は精度が高いことが需要
最初の数件に正解があるかどうかが重要だから

網羅的に調べたいときは再現率が重要

経験的に精度と再現率はトレードオフの関係にある

2022/11/02(水) 00:23:30.71

>>697
(1)わからない
ただし転移学習などで既に学習している場合は犬というのを学習している可能性があるので
犬と認識される可能性は高い

(2)
再現率はデータセットに犬を含む画像があって、そのうちどれだけ犬の画像を返せたか

適合率は判定した結果にどれだけ正しい犬の画像が入っているか

例えば1枚だけ判定してそれが犬なら適合率は高くなるが再現率は低い

全てのデータセットを判定すれば再現率は高くなるが適合率は低くなる

これがトレードオフ

2022/11/02(水) 10:58:45.26

拡散法でテキストは生成できないの？

2022/11/02(水) 11:28:20.33

>>700
お前が答えろよ

2022/11/02(水) 19:39:40.10

>>703
離散的な対象は難しいんじゃないか

2022/11/02(水) 19:40:53.65

>>703
https://arxiv.org/abs/2210.08933

2022/11/02(水) 20:01:13.70

>>706
あんのかよ！
ありがとう読んでみる

2022/11/05(土) 13:38:41.24

LGBMって本当にカテゴリの特徴量を読み込みないな
決定木だからカテゴリデータの取り扱いが得意そうねーと思ってると痛い目を見るわ
LGBMで特徴量選択して、NNで学習するアルゴリズムを組んだけど
重要なカテゴリデータを選択から外していて、気づいた時にうおっとなった

2022/11/09(水) 12:10:24.10

インプット：5種類の数値
アウトプット：ABC３種類の数値があるが、そのうち最大のものの種類と数値しか学習時の情報がない

こういう状況の時、どういうモデルを作ればいいでしょうか？

2022/11/09(水) 13:20:20.42

A用、B用、C用のモデルを分けて作る

2022/11/09(水) 13:59:21.67

alpha、bravo、charlieだな

2022/11/14(月) 11:40:01.35

むちむち岡ちゃんが現代の名工で草
日本のデミス・ハサビスだね😅

2022/11/17(木) 16:13:31.94

intel extension for pytorchがあればintel arc上で深層学習が動くんだな
もうpypiにもcondaにもあると

2022/11/17(木) 17:42:46.67

Radeoneで機会学習は難易度高いですか？

2022/11/17(木) 20:59:44.23

>>714
そっちも準備済みみたいですよ
Docker使える

2022/11/19(土) 11:11:42.97

在○のクソ○ョンは毎日元気に
日本人女性を強姦してるようだね！

統一教会じゃないのか？

2022/11/25(金) 10:06:24.80

>>714
いや、むちゃむちゃ難易度高いはずだよ。
まず、普通の環境は、下からNvidia GPU、Nvidiaドライバ、CUDAライブラリ、pytorch/tensorflow
の順で構築されてるが、AMDに変更するとCUDAから下が使えなくなる。
CUDAはNvidia GPUの世代ごとにかなり細かい機能拡張がされていて、最上位のAIプラットフォームは
CUDAの機能ごとにC/C++でインターフェースを組んでる。この部分がNvidiaの囲い込みとしても機能してる。
つまり、最下層をAMDに変更すると既存のpytorch/tensorflowのアプリケーションはほぼ100%動作は動作不能になる。
これまでに開発してきたコード資産を一切捨て去ってAMDに乗り換えるなら別だが、普通はしないだろう。
あと、AMDにはNvidia V100/A100に相当するような機械学習専用GPUが存在してないので
ラージモデルをGPUクラスタを組んで機械学習をやらせるようなAIスーパーコンピューティングみたいな使い方もできない。
つまり基本的な学習環境としては使えるかもしれないが、本格的な業務には使えない。

2022/11/25(金) 10:52:00.75

https://qiita.com/syoyo/items/5d361ef5ff95d8ca70ee
何か頑張ってる例

2022/11/25(金) 14:07:37.40

速度的なメリットはあるの？🤔

2022/11/26(土) 12:59:03.34

midjourneyとかがきれいな絵をたくさん出せるのはそれだけ潜在変数の空間が広いってことなの？🤔

2022/11/26(土) 13:15:33.96

半島からきた奴は外来種と呼ぼう！
おい外来種ども！
日本人女性を強姦しまくって楽しいかね？
日本で平和と豊かさを享受してるくせに
日本で悪事ばかりの外来種！

外来種は半島に帰れ！
外来種どもは抹殺すべし！

2022/11/26(土) 13:38:01.95

自然言語処理の訓練時のデータセットで、
最もサイズが大きくなるのがone-hotの教師データというのは普通？
時系列の教師データをラベルの配列で保持して、
訓練時のみラベルをone-hotのデータに変換できればメモリを節約できるのに

2022/11/26(土) 13:52:58.23

自作の損失関数を使って、内部で教師データをラベルからone-hotデータに変換できれば
メモリをだいぶ節約できそうな予感。誰か試したことないかな

2022/11/26(土) 13:53:46.85

>>722
既にそうしてると思う

2022/11/26(土) 14:21:08.54

ビッグデータ解析をやってる人はいないみたいね

2022/11/26(土) 14:24:59.42

自分でビッグデータ作って回帰して関数作ってますけど

2022/11/26(土) 14:38:41.24

>>724
ネット上に転がってる程度のコードだと
どれも訓練前にワンホット行列に変換していて、ああメモリ食うな〜と思ってた
製品レベルの話だと普通ということか

2022/11/26(土) 14:39:35.16

製品レベルだと、訓練時にone-hotに変換するのが普通なのかな
でも、その割には適当なツールがないぞ

2022/11/26(土) 14:42:21.09

ちなみに、訓練時とは訓練直前ではなく訓練中

2022/11/26(土) 14:47:32.37

ああ、sparce_matrixとしてデータを保持すればいいんだ…

2022/11/26(土) 14:52:07.82

>>726
現実のビッグデータの解析

2022/11/26(土) 19:30:52.92

自分で作ったデータをビッグデータとは呼ばないだろ
ただの大量のデータなだけで

2022/11/26(土) 21:56:24.83

ビッグウンコ

2022/11/26(土) 22:46:08.21

aa不要

2022/11/27(日) 14:02:12.32

日本の偉人たちは朝鮮人について警鐘を鳴らしてきた

夏目漱石
「朝鮮人に生まれなくて良かった」
伊藤博文
「嘘つき朝鮮人とは関わるな」
吉田松陰
「朝鮮人の意識改革は不可能」
福沢諭吉
「救いようのない民族」
本田宗一郎
「韓国人と関わるな」

ちなみに本田宗一郎はバイク工場を
丸ごと韓国メーカーに取られて
激オコしていた。

2022/11/27(日) 14:41:43.69

それホンダに言えるのか？

2022/11/27(日) 15:29:20.96

国際大会ではおなじみとなった日本人サポーターの試合後の清掃。海外からは称える声が多数上がっているが、日本の一部の識者からは「ただの自己満足　掃除人の仕事を奪ってる」などと指摘されていた。　これに反論したのはエジプト出身で長く日本で活躍するタレントのフィフィだった。　自身のツイッターで「日本サポーターのゴミ拾いに『観客が掃除すると、清掃を業にしている人が失業してしまう』って言ってる人、スタジアムイベントの清掃員の報酬がゴミの量で決まると思ってるのかな…てか、カタールのスタジアムの清掃はボランティアが多いから助かっているのよ、実際に感謝されてるのを知らないのかな」とつづった。

このニュースの問題点は、
『日本の一部の識者』というのが在日韓国人・朝鮮人ということと、
そのことを報道している毎日新聞、TBS、東京新聞は韓国系であるし、朝日新聞とテレ朝は
中国系ということである。

やはり半島系と中国系は皆殺しにするしか日本は正常にならないと思う。

2022/11/27(日) 15:31:21.23

>>736
ホンダの役員から聞いたことだぞバカw
今では創価のホンダにも半島系社員が増えてきているから、
そのうちホンダは韓国のものだろうな笑笑

2022/11/27(日) 15:43:03.00

日本人サポーターのゴミひろいを攻撃してる日本人と称している女医さんの顔が、まんま朝鮮人顔なんだが笑笑

2022/11/27(日) 15:47:31.48

商売敵？

2022/11/27(日) 16:18:38.18

>>738
そうじゃなくて電気自働車の電池をサムチョンと組んで開発するらしい、組んでる相手がソニーｗ
https://blog.evsmart.net/ev-news/sony-honda-mobility-plans-to-release-their-first-electric-vehicle-in-2025/

2022/11/27(日) 17:09:06.48

ホンダと韓国LGES、EV用電池の生産会社の設立で合意
https://xtech.nikkei.com/atcl/nxt/news/18/13577/

LGだった

2022/11/27(日) 17:27:09.80

一企業の方針なんてどうでもいい

2022/11/27(日) 18:28:24.74

>>741
ホンダは創価でなければ管理職以上にはなれない。
その創価の信者に半島系がドンドン増えてきて
創価の60%は半島系となった。

元々日本人の創価だったのが半島系となった。
そしてホンダも半島系創価になった。
そういう話だよ。

2022/11/27(日) 23:46:27.25

スレチ

2022/11/28(月) 06:18:03.36

スレチじゃないんだよね
pythonスレは半島系のクズが常駐してるから。
まじ性格の悪い強姦魔の半島系帰化人w

2022/11/28(月) 08:07:05.61

常駐してるの根拠は？
また、常駐する行為を禁止してないが

2022/11/28(月) 19:55:10.67

>>737
DNA的に見ると日本人の多くが持っている縄文人、弥生人のY染色体は
元々大陸が繋がっていた中国人にもあるはずだが、、ほとんど無い
これは占領した地域の男を虐殺し、子孫を反映させるってことを長年やって来た結果
日本人と同じタイプの人間は皆殺しにされてしまった臭い

歴史的に見ると日本人がやられる方

2022/11/28(月) 22:24:33.98

>>748
それ眉唾だぞ

2022/11/29(火) 00:09:19.15

ディープラーニングを使った配列解析
https://japan-medical-ai.github.io/medical-ai-course-materials/notebooks/07_DNA_Sequence_Data_Analysis.html

2022/11/29(火) 02:00:55.54

勝手に誰でも常駐してください
ここは機械の発展を議論する場です

2022/11/29(火) 06:56:40.00

ソデスネ

2022/11/29(火) 09:31:39.52

違うだろ、すし握り機械の議論はしない
>ここは機械の発展を議論する場です

2022/11/29(火) 11:53:09.97

🤖🍣 🤗

2022/11/30(水) 00:16:28.41

レコード数が2億のデータをLSTMで訓練しようとすると
データ数が2億の数十倍で…
あうあうあうって感じになってるわ

2022/11/30(水) 09:08:24.14

それだけデータあるならtransformerのほうが良さげだけど

2022/11/30(水) 09:13:04.41

それだけデータがあると、39.111.228.181に言わせればビッグデータになるんだろうなｗｗｗ

2022/11/30(水) 10:01:36.18

またお前かｗ

2022/11/30(水) 19:07:28.20

そりゃビッグデータ超えてビックリデータですな、わーはっはっはー、コラ、誰がうまいこと言えいうたんじゃ、びーっくびくびくびくデータ♪

2022/12/01(木) 09:05:40.23

>>756
ありがとう。transformerについて調べて試してみる

2022/12/01(木) 10:33:16.43

長い系列はlstmのほうが良くなかった？

2022/12/01(木) 13:16:46.41

LSTMはもうオワコンだよ

2022/12/04(日) 21:45:39.94

データが大きすぎるからファイル分割して保存して、
epoch毎に各ファイルのデータをロードすることにしたけど
再訓練時にlearning rateを変更できるAPIがkerasに用意されていない気がする
自作コールバックを作れば解決できるけど
そもそもこの機能なんで標準で実装されてないんだろう
需要ないのかな