【統計分析】機械学習・データマイニング32

2022/08/01(月) 01:56:45.77

!extend:on:vvvvvv:1000:512
!extend:on:vvvvvv:1000:512
↑すれたてる毎に１つずつ減るので、減ってたら３回に増やしてたてること。

機械学習とデータマイニングについて語れ若人

＊機械学習に意識・知能は存在しません。
　　人の意識に触れたい方はスレ違いです。

■前スレ
【統計分析】機械学習・データマイニング29
https://mevius.5ch.net/test/read.cgi/tech/1597882603/
-EOF-
【統計分析】機械学習・データマイニング30
https://mevius.5ch.net/test/read.cgi/tech/1609459855/
【統計分析】機械学習・データマイニング31
https://mevius.5ch.net/test/read.cgi/tech/1632587566/

VIPQ2_EXTDAT: default:vvvvvv:1000:512:: EXT was configured

2022/10/19(水) 08:09:01.36

学習データ増やすしかないんじゃないの

2022/10/19(水) 09:12:00.69

それを感があるのが楽しいと思うんだけど😅

**デフォルトの名無しさん** · 2022/10/19(水) 10:40:03.06

一応やったのは
・正解データに近い”ノイズ＋４文字ひらがな”キャプチャを生成する
・50px×50pxで一文字ずつ分割
みたいなのを１万枚（×４）くらいです

思ってた以上に、前処理で手こずりました・・
ざっくり直面した問題は
・一文字をしきい値で座標で区切ると、隣の文字が微妙にかぶる
・キーとノイズのしきい値が区別できないのでノイズがキレイに取り切れない（たとえば、”は”のバックに取り切れなかったヨコ線ノイズがあると”ほ”に見える）
たぶんこの部分をクリアできたら行けそうな気がします
やれることを考えると
・ある程度は「一文字がどの座標から始まるか」「一文字の間隔」に規則性があるので
　ざっくり一文字を区切り、４隅の独立したノイズを文字ごと消す
・”は”や”ほ”、”に”や”た”など、ノイズにより二面性三面性を現すキーを洗い出す
・一文字ずつの特徴量を算出する
くらいかなと画策してます
あとは上とは別のアプローチで、そもそもペアデータレスな拡散モデルでどうにかできるか考えています

2022/10/19(水) 21:44:59.22

機械学習じゃなくて、もはやアルゴだな

2022/10/20(木) 00:24:26.37

人為的になんとかしようと考えた時点で‥完

**デフォルトの名無しさん** · 2022/10/20(木) 01:14:15.50

深層強化学習だとエサを与えるわけですが
それって人為的ぽくないすか？

2022/10/20(木) 01:25:07.01

人の性質として先々の限界が見えてしまう‥‥

**デフォルトの名無しさん** · 2022/10/20(木) 01:29:11.00

うーん・・チューリングテスト不合格

2022/10/20(木) 09:23:06.15

在イランアメリカ大使館人質事件か

2022/10/20(木) 15:32:04.75

前処理で特定のパターン排除の意図的な処理を加えるとバイアスが生じる
それで処理が通ったとしてもそれで処理可能なのは、ある特定のパターンの画像のみとなるからね
これをやると特定のパターンごとのルールが必要な80年代のルールベースのエキスパートシステムみたいになる。

**デフォルトの名無しさん** · 2022/10/20(木) 17:08:08.32

４文字ひらかなキャプチャの例でいくと
強化学習の過程で、正解のご褒美与えるタイミングのルールってほぼ無し？
５０音×５０×５０×５０の確率で正解
だけだとめちゃくちゃ時間掛かりそうな気がする
「画像のこの部分から探してね」「薄かったり途切れすぎなやつは文字じゃないぞ」
みたいなヒントを与えるのも強化学習的には好ましくないってことかな

まずは、先頭の文字っぽい場所だけ当てたら褒めて学習終了
つぎのステップは、先頭の文字をドンピシャで当てたら褒めて学習終了
ってやれば少なくとも先頭の文字は行けそうだけど
これも作為的だよね
２番目、３番目であろうがどこから当てても、当てたら褒めてエサを与えて
ヒントは与えずひたすら見守る
だと思うけどめっちゃ時間かかりそう・・

2022/10/20(木) 17:47:27.46

機械学習とは、強化学習とは、いったい何なのかをよく考えたほうがいい

2022/10/20(木) 18:07:00.04

何なの？

2022/10/20(木) 18:31:34.54

睡眠学習ってのもあったな

2022/10/20(木) 20:24:21.79

>>610
興味があるのですが、このCaptchaはどのライブラリですか？

2022/10/21(金) 07:36:36.52

機械じゃなくて貴方が学習するのよ

2022/10/21(金) 09:35:08.54

学習には十分な睡眠が必要

2022/10/21(金) 10:35:18.11

あんまりあれこれ親が手出しすると、子供は学習する気なくなるよな

2022/10/21(金) 11:44:14.98

>>621
>>617

2022/10/21(金) 16:17:05.29

お30GBになったの

2022/10/21(金) 20:11:23.21

>>614
俺だったら四文字を通常生成したとき
背景の色を各文字ごとに大きく変化させて
それから文字の歪みとかを加える

そしたら文字の背景色を教師データとして
各文字の範囲を特定させるのを学習させる

2022/10/21(金) 22:19:21.05

おま〇こ

2022/10/22(土) 19:38:12.00

「AIが人間をロックし正確に狙う機関銃...」イスラエルが開発、パレスチナ難民キャンプに配備した [朝一から閉店までφ★]
https://asahi.5ch.net/test/read.cgi/newsplus/1666433077/

2022/10/23(日) 00:05:16.12

特定の人はゴリラと間違われて認識しないパターンありそうだな
マイナス面もあればプラス面もある

2022/10/23(日) 04:19:53.48

>>621
割と提案の方法でいいと思うけどな。強化学習って子供育てるみたいなもんだから

2022/10/23(日) 09:10:37.36

アメとムチｗ

2022/10/23(日) 09:24:59.91

強化学習の意味が違うような

2022/10/23(日) 11:28:53.26

強化合宿w

2022/10/23(日) 11:36:46.70

コロラドで毎日50km走だ

2022/10/23(日) 17:21:04.79

まあダメ出しばっか、褒めてばっかじゃどうしてうまくいかないかは説明できるところはあるわなw

2022/10/24(月) 10:23:38.71

洗濯物畳みマシーンがここまできたぞ😅
https://www.popsci.com/technology/laundry-folding-robot/

2022/10/24(月) 11:01:28.85

俺は適当に折ってから丸めて筒状にしてる。収納するのが楽。

2022/10/25(火) 16:40:59.86

オセロの強化学習をしてるんだけど、
自己対戦をしているときに突然グラボのファンが回りだすことがしばしばある
チェックしてみるとグラボが認識されなくなっていて、仕方なく再起動するはめに
原因わかる人いる？

2022/10/25(火) 17:37:44.95

松島の呪い

2022/10/25(火) 18:53:24.86

熱暴走

2022/10/26(水) 11:03:05.86

熱ですね。グラボの使用率要確認。
100%いってたら負荷が限界。

2022/10/26(水) 11:25:46.80

まさか熱暴走がわからない奴は今時いないだろ

2022/10/26(水) 11:40:12.75

競馬予想に機械学習を用いているのだが
競馬サイトから38万件のデータを取得
18項目の特徴量を抽出してデータクレンジングを行った
ターゲットとなる順位(1-3位を0、それ以外は1)、過去３走のスピード指数(西田式)、斤量、騎手名(ダミー変数化)、過去３走の平均順位、過去の総賞金額
距離、芝/ダ、馬場、性別、馬齢、馬体重、体重増減など
ｋ近傍法で機械学習させたら
正答率57%になった
1/2はランダムで50%だから当てずっぽうにやった場合より7%程度精度が上がってる計算
だが、そこらの競馬好きのおっさんでもこれぐらいは当てれそう
スクレイピングして大量データを機械学習に掛けましたってだけではそんなに精度上がらんのね
ある程度まとまった量のデータがあるならディープラーニング等で教師なし学習した方がいいんかな
それから一括でfitさせるよりはループ処理を用いてレースごとにfitさせた方がいい気がするんだが
モデルによりfitが初期化されたりされなかったりするらしいので仕様を知っておく必要がある

2022/10/26(水) 11:42:54.30

儲かるのか？

2022/10/26(水) 15:29:50.89

>>648
lightgbm使ってみたら？
テーブルデータはみんなこれ使ってるよ

2022/10/26(水) 17:55:15.84

そもそも熱暴走する前にファンが回るべきだからなんかおかしいな
挿し直しやドライバの再インストールするとか

2022/10/27(木) 03:00:12.83

>>649
正答率57%だと理論上は7%分が利益になるじゃない
余談だが、昔読んだ統計学の本で、競馬予想の確率について解説している章があった
その中で大橋巨泉の何十年分の勝ち負けの賞金配分率の結果が紹介されていて
大橋の場合、配分率は80%だったと書いていた。
配分率が80%ということは、100円を賭けた結果のリターンが 80円で
20円の損失を出しいるこということで、勝率に換算すると40%とかそういう値になる。
これはつまり、当時の競馬予想界のトップに居た予想屋でも勝率50%を超えることは
難しいということを示している。
競馬の世界ではその後、2000年台に入ってから株式市場でのインデックスファンド
と似た方式で株券を購入する一種の必勝法が考案され、この結果、年間、数十億円
規模の利益を上げる投資家が出現し、競馬の配当金の課税方式をめぐって国税と投資家の
間で複数の裁判が最高裁まで争われる事態に陥った。
機械学習方式に予想を現実世界に応用する実験は、競馬、株式、犯罪防止とかの
領域で試みられてきたが、少なくとも上記の３つの応用例の場合は全て失敗している。
これは予想が現実世界に影響を及ぼすことで現実世界の状況に変化が生じることに起因している。

2022/10/27(木) 07:01:01.20

>>652
解説ありがとん

2022/10/27(木) 07:23:33.38

>>652
昨日モデルのパラメーターを色々変えたら正答率75%に大幅改善された
更にグリッドサーチにかけて様々なモデル、パラメーターを
試行し、血統データを入れたりデータの変更などの微調整を加えれば80%超えれそう
それぐらいならリターン100%超えるんじゃないか

2022/10/27(木) 12:36:27.23

故障

2022/10/27(木) 18:49:07.98

短期での勝率云々言われましても‥‥‥‥

2022/10/27(木) 18:59:22.28

確実に儲かる、という方法を売りつけるほうが儲かる

2022/10/27(木) 19:04:35.80

競馬なんて不確定要素多すぎて機械学習やろうとも思わんわ。ダビスタでやってろ

2022/10/27(木) 20:01:10.64

馬は気分次第だからなぁ

2022/10/28(金) 13:03:45.27

RTX3000番台はその発売後に3ヶ月かけてようやくpytorchが
6ヶ月かけてやっとtensorflowが対応した、と思っていたのだが
(今から記事を見直すともっと早く(10月末)出来ていたようなのだが、少なくとも2020年後半一杯は
RTX3080でtensorflowが動きましたという記事は無かったような)、

今回はもうpytorchもtensorflow両方とも発売直後からバシバシ動いて
4090は3090の1.3～1.6倍つまり最大でtensorコア数に比例する程度速いですという
当たり前の結果を叩きだしているんだなあ

だが2080tiとのコア数比だとあんまり大したことは無いんだっけ
LHRのせいか

2022/10/28(金) 16:00:20.73

回収率も分かってなさそうｗ

2022/10/28(金) 16:38:46.69

>>660
4000系と3000系の違いはDPX InstructionsとかDistributed Shared Memoryがサポートされてるかどうか、
それ以外は互換性がある。
おそらく、現行のpytorchは、上記のCUDA Compute Capability 9.0の機能はサポートしておらず
3000系のCUDA CC 8.xの機能セットの範囲で動いている。
この状態では、4000系のアドバンテージは、CUDAコアの数と搭載メモリのアクセス速度と容量の増大分くらいしか見込めない。
3080が登場した際にCUDAの互換性がなくなったのはCUDA sm_86の互換性が3000台に上がった際に仕様変更されたことが原因。
あとLHRの有無は機械学習には影響を及ぼさない（微妙に1コア分の処理負荷くらいは消費するかもしれないが）

2022/10/28(金) 19:49:56.57

ぶっちゃけ速度倍になっても2か月が1か月になるだけなんだよなあ
もっと指数関数的に速度が上がるブレイクスルーが来てほしい

2022/10/28(金) 19:55:56.56

どうせくる

2022/10/28(金) 19:58:36.42

速度倍になりつづけてるなら指数関数的に速度上がってるだろw

2022/10/29(土) 02:26:37.43

俯瞰すればその通りだけど、時間軸の中に居れば倍になり続けるだけでは？

2022/10/29(土) 03:22:20.72

試合前の馬の映像をリアルタイムで見る機能があれば、
動画解析のレース予想が盛り上がりそうだな

2022/10/29(土) 07:14:03.88

勝ちそうな馬にかけても報酬は少ないってのがなぁ

2022/10/29(土) 11:03:16.91

>>666
単位時間で倍になり続けることを指数関数的な増加というのだけど、663のいう指数関数的な増加というのはなんのこと？

2022/10/29(土) 11:23:00.08

y=(2^n)*x と y=x^n で嚙み合っていないんだな

2022/10/29(土) 11:30:46.72

指数関数すら理解していないなら機械学習とかやる前に高校数学からやり直した方が

2022/10/29(土) 11:33:09.41

横だけど、RTX30からRTX40に上がるのが単位時間だろ、次はRTX50だろうが間隔が一定しているかどうかは知らん

2022/10/29(土) 11:43:34.84

指数関数、概念としては理解しているけど、名前と概念が未だに結びつかない
高校時代も数学だけは得意だったんだけど

2022/10/29(土) 11:50:21.89

対数関数、一次関数、べき乗関数、指数関数のグラフの違いを認識出来れば大丈夫

2022/10/29(土) 11:53:16.32

エロい人が作ったライブラリ利用するだけだから
数学力は要らんよ
データセット作成したら総当たりで最適化すれば良いだけ
ぶっちゃけモデルのΣとかいっぱい書いてる数式みても訳わからんのだが
分かった所で意味ないし

2022/10/29(土) 11:55:17.35

さすがにそれではまずいだろｗ

2022/10/29(土) 12:36:24.28

指数関数ということに関して叩かれてるけど、言い方が不十分だったから補足する
現状CUDAコアが倍になると速度も倍になるという意味でリニア
だからこれが指数関数的にならないかと思っただけ

2022/10/29(土) 12:55:34.51

指数関数的言いたいだけちゃうんか😅

2022/10/29(土) 12:57:37.47

うっかり間違えた、と言えませんｗ
>言い方が不十分

2022/10/29(土) 13:01:11.74

>>669
時間軸の中に居れば、倍になり続けてるだけで、鼠算式に増えてることが実感できない。
この現象に名前を付けましょう。

2022/10/29(土) 13:08:09.06

TensorFlowをパソコンソフト感覚で使うｗ

2022/10/29(土) 13:10:38.96

エクセルでお絵描きするのも結構楽しいぞ

2022/10/29(土) 13:17:45.73

公比2の等比数列
名前忘れていた

2022/10/29(土) 15:33:24.17

[39.111.228.181]
110件

こいつのせいでスレの雰囲気悪くなってるよな

2022/10/29(土) 15:56:49.80

>>677
指数関数的になるメカニズムがありそうな物理的現象がないだろ、強いて言えば量子ゲート式量子コンピュータぐらいか
>>680
単位時間が長いから実感できないだけだろ。
1日ごとにGPUが倍の性能になっていったらさすがに実感できるだろ

機械学習のための数学の知識はあるのかもしれないが一般的な理系の数学・物理の常識がなさすぎて笑えるわ

2022/10/29(土) 16:18:16.79

ﾜｯﾁｮｲ d6e6-OXP7 [153.166.193.38]くやしいのーｗ

2022/10/29(土) 17:05:19.26

[182.171.246.142]はポエマーｗ

2022/10/29(土) 17:56:58.53

>>685
指数関数も物理も量子も分かってなさそう

2022/10/29(土) 20:37:24.43

ゲラゲラ

468 名前：デフォルトの名無しさん (ﾜｯﾁｮｲ e597-MPMO [182.171.246.142])[] 投稿日：2022/09/23(金) 03:50:53.34 ID:uVbpzvWc0
>>451
リー群の性質を持ったリーマン多様体とさとか最近のSFの映像によく使われている印象だし、数学得意なTAはリー群ぐらい勉強してると思うよ。
回転をなんとかうまく制御できないかと考えるとぶち当たる壁だから。

2022/10/29(土) 21:59:52.23

cudaコア数だけなら国内では未発売のMX570がMXシリーズなのに2000コア達成してるんだなｗ
でもVRAMが小さ過ぎる
これならGTX1660tiあたりの方が深層学習向けならまだ良い、
とは言っても、VRAM8GBないと画像中の物体検出すらあまり精度が期待できないからなあ

一方でRTX3060に8GB版が出来ちゃって、今後はお金は足りないけど中古で12GBのVRAMで出来た！
という選択肢がちょっと減ってしまう(or中古だと販売元に余程確認しないと買うものが8GBか12GBか区別できない)事になる

2060も6GB12GBが混ざってる状態だから、この辺は厄介だな

4080が(デスクトップで)16GBオンリーになりそうなのはちょっと安心したが
それでも3080から4080でCUDAコア数の伸びが少な過ぎる
3090→4090の方は、めっちゃ増えた！って感じだが

4070で12GB、4060で10GBとかになればいいんだが
またどうせ4060で8GBとかになるかなあ
いい加減、モバイル用で6GBもやめて欲しい所ｗ

1070tiだとSLIとかがが使えるが、深層学習をするだけならSLI無しの只の複数挿しでも
VRAMを増やせるしスピードも2倍でなく1.7倍くらいなら行ける！って話がある
それだと中古で物凄く安くなってる1070の2～4枚挿しでいいんじゃね？って人もいる
この位になるとBERTの軽量版とかを使える

1つ画像分類モデルを作るためにはかなりのVRAMが要るが、出来たものはずっと小さなVRAMで良い
だから複数回画像分類モデルを使うプログラムを書くなら個別に作っておいて出来たhdf5ファイルを
複数個、状況に応じて呼び出す(その時にGPUの使用メモリを少しずつ制限しておく)なんてのが
必要な作業もある

2022/10/30(日) 02:20:37.46

法人向けのQuadro関係に全く触れてない時点でご察し。

2022/10/30(日) 02:22:42.62

>>690
上には上が存在することを認識せよ
個人には手が出せないだろうけど

2022/10/30(日) 08:20:09.78

長文のポエム

2022/10/31(月) 20:38:27.97

競馬とか予想できるんですか

2022/10/31(月) 21:15:17.63

ギャンブル系は機械学習のような統計学的手法より数理最適化などの手法の方が向いている

2022/11/01(火) 08:34:22.77

ありがとうございます

2022/11/01(火) 19:12:48.84

最近勉強を始めたのですが、自分なりに調べたものの答えを見つけられず
どなたか教えて頂けないでしょうか。

（1）画像に対するアノテーションの作成において、例えば「二匹の犬が写った写真があり、一方の犬にしか犬のタグを付けなかった」とします。
この場合、一方の犬にタグを付けなかったことは学習にどのような影響があるでしょうか。
何も影響がないか、これは犬ではないと否定的に学習されるか、どちらかだと思うのですが。

（2）AccuracyとRecallはどのように使い分けるものでしょうか。
微妙に計算式が異なる事はわかるのですが、使い分け方となるとうまく理解できず...

2022/11/01(火) 19:25:11.81

いい質問

2022/11/01(火) 21:03:25.38

そうだね

2022/11/01(火) 22:26:13.93

おい答えてやれよ
このスレはポエマーしか居ないのか？

2022/11/01(火) 22:43:01.56

>>697
(1)は性能に影響が出る
精度、再現率ともに悪化する

(2)は目的による
googleとかの検索結果は精度が高いことが需要
最初の数件に正解があるかどうかが重要だから

網羅的に調べたいときは再現率が重要

経験的に精度と再現率はトレードオフの関係にある

2022/11/02(水) 00:23:30.71

>>697
(1)わからない
ただし転移学習などで既に学習している場合は犬というのを学習している可能性があるので
犬と認識される可能性は高い

(2)
再現率はデータセットに犬を含む画像があって、そのうちどれだけ犬の画像を返せたか

適合率は判定した結果にどれだけ正しい犬の画像が入っているか

例えば1枚だけ判定してそれが犬なら適合率は高くなるが再現率は低い

全てのデータセットを判定すれば再現率は高くなるが適合率は低くなる

これがトレードオフ

2022/11/02(水) 10:58:45.26

拡散法でテキストは生成できないの？

2022/11/02(水) 11:28:20.33

>>700
お前が答えろよ

2022/11/02(水) 19:39:40.10

>>703
離散的な対象は難しいんじゃないか

2022/11/02(水) 19:40:53.65

>>703
https://arxiv.org/abs/2210.08933

2022/11/02(水) 20:01:13.70

>>706
あんのかよ！
ありがとう読んでみる

2022/11/05(土) 13:38:41.24

LGBMって本当にカテゴリの特徴量を読み込みないな
決定木だからカテゴリデータの取り扱いが得意そうねーと思ってると痛い目を見るわ
LGBMで特徴量選択して、NNで学習するアルゴリズムを組んだけど
重要なカテゴリデータを選択から外していて、気づいた時にうおっとなった

2022/11/09(水) 12:10:24.10

インプット：5種類の数値
アウトプット：ABC３種類の数値があるが、そのうち最大のものの種類と数値しか学習時の情報がない

こういう状況の時、どういうモデルを作ればいいでしょうか？

2022/11/09(水) 13:20:20.42

A用、B用、C用のモデルを分けて作る

2022/11/09(水) 13:59:21.67

alpha、bravo、charlieだな