【統計分析】機械学習・データマイニング33
!extend:on:vvvvvv:1000:512
!extend:on:vvvvvv:1000:512
↑すれたてる毎に1つずつ減るので、減ってたら3回に増やしてたてること。
機械学習とデータマイニングについて語れ若人
*機械学習に意識・知能は存在しません。
人の意識に触れたい方はスレ違いです。
■前スレ
【統計分析】機械学習・データマイニング29
https://mevius.5ch.net/test/read.cgi/tech/1597882603/
-EOF-
【統計分析】機械学習・データマイニング30
https://mevius.5ch.net/test/read.cgi/tech/1609459855/
【統計分析】機械学習・データマイニング31
https://mevius.5ch.net/test/read.cgi/tech/1632587566/
【統計分析】機械学習・データマイニング32
https://mevius.5ch.net/test/read.cgi/tech/1659286605/
VIPQ2_EXTDAT: default:vvvvvv:1000:512:: EXT was configured ニューラルネットワークのリッジレッド解析て有効か?🤔 調べたけど駄目だスジが悪すぎる
こんな調子じゃなんも成果出てこねえや ニューラルネットは巨大すぎて、深く勉強しても使うことがない気がするので、
教養くらいにとどめてる。学習済みモデルを使うこと以外はほぼあり得んじゃろう。 精度が低くていいのであれば、何をつかってもいいんじゃないの?
さいころを転がして文を作ってもいい 岡谷貴之著『深層学習第1版』
ソフトマックス関数は冗長だが、ユニットの一つを選びその入力を0にしてしまえば冗長性を回避できる。
選んだユニットに入る結合重みもきちんと出力に反映される。
というようなことが書かれているのですが、本当に、選んだユニットに入る結合重みもきちんと出力に反映されますか? そもそも、ソフトマックスかんすうとかはしまょうたいりょうのかほうせい(f(x)+f(y)=f(x*y))が大前提 ハルシネーションて創造力の原動にならない?
人間が矯正して消しちゃうけど個性なんでわ? 確率的勾配降下法について質問です。
E(W) = E_1(W) + … + E_N(W)
の値をできるだけ小さくするような W を求めたい。
E_i(W) は i 番目のデータに対するニューラルネットワークの出力と i 番目の正解データとの誤差です。
確率的勾配降下法では、 (grad D)(W) を計算するのではなく、ランダムに i ∈ {1, …, N} を選んで、 (grad D_i)(W) を計算して
重み W を更新します。
こうすると、 W を更新する際に、 i 番目のデータに対する E_i(W) の値は小さくなると思いますが、全体として E(W) の値が小さくなることはどうやって分かるのでしょうか?
例えば、
(grad E_1)(W) を計算して、 W を更新する。 → E_1(W) の値が小さくなる。
(grad E_2)(W) を計算して、 W を更新する。 → E_2(W) の値は小さくなるが、直前にせっかく小さくした E_1(W) や他の E_i(W) の値は大きくなってしまう。
というようなことが起こらないのでしょうか? 結局、もぐらたたきのように、いくら局所的な改善をしても全体としては一向に改善されないというような事態にはならないのでしょうか? 大きくなったらキャンセルすれば良いんじゃないか
そもそもEってErrorのEか?EigenのEか? データ量が大きくなって、ネットワーク構造を複雑にすると
なぜか全体として改善されることが経験的にわかっている
なぜかを研究する分野もある >>389
ミニバッチのロスの平均に対してgradient descentを行うので、
そのデータセットに対しては、ある程度は最適化できると思います。
局所解の可能性はともかくとして。 >>391
>>392-393
ありがとうございました。
岡谷さんの本には、確率的勾配降下法により E(W) がどんどん小さくなっていくのは当たり前のことであるかのように何の説明もありませんでした。 >>394
当たり前ではないよ
その証明はかなり難しい 自由エネルギー原理、ちかまたオカルトみたいなことやってんのな😅 確率勾配法も、transfomerやCNNもあんまり数理的に詳しくない人が思いついた気がするけど、数理的に深い方の統計機械学習はどのくらい価値があるのかイマイチわからない ヒューリスティックなことって結構あるよね
局所最適解に捕まってないという証明出来ないこと多いし >>400
バックプロゲーションやNNの最適化を60年代にすでに完成させてた甘利先生が
ローカルミニマムに陥るのを防ぐことはできないと言って諦めた分野だからな
少なくとも数学的な理論では無理だと判断した
ローカルミニマムに陥らないようにする各種手法を小手先のテクニックと言って切り捨ててたし
確かにミニバッチ勾配降下法とかドロップアウトとかレイヤー正規化だとかの理論は
あくまでやってみたら有効だったというだけで証明は一切ない 現実の現象は決定論的でないしノイズまみれだから気にすることない 解空間が複雑で分からないと言ってるだけだろ、最適解の尺度(L2ノルム等)を決めた時に解を求める方法があるといってるんだよ。
万能な方法があるわけがない、甘利爺なんかを信じなるなよ 甘利先生の講義はめちゃくちゃわかりやすいんだよ
https://www.youtube.com/live/AVCjutAjtGs
論文はかなり難しいのだけど講義はすげー直感的にわかりやすい >>404
甘利先生は万能な方法を探そうとして情報幾何やらの方向にいってしまって帰ってこなかった
そして深層学習が流行り出して戻ってきた
ジェダイの帰還 >>409
結果的にはね
そこには「何もなかった」
しかし純粋な数学的理論としてNNを紐解こうとしたらそっちに行くしかないのはわかる 昔ある学会である人のは発表を聞いてそれは俺が前にやったと言っていた傲慢な爺 甘利先生の考えた「自然勾配」を最適化に使うと言う理論は今でこそ一般化した感じはあるが
これを70年代に生み出していたのはマジの天才としか言いようがないよ 理論的な綺麗さを求める人はそれはそれで必要だからやってくれればいいけど工学馬鹿にしたような感じがしてちょっと俺は
transformerの内部解析すらしようとしないし(笑)できないのかもしれんが 甘利先生が60年代と70年代に出した論文を超えるようなものを出した日本人はいないからね
この時期は福島先生という今のCNNとまんま同じNNを出した天才もいるし
時代が違っていれば日本人が世界していた可能性も高い ハードウェアの発展(GPU、メモリ)があったからDLが発展した。それだけ。 >>416
でもその発展の時期にヒントンは現場にいた
甘利先生はいなかった
その差なんだよね
悲しいわ 本当のブレイクスルーはtransformersぐらいだしね
それ以外は全部元ネタはあったわけで
それをさも新しいもののように発表してるから
甘利先生は怒ってるのだろう >>414
福島先生は日本放送協会の役に立たない基礎研究をやっていたと後輩がいってた >>414
↑
と言ってるバカ。
日本はソフトウェア技術が低いので当時も無理。 YouTubeの3Blue1BrownJapanのニューラルネットワークの動画を見ました。
「第2層が短い線を検出し、第3層がパターンを検出し、」という説明がありました。
ニューラルネットワークの重みやバイアスが何なのかはブラックボックスとして考えないのかと思っていましたがそうではないんですね。
ニューラルネットワークを学習させ、満足のいくものを完成させたとします。
このとき、例えば、第1層がどんな処理をしているのか人間が分かるような説明はどうやって見出すのでしょうか? 重みを可視化してこんなのかな~て当たりをつけて実際にサンプルを入れて反応を見る >>424
ありがとうございました。
そういうことが分かると非常に満足度は高いと思いますが、よりよいニューラルネットワークを作るのに役立ちますか? 現状では説明できないんだよ
経済系の人とか説明が重要らしくて困っているらしいけど
ちなみに説明しようという研究分野があるけど難航している
複雑に分散されているのが説明困難な理由らしいけど そもそも機械学習の手法の目的は予測する事で、介入効果については例えばRFでimportanceが高かろうが何も言えなく、実はテーブルデータに関しては役に立つ局面のは限定的だとおもう >>423
それは、色々ある。
あと、その動画は、例えばのイメージとして、
第○層が何で、
とかっていう便宜上の説明だったかと。 nnにllmつけて説明させた研究があったろ
あれでええやん😅 それがブロックマン他数名?もOpenAIを出ていったらしい >>440
いや、
ブロックマンは残るらしい
会長は解任 >>441
情報が古い
twitter.com/gdb/status/1725667410387378559
www.theinformation.com/articles/three-senior-openai-researchers-resign-as-crisis-deepens
https://twitter.com/thejimwatkins グーグルにおけるアンソロピック的なナニかになるかと >>440
あ
Brockmanも退職するっぽいね
いろいろ、クーデターっぽいな… 資本主義とはそういうものやで。日本のIT企業も経営陣は何もしてないし、コードもかけない。 儲かると観ると役員入れ替えと買収乗っ取りが進む
そして糞企業に成り下がる
sunもoracleもgifもgoogleもyoutubeも歩んだ道 それらは立派な技術で世界制覇した、揚げ足とってもみじめになるだけ >>452
やっぱ、
大株主抜きでアルトマン解任とか、おかしいよな… OpenAI理事会、アルトマン氏の復帰を協議 米報道 アルトマンの解雇に動いた取締役のヤツも
旗幟を変えて沈没する反アルトマンから逃げ出したな gptsと似たようなサービス出してるやつが取締役会にいるらしいな
それで追い出したんじゃないか、て話が出てる >>460
クーデターを仕組んだ奴らはどうなるのか? w 従業員の9割退職するとか言い出したからな
そんな絞りカスみたいなのだけ残されても会社の体をなさないし復帰しか選択肢はなかっただろう 最近CNNについて勉強してるんだけどなんでCNNの進化EfficentNetで止まっちゃってるの?
ViTが出たからもうCNNはオワコン扱いなのかな なんと、ViT言葉からキーバリューで畳み込みと似たことをやってるのかと思ったら、畳み込みしないモデルなのか 畳み込みはしないけどパターン認識の基本だから
結局畳込み的なフィルタ処理はやってる >>448
それは会社組織・社会の機能不全の要にも思えるけどな
幕末の藩制の非効化みたいに 音声合成VALL-E-Xってのを使ってみたが、評判はいいのに俺が使ったら全然似てなかった。
だれか使った人いる? llmがファインチューニングかけるとアホになるのは
ファインチューニングで使うコーパスや方針が非論理的だからだろ LoRAは絵ではうまく言ったけどLLMでは思ったほど成果がないらしいな GPT-nとBERTの違いがイマイチあやふやなんだけど
TransformerのEncoderを使って事前学習して特徴量を生成するのがBERT
TransformerのDecoderを使ってBERTが生成した特徴量をもとに自然言語を生成するのがGPT-nって理解であってるのかな?
GPT-4も学習時はBERT使って学習してるのよね? >>471
全然ちゃいまんがな
GPTとBERTはtransformers使ってるだけで中身は別だぞ 多分99%以上の人は自力で学習する事はないだろうから、その辺全部まとめてtransfomerでいい気がするww あとGPTもEncoderとDecoderでモデルを分けてるわけじゃない
同じモデルを使ってるから単に用途の的な意味でしかない
コード読んだらわかるけど >>472
GPTとBERTの立ち位置が良く分からなくて混乱してくる…
単方向か双方向かの違いなのかな?
それだと双方向に学習するBERTの方が精度高そうなのになんでGPTの方が流行ってるんだろう
論文とかコードは数式が難しくて読める気がしない… >>471
別個の言語モデル
アーキテクチャが違う
つかbingに聞けよ😅 タスク分解を備えた自律エージェントがAGI開発の次の壁を破りそうだけど、これが完成すると設計の壁が無くなるので、コーダーだけじゃなくSEも失業危機 >>475
主に違うのは学習方法だよ
GPTはRNNみたいに次の文字を推定するように学習する
一方BERTは任意の位置の穴埋め問題を解くような推定をする あとBERTは最後に線形層などを追加して分類問題として使えたり
様々なタスクに使えるようにできてる
GPTはそうではないが結局プロンプトを分類問題として指定することで同じことができることが判明した
つまりGPTこそあらゆる機能に応用可能な存在だった訳だ