人工知能ディープラーニング機械学習の数学 ★3
↑
今朝の虎ニュースで指摘された問題点
垂直に上がるとしてなぜ売電だけで切り札のは(わずかでも)上がってないのか
票数の上がった割合とその瞬間での投票率の比率が可笑しい(全人口が急に10倍になったか)
とか色々言われてた >>11
全体でみると半々かもしれないが、局所は違うから… AIcia Solid Project わかりやすいしおもしれーと思って来てみたら、既に貼られてた
この人、ヨビノリの放送でエントロピーに関して質問してて、東大博士だとか言われてたな AIciaは可愛いし話の内容も面白いけど
聲のギャップで脱落者多いと思うのが残念
最期まで聴ける人は多分少ない ちなみに物理教えてくれる美少女AIも最近よく見てる
Sabine Hossenfelder って言うんだけど、感情の載った表情ほとんどしないのでちょっと怖い
ディープラーニング使ってもう少し表情豊かにした方が良いと思う > お前は毎朝起きるたびに俺に負けたことを思い出すよ^^
あー、ホンッとに思い出すなあ(笑)
キチガイの嘘つきの低レベルFランの、
朝鮮ゴキブリBot君は、
チョン独特の「なにもできないけど俺のほうがジャップより偉い!」的な
ことはよーくわかったよ。
ホントなにもできない朝鮮ゴキブリBot君!
クソチョンw そもそも画像データとかの類似度を図るのは大体内積だね
正規化したりなんか小細工してても基本内積だよね googleのTensorFlowガイドの一部、訓練をkerasで実装したサンプルで__call__をオーバーライドするんじゃねーよ!
fitしたのにbuildが呼び出されてなくてsummary出来ないじゃないか!
正しくcallを定義しろ! TensorFlowのAPIマニュアルのcustom_gradientのlog1pexpについて
これをテープで自動微分させても勾配はNoneのままなんだが、なんで?
tf.exp(100)=infだからgrad()が計算できてないからじゃないかと思うんだけど、どうなん? tensorflow.orgのTensorFlowガイドのNumPy APIの
unvectorized_per_example_graeients 関数が、
ColaboratoryのGPUで動かすとCPUで動かした時の7倍の実行時間になる 7ms vs 49ms
なんだろ
GPUに転送するオーバーヘッド? 文系は黙ってろ
京大准教授なのになぜか名古屋大学で出版
「数学苦手な」研究者が説く統計学の可能性 PCR検査からAiまで
https://www.kyoto-np.co.jp/articles/-/536424
amazon
dp/4815810036 FP率が高いPCR検査で感染者の実数の把握を試みると、
誤差が指数関数的に増大するアルファインフレーションの典型例のような現象が起きるけど
統計の専門家の立場から指摘する奴は居なかったのか?
8割おじさんとか、疫病の数理モデル作ってるなら、知らないはずないだろう そもそも「感染者」の測定の仕方があまりにも恣意的なので
統計的な議論をするのは困難 PCRはウイルスが居る時期でないと判定できないからと、別口では抗体で調査してなかったっけか? 現在、日本で認可されてるコロナウィルス感染キット
https://www.mhlw.go.jp/stf/newpage_11331.html
コーラでも陽性になったとかよく解らん噂があるけど、
偽陰性より偽陽性が高い傾向が有るから、検査数を増やせば名目上の感染者数が実数より増える >>34
一部のキットだけの系統誤差なら除外できるが、全てのキットで偽陽性が出るから、測定自体に系統誤差があって役に立たないという話ではないかな? >>36
数を知りたいだけなら他の方法論と組み合わせれば
系統誤差がかなり正確に求まるのでは 異なる測定方法を交差させて精度を上げるテストなんて実際にやってないだろう
重症者数はニュース性があるかもしれんが、感染者数を毎日速報で流すような茶番は早く終わらせ欲しい Conv2D に color channels が 3 のカラー画像を食わせたとき、チャンネル 1 のグレイスケール画像と同じでフィルタ数分の結果が出力されます
入力(横、縦、チャンネル)、出力(畳み込み横、畳み込み縦、フィルタ数)
カラー画像のチャンネルはどのように扱われているのか、どこかに書いてないでしょうか?
足し合わせてグレイスケールにしてフィルタが生成されるのでしょうか?
APIではchannels_firstとか指定した場合にはバッチ形状にくっつく様に結果が出力される様に読めますが、その指定は無いので上記の出力です(API仕様書にある通常の例と同じ 実のところディープラーニングが人工知能かと言われると、首を傾げちゃう
知能をどう定義するか次第の話なんだけど
GTPだっていつかはOCRのように、やっぱこれも人工知能じゃないとか言われだすと思うから ディープラーニング自体はアーキテクチャに過ぎないからね
ノイマン型が現代の一般的なコンピューターのアーキテクチャだからと言って、コンピューターとはノイマン型のことであるとは言わないように tensorflow.orgのtransformerサンプルでわかんないところが
SparseCategoricalCrossentropyをfrom_logits=Trueで作ってるけど、食わせるtransformerの出力ってDenseで全結合しただけ
ロジットなのこれ? transformerの出力はargmaxで最大値のインデックス求めてその語彙を翻訳結果にしてるから、いわばスコアだと理解してる
でもロジットではないからSCCに食わせていいのかな?と 順位さえあれば大雑把にはロジットであると見なしても問題はないということなの? 2021年最新*話題のGPT-3はやっぱりすごい
www.macnica.co.jp/business/ai_iot/columns/136353/
Transformer解説:GPT-3、BERT、T5の背後にあるモデルを理解する
ainow.ai/2021/06/25/256107/
OpenAIが1,750億のパラメーターを持つGPT-3 AI言語モデルを発表
www.infoq.com/jp/news/2020/08/openai-gpt3-language-model/ GPTの背後にある思想ったら Scaling Law だろ
GPTはその実証だと言う人もいる
TransformerとAttentionはもう基盤になってて今さら背後とか言われても…… これから機会学習を触ってみようと思ってるんだけどどういう環境で開発してますか?
グーグルコラボとかでやってる?
TPUv4は性能がすごいとかニュースになってたけど
12時間を超える機会学習ってそうそうない? 初めはコラボがいいと思う
そしていずれGPUの利用時間制限に引っ掛かるようになって、ローカルにAnaconda入れてtensorflow-gpu動かすようになる
jupiterもあるし >>54
レスサンクス
とりあえずノートにしてコラボから始めてみようと思います >>54
メモリ12GBを積んだ RTX 3060 が3万円台ならローカルで気軽に始められるのに、現状は6万円台だからね > お前は毎朝起きるたびに俺に負けたことを思い出すよ^^
あー、ホンッとに思い出すなあ(笑)
キチガイの嘘つきの低レベルFランの、
朝鮮ゴキブリBot君は、
チョン独特の「なにもできないけど俺のほうがジャップより偉い!」的な
ことはよーくわかったよ。
ホントなにもできない朝鮮ゴキブリBot君!
クソチョンw MNIST分類問題をアテンションで組んだら11%から全く正解率が上がらなかった
でも先に進んでる論文を見つけて、真似して二次元の位置エンコーディングをフィルタ2カーネルサイズ1で畳み込んだらエポック5しか学習ループさせてないのに40%の正解率になってなお上昇中
Conv2Dの何がそんなに効果をもたらしているんだろう? >>59
なお、MNISTのデータが[32, 28, 28, 1]で、位置エンコーディングとして[32, 28, 28, 2]を組み込んで、アテンション出力とスキップ結合させるためにDenseで次元を増やしたものを入力にするという流れ
アテンションは一層のみで実装 >>59
見なくても分類では問題がないピクセルは位置エンコーディングを省くような学習がされてたりするのだろうか? >>59
なぜかチューンアップしたら5エポックで90%まで正解率が上がった
画像解析にアテンション使った時に位置エンコーディングを畳み込むのって効果がありすぎて引くわ
理由はわからんけど まぁあれだ、今はMNISTの精度はほぼ100%なんだ >>63
アテンションによる画像分類を、自作のモデルで試行しようとしてる話に何を言ってるんだ?
MNISTはただのテストデータに過ぎんわ > お前は毎朝起きるたびに俺に負けたことを思い出すよ^^
あー、ホンッとに思い出すなあ(笑)
キチガイの嘘つきの低レベルFランの、
朝鮮ゴキブリBot君は、
チョン独特の「なにもできないけど俺のほうがジャップより偉い!」的な
ことはよーくわかったよ。
ホントなにもできない朝鮮ゴキブリBot君!
クソチョンw
クソチョンはウンコを食べる糞食人種w
ゲリ便をじゅるじゅると
うまそうに食ってるw tensorboard のサブプロセスの Python が2GBもメモリを確保して、すっごくウザい
どうにか減らせないだろうか? tensorflow を訳あって2.7にしたんだけど
Jupiter 上で keras の fit() を verbose=1 で実行したときの途中経過表示が崩れる
2.5 に戻さないと治らない? 「ブラウン管のやわやわ文字をパソコンのAI様が識別できるか?
人間にはかんたんにできるぞ
なん だと 液晶に変換してくれだと?
なぜだなぜつまづく
このAIめ! 人工知能め! ばしっ ばしっ ネタに乗っかりたいんだけど、何のネタなのかわからない…… 今更だけど環境再構築したら旧来のkerasは一切使えなくなった
tensorflow-kerasに完全移行なんだもんな
今さら独立したkeras入れ直すのもアレだ
変換プログラムは用意されてるけど一つもそのまま動かねぇ… 一昨日から、急にJupyterNotebookのフォントが変わって気持ち悪いんだけど、使ってるブラウザのアップデートのせい?? > お前は毎朝起きるたびに俺に負けたことを思い出すよ^^
あー、ホンッとに思い出すなあ(笑)
キチガイの嘘つきの低レベルFランの、
朝鮮ゴキブリBot君は、
チョン独特の「なにもできないけど俺のほうがジャップより偉い!」的な
ことはよーくわかったよ。
ホントなにもできない朝鮮ゴキブリBot君!
クソチョンw
クソチョンはウンコを食べる糞食人種w
ゲリ便をじゅるじゅると
うまそうに食ってるw 訓練時の損失とか正解率よりも、検証のほうがかなり良い成績
ドロップアウトレートを0.1にしているのは高すぎるのかな? 訓練データは24000個、検証データは1200個くらい
エポック毎に損失値と正解率を出してプロットすると検証の方が結構安定して良い数値 考えてみれば検証が良いスコア叩き出すぶんには構わないか
色々とハイパーパラメータ弄ってエポック数を増やしたら検証での正解率が99.99〜100%まで到達した
ドロップアウトはうまく働いて過学習は乗り越えてるってことだろう 今、深層学習の論文読んでてわからないことがあるんだけど、知ってるエロい人いたら教えて下さい。
https://storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf
P.2 の Fig. 2 の説明に出てくる「held-out set」ってどういうこと?
教師あり学習の「hold-out」ならわかるけど、深層Q学習での「held-out set」てのは
通常のQ学習で得た重みってこと? データサイエンスで最近持て囃されている嘘のノルムであるL0ノルム、
それの緩和近似としてのL1ノルム。そういうテクニック・コツは
普通の数学では使われているのだろうか? 人間並みの精度を出すには訓練データが10000個も必要なのか 130億程度のパラメータの言語モデルを国内各社が作ってるけど
あれちゃんと日本語理解できんの?🤔
初めから志低くない?😅 今からNLPやるのってどういうモチベなんだろう?
日本語も外国が作ったAIがあっさりクリアしたし ちょっと不思議なんだけど
データベースだとそこにあるデータしか無いけど
何でこんなに小さなサイズで膨大な知識を作り出せるの?
逆に言えばこのサイズが大きくなれば何でも出来るようになるの? ものすごく単純に言うと
データ間の関係かな
データベースは単なるデータの集合だけど
機械学習では、多数のデータ間の関係を学習している
二つ、三つ、四つ・・・のデータが同時に使われいてるかどうか
当然サイズが大きくなると網羅できる範囲は大きくなる
未知のデータに対しても似たものを探してくる
20世紀には if 文を重ねてやっていたんだけど
あまりにデータの規模が大きくなると管理できなくなるし
新たなケースに関してはお手上げだった そうすると、DB同士を同じ様にネットワークで繋げばそのまま出来上がるの?
あと、人間と同じ程度のLLMなら、そもそも何GBくらいの容量になるんだろ?