Pytorchなどの既存の機械学習用ライブラリを使わずにC++とCUDAを使ってゼロから画像生成AIを作っている
画像生成モデルにはGAN、VAE、拡散モデルなどがあるが
巷で話題のStable DiffusionというのはVEAと拡散モデルを両方取り入れたもの
ただし、Stable Diffusionにはprompt embeddingというユーザーの入力であるテキストプロンプトをニューラルネットワークに埋め込む構造が存在しているが
自分が作ろうとしているのは単純に正規分布の乱数列を入力すると任意の画像が生成されるという改造版のStable Diffusionなので
prompt embeddingを使わない方向で行こうと思う
探検
画像生成AIを作る
2025/01/19(日) 13:52:21.32ID:dMmOXYWM
学習データはエロ画像ということもあり
もともとはPINK板にスレ建てたが
プログラム板住民ほど賢い人がいないのと、60レス目からグロ画像荒らしが来るようになったため
ここに来た次第である
https://phoebe.bbspink.com/test/read.cgi/hgame/1724853336/
もともとはPINK板にスレ建てたが
プログラム板住民ほど賢い人がいないのと、60レス目からグロ画像荒らしが来るようになったため
ここに来た次第である
https://phoebe.bbspink.com/test/read.cgi/hgame/1724853336/
3デフォルトの名無しさん
2025/01/19(日) 18:17:28.14ID:I92SXWAZ 尾行ついてるぞ
余計なもん連れて来やがって
余計なもん連れて来やがって
>>3
よくわからないですが、尾行とは誰のことでしょうか?
よくわからないですが、尾行とは誰のことでしょうか?
あ、もしかして2レス目からハンドルネームがついてるのに違和感を覚えたのか
それならIDが同じであることからもわかるけど、同じ人ですよ
ただし、前に使っていたネームと違うものにしました
それならIDが同じであることからもわかるけど、同じ人ですよ
ただし、前に使っていたネームと違うものにしました
2025/01/19(日) 23:33:04.94ID:xePVZNJy
AI構築って企業が金を積んで教師データ量でバトルする領域だと思ってたけど、今さら個人でどうにかなるもんなの
勉強ついでなら好きにすればいいけどさ
勉強ついでなら好きにすればいいけどさ
7デフォルトの名無しさん
2025/01/20(月) 13:40:51.06ID:G+ryJ45G 企業は馬鹿を対象に馬鹿なデータも大量に集めるから馬鹿なAIにしかならんよ
そこそこ知名度のある企業だと公衆の目を浴びなければいけないので
公序良俗に反するエロに進出することもできなくなるのでしょう
公序良俗に反するエロに進出することもできなくなるのでしょう
Stable Diffsionのトレーニング手順としては
VAEのトレーニングと拡散モデルのトレーニングの二つの段階に分けられる
VAEはエンコーダとデコーダを持つモデルで、画像を低次元の潜在空間に圧縮し、その表現を使って元の画像を再構築する
拡散モデルのトレーニングはVAEで学習された潜在空間上で行われる
つまり、VAEが正しく画像を圧縮と再構築できなければ、次の段階である拡散モデルのトレーニングに進むこともできない
VAEのトレーニングと拡散モデルのトレーニングの二つの段階に分けられる
VAEはエンコーダとデコーダを持つモデルで、画像を低次元の潜在空間に圧縮し、その表現を使って元の画像を再構築する
拡散モデルのトレーニングはVAEで学習された潜在空間上で行われる
つまり、VAEが正しく画像を圧縮と再構築できなければ、次の段階である拡散モデルのトレーニングに進むこともできない
VAEのトレーニングは先週から始めた
自分のPCのGPUのVRAMは16GBしかないため
もともとのstable diffusionで使われたいた512×512サイズの画像で学習することはできず、128×128で学習している
MSE lossは今では0.02なんだけど
再構築された画像はまだ微妙な感じ
https://i.imgur.com/nxwODSu.png
https://i.imgur.com/Vv32Cf2.png
自分のPCのGPUのVRAMは16GBしかないため
もともとのstable diffusionで使われたいた512×512サイズの画像で学習することはできず、128×128で学習している
MSE lossは今では0.02なんだけど
再構築された画像はまだ微妙な感じ
https://i.imgur.com/nxwODSu.png
https://i.imgur.com/Vv32Cf2.png
11デフォルトの名無しさん
2025/01/21(火) 08:30:55.42ID:yRL5l1cZ QRコードの質問此処で良い?
stable diffusionの構造に関してネットいろんな記事を見てきたけど
自分が見つけた実装レベルまで詳しく解説してくれているのは以下です
https://blog.csdn.net/xd_wjc/article/details/134441396
自分が見つけた実装レベルまで詳しく解説してくれているのは以下です
https://blog.csdn.net/xd_wjc/article/details/134441396
数日VAEをトレーニングしてみたが
最構築された画像はどれも>>10のようなぼやけているものばかり
ChatGPTに聞いてみたところ、どうやらMSEの短所らしい
MSEはピクセル単位で誤差を判断するため、キャラクターの輪郭など全体的な特徴を評価するのが苦手
全体的な誤差を評価するために、画像の類似度を示せるSSIMがいいらしい
合っているかどうかわからないが、とりあえずMSEとSSIMを組み合わせて使おうと思う
最構築された画像はどれも>>10のようなぼやけているものばかり
ChatGPTに聞いてみたところ、どうやらMSEの短所らしい
MSEはピクセル単位で誤差を判断するため、キャラクターの輪郭など全体的な特徴を評価するのが苦手
全体的な誤差を評価するために、画像の類似度を示せるSSIMがいいらしい
合っているかどうかわからないが、とりあえずMSEとSSIMを組み合わせて使おうと思う
2025/01/22(水) 21:27:34.18ID:Ggey4yUO
stable diffusionの画像生成プロセスを観てると、夢ん中で作られていく感じに似てるとおもた
レスを投稿する
ニュース
- アメリカ、入国時に「日本人を含む外国人観光客の最大5年分のSNS履歴の提出」義務化 過去10年間に使用のメールアドレスや電話番号等も [Hitzeschleier★]
- 日本語が話せない「外国籍」の子が急増中、授業がストップ、教室から脱走も…先生にも大きな負担「日本語支援」追いつかず★2 [七波羅探題★]
- 「もうキモくてキモくて…」29歳女性が語る“おぢアタック”の実態。「俺ならイケるかも」年下女性を狙う勘違い中年男性に共通点が★3 [Hitzeschleier★]
- 【速報】年収の壁の自民案判明、26年は168万円 [蚤の市★]
- 「ワールドトリガー」原作1話から完全新作アニメ化、よりパワーアップした1stシーズンとして [爆笑ゴリラ★]
- もしがく:三谷幸喜×菅田将暉の青春群像劇 2週ぶり第10話視聴率3.2% 「さらば八分坂」次週最終回 [ひかり★]
- 【速報】統一教会から100万円の現金を受け取った疑いで現職大臣が辞職へ [709039863]
- 「ミニトマトがボウルに入ってるから使ったら残りはラップして輪ゴムしといてー」👉アスペ系旦那、とんでもない行動に出てしまう [242521385]
- お昼のまったり🍵😶‍🌫🤏すこすこハウス🏡
- 自閉症児の父親「中絶しておけば良かった。 家族が欲しかったのに、手に入れたのは人間たまごっち」 [777114754]
- 【高市悲報】維新、複数人が国保逃れの脱法行為にバチーン!と関与か😰せやかて外国人ガー! [359965264]
- ネトウヨ「中国ロシアとの戦争?日本にはアメリカがついてるので100%勝ちますよ」 [165981677]
