画像生成AIを作る
7デフォルトの名無しさん
2025/01/20(月) 13:40:51.06ID:G+ryJ45G 企業は馬鹿を対象に馬鹿なデータも大量に集めるから馬鹿なAIにしかならんよ
そこそこ知名度のある企業だと公衆の目を浴びなければいけないので
公序良俗に反するエロに進出することもできなくなるのでしょう
公序良俗に反するエロに進出することもできなくなるのでしょう
Stable Diffsionのトレーニング手順としては
VAEのトレーニングと拡散モデルのトレーニングの二つの段階に分けられる
VAEはエンコーダとデコーダを持つモデルで、画像を低次元の潜在空間に圧縮し、その表現を使って元の画像を再構築する
拡散モデルのトレーニングはVAEで学習された潜在空間上で行われる
つまり、VAEが正しく画像を圧縮と再構築できなければ、次の段階である拡散モデルのトレーニングに進むこともできない
VAEのトレーニングと拡散モデルのトレーニングの二つの段階に分けられる
VAEはエンコーダとデコーダを持つモデルで、画像を低次元の潜在空間に圧縮し、その表現を使って元の画像を再構築する
拡散モデルのトレーニングはVAEで学習された潜在空間上で行われる
つまり、VAEが正しく画像を圧縮と再構築できなければ、次の段階である拡散モデルのトレーニングに進むこともできない
VAEのトレーニングは先週から始めた
自分のPCのGPUのVRAMは16GBしかないため
もともとのstable diffusionで使われたいた512×512サイズの画像で学習することはできず、128×128で学習している
MSE lossは今では0.02なんだけど
再構築された画像はまだ微妙な感じ
https://i.imgur.com/nxwODSu.png
https://i.imgur.com/Vv32Cf2.png
自分のPCのGPUのVRAMは16GBしかないため
もともとのstable diffusionで使われたいた512×512サイズの画像で学習することはできず、128×128で学習している
MSE lossは今では0.02なんだけど
再構築された画像はまだ微妙な感じ
https://i.imgur.com/nxwODSu.png
https://i.imgur.com/Vv32Cf2.png
11デフォルトの名無しさん
2025/01/21(火) 08:30:55.42ID:yRL5l1cZ QRコードの質問此処で良い?
stable diffusionの構造に関してネットいろんな記事を見てきたけど
自分が見つけた実装レベルまで詳しく解説してくれているのは以下です
https://blog.csdn.net/xd_wjc/article/details/134441396
自分が見つけた実装レベルまで詳しく解説してくれているのは以下です
https://blog.csdn.net/xd_wjc/article/details/134441396
数日VAEをトレーニングしてみたが
最構築された画像はどれも>>10のようなぼやけているものばかり
ChatGPTに聞いてみたところ、どうやらMSEの短所らしい
MSEはピクセル単位で誤差を判断するため、キャラクターの輪郭など全体的な特徴を評価するのが苦手
全体的な誤差を評価するために、画像の類似度を示せるSSIMがいいらしい
合っているかどうかわからないが、とりあえずMSEとSSIMを組み合わせて使おうと思う
最構築された画像はどれも>>10のようなぼやけているものばかり
ChatGPTに聞いてみたところ、どうやらMSEの短所らしい
MSEはピクセル単位で誤差を判断するため、キャラクターの輪郭など全体的な特徴を評価するのが苦手
全体的な誤差を評価するために、画像の類似度を示せるSSIMがいいらしい
合っているかどうかわからないが、とりあえずMSEとSSIMを組み合わせて使おうと思う
2025/01/22(水) 21:27:34.18ID:Ggey4yUO
stable diffusionの画像生成プロセスを観てると、夢ん中で作られていく感じに似てるとおもた
17デフォルトの名無しさん
2025/01/24(金) 11:01:44.72ID:BC4ZbKEp VAEから作ってんのか
なかなか真面目じゃん
なかなか真面目じゃん
>>17
ありがとうございます
一応C++標準ライブラリとCUDA以外のライブラリは使わないつまりなので
VAEを作る前の段階として
tensorや主要なニューラルネットワークの層も自作しています
ただ、png画像の読み込みと出力はopencvを使い、グラフのプロットはgnuplotを使っています
どちらも複数のOSに対応しているので、環境構築は非常に簡単です
ありがとうございます
一応C++標準ライブラリとCUDA以外のライブラリは使わないつまりなので
VAEを作る前の段階として
tensorや主要なニューラルネットワークの層も自作しています
ただ、png画像の読み込みと出力はopencvを使い、グラフのプロットはgnuplotを使っています
どちらも複数のOSに対応しているので、環境構築は非常に簡単です
2025/01/24(金) 18:36:35.48ID:NBK/ONYA
ソース公開する気ないならただの日記だよ?
ソースは完成したら公開する予定です
readme.mdはまだ書いていないのと、ライセンス関係はまだよくわからないので
今は公開できないです
readme.mdはまだ書いていないのと、ライセンス関係はまだよくわからないので
今は公開できないです
2025/01/24(金) 21:58:30.76ID:5i0pdKkE
ただの統失の日記スレ
23デフォルトの名無しさん
2025/04/29(火) 00:25:24.70ID:/Qf//3PH どう?開発進んだ?
レスを投稿する
ニュース
- 【高市首相】「日本人が日本各地を旅行するのも大切」 中国からの渡航自粛巡り ★4 [ぐれ★]
- ルンバの米アイロボットCEO、倒産原因は「技術面で中国勢に4年遅れ」 [蚤の市★]
- 拡大中「お正月は休業します」百貨店やスーパー、飲食業界でも [ぐれ★]
- 【本】ホリエモンが「タバコの価格を3倍以上に」「喫煙にメリットなど一つもない」と訴えるワケ [少考さん★]
- 統合中学の校名案「桜花」 特攻機名と重なり波紋 福岡・大牟田……「生徒が純真に考えた」と賛成意見も市民団体などが疑問の声 [少考さん★]
- 【野球】WBC、録画放送含め地上波中継なし (ネットフリックス) ★4 [阿弥陀ヶ峰★] [阿弥陀ヶ峰★]
- フィンランド首相「日中韓それぞれに謝罪します。人種差別はあってはならない…」普通の日本人「日本人だけ謝罪した!!中韓ザマァwww」 [624898991]
- サウナ死の松田夫妻、最後の手段としてサウナストーンをタオルで包みドアガラスを割ろうとしたか… [271912485]
- 【悲報】ホリエモン「タバコの価格を3倍以上にして税収を禁煙外来無料化・成功者報奨金にあてろ [733893279]
- うんこの最長記録更新した
- ずっと真夜中ならいいのに。←夜勤の俺への配慮ゼロ
- 【速報】フィンランド人、日本人に続々と宣戦布告www [793117252]
