画像生成AIを作る

**デフォルトの名無しさん** · 2025/01/19(日) 13:52:21.32

Pytorchなどの既存の機械学習用ライブラリを使わずにC++とCUDAを使ってゼロから画像生成AIを作っている
画像生成モデルにはGAN、VAE、拡散モデルなどがあるが
巷で話題のStable DiffusionというのはVEAと拡散モデルを両方取り入れたもの
ただし、Stable Diffusionにはprompt embeddingというユーザーの入力であるテキストプロンプトをニューラルネットワークに埋め込む構造が存在しているが
自分が作ろうとしているのは単純に正規分布の乱数列を入力すると任意の画像が生成されるという改造版のStable Diffusionなので
prompt embeddingを使わない方向で行こうと思う

◆FEfDUERNdI · 2025/01/19(日) 14:34:14.09

学習データはエロ画像ということもあり
もともとはPINK板にスレ建てたが
プログラム板住民ほど賢い人がいないのと、60レス目からグロ画像荒らしが来るようになったため
ここに来た次第である

https://phoebe.bbspink.com/test/read.cgi/hgame/1724853336/

**デフォルトの名無しさん** · 2025/01/19(日) 18:17:28.14

尾行ついてるぞ
余計なもん連れて来やがって

◆FEfDUERNdI · 2025/01/19(日) 20:56:10.51

>>3
よくわからないですが、尾行とは誰のことでしょうか?

◆FEfDUERNdI · 2025/01/19(日) 20:59:58.30

あ、もしかして2レス目からハンドルネームがついてるのに違和感を覚えたのか
それならIDが同じであることからもわかるけど、同じ人ですよ
ただし、前に使っていたネームと違うものにしました

**デフォルトの名無しさん** · 2025/01/19(日) 23:33:04.94

AI構築って企業が金を積んで教師データ量でバトルする領域だと思ってたけど、今さら個人でどうにかなるもんなの
勉強ついでなら好きにすればいいけどさ

**デフォルトの名無しさん** · 2025/01/20(月) 13:40:51.06

企業は馬鹿を対象に馬鹿なデータも大量に集めるから馬鹿なAIにしかならんよ

◆FEfDUERNdI · 2025/01/20(月) 18:13:35.96

そこそこ知名度のある企業だと公衆の目を浴びなければいけないので
公序良俗に反するエロに進出することもできなくなるのでしょう

◆FEfDUERNdI · 2025/01/20(月) 22:14:43.77

Stable Diffsionのトレーニング手順としては
VAEのトレーニングと拡散モデルのトレーニングの二つの段階に分けられる
VAEはエンコーダとデコーダを持つモデルで、画像を低次元の潜在空間に圧縮し、その表現を使って元の画像を再構築する
拡散モデルのトレーニングはVAEで学習された潜在空間上で行われる
つまり、VAEが正しく画像を圧縮と再構築できなければ、次の段階である拡散モデルのトレーニングに進むこともできない

◆FEfDUERNdI · 2025/01/20(月) 22:28:21.53

VAEのトレーニングは先週から始めた
自分のPCのGPUのVRAMは16GBしかないため
もともとのstable diffusionで使われたいた512×512サイズの画像で学習することはできず、128×128で学習している

MSE lossは今では0.02なんだけど
再構築された画像はまだ微妙な感じ

https://i.imgur.com/nxwODSu.png
https://i.imgur.com/Vv32Cf2.png

**デフォルトの名無しさん** · 2025/01/21(火) 08:30:55.42

QRコードの質問此処で良い？

◆FEfDUERNdI · 2025/01/21(火) 17:31:17.12

>>11
QRコードに関しては自分は全く詳しくないが
QRコードに使う誤り訂正とか数学的な話なら興味あるので調べてわかったなら答えるかもしれない

◆FEfDUERNdI · 2025/01/21(火) 17:41:37.93

stable diffusionの構造に関してネットいろんな記事を見てきたけど
自分が見つけた実装レベルまで詳しく解説してくれているのは以下です

https://blog.csdn.net/xd_wjc/article/details/134441396

◆FEfDUERNdI · 2025/01/22(水) 19:22:28.21

数日VAEをトレーニングしてみたが
最構築された画像はどれも>>10のようなぼやけているものばかり
ChatGPTに聞いてみたところ、どうやらMSEの短所らしい
MSEはピクセル単位で誤差を判断するため、キャラクターの輪郭など全体的な特徴を評価するのが苦手
全体的な誤差を評価するために、画像の類似度を示せるSSIMがいいらしい
合っているかどうかわからないが、とりあえずMSEとSSIMを組み合わせて使おうと思う

**デフォルトの名無しさん** · 2025/01/22(水) 21:27:34.18

stable diffusionの画像生成プロセスを観てると、夢ん中で作られていく感じに似てるとおもた

◆FEfDUERNdI · 2025/01/22(水) 22:07:43.80

>>15
画像に一歩ずつノイズを加えていくと、最終的には画像自体が完全にノイズになる
その逆過程を実現するのが拡散モデルです
ランダムなノイズから認識できる画像になっていくのは
確かに夢に似ているね