【StableDiffusion】画像生成AI質問スレ17
■ このスレッドは過去ログ倉庫に格納されています
Stable Diffusionをはじめとする画像生成AIに関する質問用のスレッドです。
次スレは>>950が立ててください。
質問する人はなるべく情報開示してください
・使っているアプリケーション(1111ならローカルかcolabか、ローカルならどこから/何を読んでインストールしたか、colabならノートブックのURLも)や使っている学習モデル
・状況の説明は具体的に。「以前と違う画像が出力される」「変になった」では回答しようがない。どう違うのか、どう変なのかを書く
・状況やエラーメッセージを示すキャプチャ画像
・ローカルならマシンの構成(GPUの種類とVRAM容量は必須、本体メモリの容量やCPUもなるべく)
テンプレは>>2以降に
※前スレ
【StableDiffusion】画像生成AI質問スレ16
https://mevius.5ch.net/test/read.cgi/cg/1692012289/ >>339
すまぬ、ADtailerのgithubを隅々まで読んだらADtailer側に書いたdynamic promptはちゃんと効くようだ
メインプロンプトに書いたdynamic promptの特定の要素だけ拾うのが無理って話っぽい SDってさ最初にプロンプト指定して生成すると
ちょっと絵柄がイマイチじゃない?
でもずっと似たようなプロンプトして回してると
良い絵柄が生成されるのは
SD内部でAIが学習してるって認識で良いの?
その辺フワッとしててわからんが >>344
それはない筈
Seedが同じなら同じ絵が出てくる >>344
よくない、生成過程で学習なんてされない >>298
うちの14畳だけどまんま900Wだったぞ
コンセントも普通の形状 >>347
パソコンもエアコンも常に900Wというわけではないぞ
あくまで最大でどれだけ消費するかという話
電力会社によっては30分毎に利用した電力量をグラフで見られるからログインしてみると良い
普通は思ったよりは消費してないはず
900Wのエアコンなら部屋の温度が設定温度になるまでは900Wでもその後は落ち着く
PCもあまり使ってない時やPL使うとそこまで消費しない筈 Windowsならタスクマネージャーで電力使ってる時がわかりますね StableDiffusionを走らせたら4090は力こそパワー
使えば使うほど電気代がかかるが500Wの電子レンジを使ってると思えばいいだけだ >>346
>>345
そうなの?
プロンプトちょくちょく変更して生成してるから
プロンプト側で絵柄が良くなってるだけか >>352
そうだよ。そもそも一般的にtorchモデルには推論モード(.eval())と学習モード(.train())があって推論モードの方が早いから生成時は推論モードで動いている。
なので、ちょっとコード挟み込んでついでに学習しちゃえとかできない。 >>352
Stable Diffusionには出力結果のよしあしを判定する機能はないよ 1.6.0でrefinerを使うと何度やっても
http://i.imgur.com/sgzTTtE.png
何度やってもこういう画像になってしまいます
sd_xl_refiner_1.0.safetensors
sd_xl_base_1.0.safetensors
これをmodelに入れてcheckpointにbaseの方を設定して0.8でやってるのですが
何か分かる事があればお願いします >>359
XL用以外のVAEとかLoraとか使ってるんじゃ? SDXLはVAEもsd_xl_base_1.0を指定しないと、こうなる。 >>359
SDXLは出力できる解像度が厳密に決まっているので、そこを外さないようにする
1024×1024が基本 >>360,361,362
VAEは使わずLoraも使ってません
ただcatとかだけプロンプトに入れてやってます
モデルをanything v3とかでやってるんですが
それもXL用でないと駄目なんでしょうか? >>363
手本のサイトで1024x1024と書いてあったのでやってみたら
こういう画像ではなく全体的に金ピカのような画像になりました
そこで小さい画像でやると上の画像みたいになりました この文脈でどうしてAnythingが出てくるんだ… >>364
どういうこと?
SDXLで使うならCheckpointはsd_xl_base_1.0.safetensors
refinerはsd_xl_refiner_1.0.safetensorsを指定
解像度が低すぎても暴れるから1024x1024で
SD1.5でrefiner使うならCheckpointもrefinerも1.5用使うだけ >>366
一番上のmodelを選ぶ所で入れてます
もしかしてrefinerのcheckpointだけでなく
一番上のもsdxl対応モデルじゃないと駄目なんでしょうか? >>363
面積的にはそんなもんだけど、普通に縦横比変えてるけど問題感じたことないな >>367
一番上のStable Diffusion checkpointにsd_xl_base_1.0.safetensorsを入れて
refinerのcheckpointにsd_xl_refiner_1.0.safetensorsを入れるんですか
大バカな勘違いをしていました
すみません >>371
SDXLでの生成の場合は基本そう
モデルは色々XL用が出てきてるからそういうやつなら入れ替えは可能だけど
1.5用とXL用は混ぜては使えないと思うよ >>372
そうなんですね
いつも使ってるmodelでやってました
すみません 実験的にあったような
SDXLモデルとSD1.5系は全く互換無いよ
latent混ぜてもエラー吐くし、VAEに1.5系を突っ込んでもアウト
VAEには明示的にSDXLを突っ込む必要があるけどwebuiでは暗黙的に処理してくれるのかな?
refinerのやってることは、単にステップの8割までをベースでやって、そのlatent使って残りの2割を仕上げているだけなので無くも別に致命的な破綻はしない てか公式以外の今出てきてるXL用のモデルってrefiner使うタイプの奴ほぼほぼないし公式モデルですらrefinerは別に必須じゃないので当座refinerのことは忘れていい気がする SDXLを使う場合はCheckPoint、refiner、VAEをSDXL用に統一する
これはSD1.4/1.5系使う場合やSD2.0/2.1系を使う場合でも同じで、混ぜる事は出来ない(互換性がないため)
もしこの組み合わせが違う場合、エラー吐くか生成画像が崩れる
同様にLoRAもSD1.5系・SD2.1系・SDXL系で互換性はないため、モデルと統一しないといけない(SDXLでSD1.5系のLoRAは使えない)
ちなみにSDXLの基本は
Checkpoint:sd_xl_base_1.0.safetensors
refiner:sd_xl_refiner_1.0.safetensors
VAE:sdxl_vae.safetensors
の組み合わせ
モデルを変更してもいいがSDXL用である事の確認が必要で、外部から確認する方法は無い
(大抵ファイル名にsdxlって入ってると思うけど) SDXLはマジでなんも互換ないのでSDXL専用にwebuiを別インストールした方が扱いやすいと思うよ
てかこれ2.1の時もそうだったと思うけど ComfyUI使おうぜ
モデルの切り替えも楽だし、どこのフローでエラー吐くか一目瞭然なんでどう動いてるかわかっていいぞ SDXLでアジア系のモデルで良いのがないんだが
BRAシリーズを継承してる
SDXLモデル来ないかな? SDXLって今の所はリアル路線向きって感じですか?
アニメ風のモデルは発展途上でクオリティ低そうだし ADetailerは顔を検出して綺麗にしてくれますけど、
それの逆で顔だけはHiresのDenoisingを低くめにかけることとかって出来ますか?
リアル系でDenoising強めにかけると顔がゴツくなるのが嫌だけど、背景や体は綺麗に出したいんです。 cannyをよく使ってたのですがSoft EdgeやLineartのほうが使い手良いですか? EveryDream Trainer 2.0でcheckpoint作ったことある人いる? >>341
逆に言えばそのへんをうまく回避すると打率上がるんだよ >>387
逆にmensって入れたらムキムキで生えてました
責任取ってください 知り合いが2080を一万五千円であげるって言ってる!
ついに1070から大幅パワーアップ!! 知り合いが750tiを一万五千円であげるって言ってる!
ついに1050から大幅パワーダウン!! Network Rank (Dimension)ってどの程度「詳細に学習するのか」を指定する項目だと思ってるんだけどあってる? >>349
知ってるっつーの
ワットチェッカーでリアルタイムで測ってるんだがら…
落ち着いたあとも500Wくらい食ってて意外と下がってない dimは単純にパラメータ数 多ければいいってものでもない SDXL、1024x1024だと意外とメモリ食ってなかった。6.5GB。 腕とか足の産毛どうやったら消せる?
なかなか消えてくれなくて消せたと思ったら髪の毛まで消えるwww フォトショとかで消したほうがいいよ
俺もスキンヘッドの剃り跡で困った
無毛症みたいな頭にしたいのに、学習されたデータが剃った頭ばかりだから絶対無毛症みたいにはならない 線画修正にSD使ってるけど、身体に黒い塗りやグラデ、意図しない方向からの光源が入ったりは
なんともならん感じかしら プロンプト他の入力欄で半角英数字しか入力できないようにする方法ってなにかないでしょうか? OSから日本語の言語パックを消すんだ
次善の策としては無変換キーなどの使わないキーに英語に切り替えを割り当てる web 開発してる人とか html 詳しい人ならわかりそうだけど
たしか入力欄で入力方法を制御するような方法があったような
<input type="tel">だっけ?
ただ私は無能なのでどうやって実装していいかわからない なんかhtmlじゃなくてJavaScriptだらけみたいだね
スーパーハカーじゃないと無理そう
拡張機能ime-cancellerを作ってくれるよう神に祈りましょう 1.6.0にしたらmov2movのタブ消えて使えなくなったんだけど今使えてる人います? controlnetのIP adapterどんな感じよ?
reference onlyと似てるらしいが 顔だけのLoRA、体だけのLoRA、これらをマージしたら完全体で描かれるLoRAになるでしょうか? prompt-all-in-one、これ導入したら超快適。 最新のwebUIにアプデすると、stable-diffusion-webui-wd14-tagger の拡張機能のタブが消えて使えなくなる不具合ってありますか?
他の拡張機能全て無効化しても表示されたりしなくて学習画像のキャプションどうしようか悩んでいます このスレ検索するといいかも
同じような質問繰り返し出てるはず >>409
ありがとうございます。
私は5chも初心者なもので申し訳ないのですがスレ内検索のやり方を教えていただいてもよろしいでしょうか・・・ >>410
>>263にとりあえずの回避方法あるみたい Ctrl+Fも知らないような奴が環境構築して生成してるとか怖いな…
1個でもトラブル起こったら全部人に聞きまわるしかないやろ バッテリーや空気圧や交通法規すら知らない人間が運転しまくってる現実よりはマシさ てっきり5chスレ内検索機能があると思っていたらなんかページ内検索で探せって言われてるのは驚きました >>412
文字揺れがあるから実際には検索は無理じゃね?
ログを常時LLMに食わせることができるようになればいいのにな >>418
今回のケースならtaggの部分だけでスレ内検索するとうまく見つかるよ
あと普通のグーグル検索でもstable diffusionのバージョンとtaggerの不具合のことを検索しても解決作が書いてあるサイトが出てくる 質問スレで検索しろって言い放つのすごい気持ちよさそう >>420
ググれば出てくることを聞いてくる意味よ >>8
10年前のだけど余裕だよ
CPU XEON 2690 V2 10core
Main Memory 128GB
Quad Channel 帯域60GB/s
GPU RTX4090 24GB
帯域1008GB/s
OS用 SATA SSD 500GB
SD用 SATA SSD 500GB
DATA用 NVMe Gen3x4 2TB
DATA用 HDD 4TB + 3TB
これで、生成ほぼ最速で動いてる
メモリ量と帯域があってGPU 速ければ問題無し 今から7年前って多分6・7世代 Core i だと思うけど4コアなら余裕だと思う
2コア2スレッドでもできるだろうけど拡大やLama等CPUを使う動作はもっさりする可能性はある
ドライブはHDDでもできるけどSATAでもいいからSSDのがいい Kohya's GUIでLora作ったら2GBになって
使ったら全然効いて無かったです
epoch 5でTrain batch size 2
画像24枚
フォルダ名 100_AAA
学習ステップ6000になりました
どこかおかしいでしょうか? Mサイズはあれどmカップというサイズは実在するのですか? >>420
普通は同じ質問無いか確認してから書き込むからね
>>426
多分Dream Boothになってる気がする >>427
大変申し訳ございません。
あなたとは分かり合えないようです。 >>429
あー
そっちも多分設定してました
ありがとうございます >>432
ありがとうございます。好みではありませんでした。
安心してスルーできます。ゆっくり眠れそうです kohya_ssのTraining Parametersで
①Learning rate デフォ0.0001
②Text Encoder learning rate デフォ0.00005
③Unet learning rate デフォ0.0001
になってるけど、学習強度を上げたいときは、Learning rateだけ大きくすればOK?この場合0.001とかに
https://hoshikat.hate
nablog.com/entry/2023/05/26/223229#Text-Encoder-learning-rate
このサイト(貼れないので改行分割)の
> ここで数値を指定した場合、Learning rateの値よりもこちらが優先されます。
が気になって・・デフォで入ってるのに②③が①より優先って意味が分からない
②③を両方空欄にすると
if not (float(text_encoder_lr) == 0) or not (float(unet_lr) == 0):
TypeError: float() argument must be a string or a real number, not 'NoneType'
ってエラーが出た、0だと0で優先になっちゃうだろうし >>434
初心者という想定でのレスになるけど、学習をしっかりしたいなら学習率を大きくすればもっと学習するって思ってるなら、学習率ってのはそういうものではないよ
学習率ってのはざっくり言えばゴールにたどり着くための一歩の歩幅だから、大きすぎるとゴールを通り越す(収束しない)し、小さすぎるとゴールにたどりつけない(局所解にハマる)ので、
ちょうどいい数値がいいんだけど、それは素材や学習状況によるので、試してみて試行錯誤するしかない。それか、使ったことないが、うまいこと調整してくれるオプティマイザーはあった気はするが。 >>434
追記だけどリンク先のはなしはUnetとTextEncoderの学習率を別に設定する話だろうけど、まあ書いてある通りだが、ほぼ初めてなら、それは慣れてからでいんじゃね >>435
別人だけどすげーわかりやすい
dimとかconv dimは学習する際の細かさって理解でいいんかな >>437
dimはネットワーク(ベクトル)の複雑さだからあれやこれや細かいことを覚えさせたければそれないりにdimを上げなければ覚えられないってことで
そういう意味では細かさという理解であってると思うよ
ただdimの大きさに見合った素材量とかないと逆に悪化すると思われる、ただ実際dimはいじったことないから、そのはずってレベルの理解だが Learning Rate を変化させるなら
0.0001
0.0005
0.001
の3パターンくらいで試せばいいんじゃないかな?
最大ステップ数は3000~5000??
その他の要素は全て同一で
(seed値固定を忘れずに!!) ID:r/w9zbpf
レスありがとう、で肝心の質問なんですが
①の0.0001を0.001にしたとき、この数値は②③に関係なく「効いてる」でいいんですか?
②③はよくわからないから
> それは慣れてからでいんじゃね
の通り、とりえあず無視して学習強度を試行錯誤したいんですが
> ここで数値を指定した場合、Learning rateの値よりもこちらが優先されます。
これが意味不明なんですよ >>440
言葉通りなんだと思うよ
1はそのままにして2と3で調整する感じか最悪全て同じにするか(あんまり勧めないけど)
1だけ変えても2と3が設定されてればそっちを参照するの1だけ変更するのはあんまり意味ないと思うよ ■ このスレッドは過去ログ倉庫に格納されています