【StableDiffusion】画像生成AI質問スレ17
■ このスレッドは過去ログ倉庫に格納されています
Stable Diffusionをはじめとする画像生成AIに関する質問用のスレッドです。
次スレは>>950が立ててください。
質問する人はなるべく情報開示してください
・使っているアプリケーション(1111ならローカルかcolabか、ローカルならどこから/何を読んでインストールしたか、colabならノートブックのURLも)や使っている学習モデル
・状況の説明は具体的に。「以前と違う画像が出力される」「変になった」では回答しようがない。どう違うのか、どう変なのかを書く
・状況やエラーメッセージを示すキャプチャ画像
・ローカルならマシンの構成(GPUの種類とVRAM容量は必須、本体メモリの容量やCPUもなるべく)
テンプレは>>2以降に
※前スレ
【StableDiffusion】画像生成AI質問スレ16
https://mevius.5ch.net/test/read.cgi/cg/1692012289/ Lora作るのに25枚くらいの画像で3060 12GBだと何時間くらいかけるのが普通ですか?
学習ステップ7000
2時間かけたんだけど微妙で
やり過ぎも良くないんですよね? 拡張機能のNegPipを導入して、アクティブにチェック入れて生成しようとするとTypeError: unsupported operand type(s) for +: 'NoneType' and 'Tensor'’とエラーが出てしまいます
原因や解決方法ご存じの方いたら教えてください >>485
最近のお気に入りの設定は
教師画像10枚 くり返し10回 エポック30
lr 0.0005 dim 128 alpha 1 constant AdamW8bit
これをバッチ 5 でやって10分くらい
グラボは3060 12GBね 即戦力でSD1.5用を作ってるのか次のためにSDXL用を作ってるのかによっても話が変わってくると思うけど
SDXLでもその辺の基本的な設定はあんま変わらんものなのかな >>476
でもそのタグ学習はアフリカの貧しい人達にやらせてたりするのがOpenAIだったりする。
法律や規制で先進国ではできないから >>485
昨日始めたばかりのLora学習初心者だけど、某所に書かれてたのを参考に
・画像20枚(たまたま)、フォルダ名1_で1回
・BLIPでtxt出して手作業でカンマ入れたり、調整したり
・Epoch40~80(学習画像による、上手くいかない都度LoRA network weightsで追加学習していく)
・Text Encoder learning rate 1.0
・cosine_with_restarts、DAdaptation
・Network Rank 128、Network Alpha 64
(1回で8分~20分くらいかな、中途LoraもSave every N epochsでいくつか残しておく)
が一番うまくいってる、使い方が本当に合ってるのかわからんけど
3060(12GB)だから試行錯誤に時間かかるので自分で突き詰めるのしんどい、学習画像でコロコロ変わるっぽいし
lossは眺めてるけど収束具合がまだよくわからん、グラフでも出てくれたらなぁ
DAdaptationは今や一周回って人気ないみたいだけど、自動だから過学習しにくい?
batchはDAdaptationだから上げるのは無理かな?弊害あるっぽいので元々1で回してたけど
出てきたLoraの顔が似なかったりしたら、無理矢理<Lora:xxxx:1.5:lbr=yyyy>
(yyyyは顔意外おおよそフィルタしたlbw)とか1以上にして無理矢理調整してる、自分用で配布する気もないので
自分でLora作れず他人様のをこねくり回してた期間が長いのでLora Block Weightの謎の経験蓄積があったりw
Advanced Configurationにもweightあるみたいだけど画像によって変わるのに追随する自信がないのえあえて使わない >>487
>>492
時間かけるだけじゃ駄目なんですね
参考にさせてもらいます
ありがとうございました 何枚も作成すればするほど思ってたのと違ってくる現象 関係なさそうなプロンプトが意外と影響してるよな
ミススペルしてるやつとか >>492
>>492
> lossは眺めてるけど収束具合がまだよくわからん、グラフでも出てくれたらなぁ
WANDB API Key
kohya_ss で「API key」を取得すればできたよ。 >>487
著作権法上何かあったとしても、法律上クリアな治験とかでアフリカ人使うよかよっぽど倫理的だと思うわ なんなら「英語さえ読み書きできればAIタグ付け奴隷の仕事がある」ってアフリカではかなりマシな労働まである みんな3060-12GBで不満ない感じ?
512*768を4倍にアップスケールするのに1分もかからない感じ? たぶん俺だけぽいので知ってたらで教えてほしい
lora学習でnエポックごとに保存って設定すると
「〇〇-000001.safetensors,〇〇-000002.saferensors,…」って感じでファイル出てくると思うんだけど最後に出てくる〇〇.safetensorsだけ急に質感変わる現象って何が原因?
ちなみに適用するとパッと見は凄いいい出来だけどプロンプトの効きはめちゃくちゃ悪い ローカルで始めたけどanything-v5モデルフォルダに入れたら自動DLしたモデルは削除でOK? >>497
ありがとう・・なんかわからんけど、検索してやってみる 眉毛だけの学習させたいんだけどタグにアイブロウ出なくて詰んだw >>506
URL貼ると書き込めないので・・・
「誰でもわかるStable Diffusion Kohya_ssを使ったLoRA学習設定を徹底解説」
のWANDB API Keyのこうもくを見ればできるよ 馬鹿な俺でもできたから >>500
素直にアップスケールすると1分半ぐらい
2段階アップスケールなら1分弱 わいはそれの3倍すら10分かかる
出来るまでずっと空眺めてる
なぜかi2iだけは生成完了の通知が来ないので困る RTX3050 Latentの設定 1回目 96 96 48 2回目 128 128 64
512*768 → 1024*1536 30秒 → 2048*3072 2:40 合計 3分10秒
768*768→1536*1536 1分そこそこ → 3072*3072 5分そこそこ 合計6分強
>>511
その間にペイントでごにょごにょしたりしたらええやん
メインメモリ32GBあったらつべで音楽聞きながら生成画像を2GBの仮想ドライブに吐かせて2Dゲーム周回させてても余裕やで >>500
4090吐血しながらポチったけどそれでも一瞬じゃないのでAI専用ハードはよ出て欲しい
頑張れジムケラー >>500
Hires. fixで512x768 から4倍の 2048x3072 は4090でも余裕でアウトオブメモリーなので
tiled vaeかましても大体40〜60秒はかかるぞ
hires前
https://i.imgur.com/fbULbBH.png
hires後
https://i.imgur.com/214owsc.jpg Lycorisが良いと聞き学習を試したものの1ヶ月ほど試行錯誤してみてLoRAの方が良くない?となりつつあるw 生成ボタン押しても何も出ない
cmdのDownloading pytorch_model.binが完了するまで待つしかない? 何かが進行してるならそのとおり
コマンドラインの部分はマルチタスクじゃないから Google colab課金勢ってどれくらいいるのかな?
自分のペースだと2日くらいで停止になること多いから3つアカウント作って使い回してるとそんなに困らない。 規約に「複垢使いまわしでcolabってるの見つけたらBAN(意訳)」って書いてあるから気をつけろよ >>520
50時間でcolabのCUを使い果たすってこと?
それならアカウントを分けなくても追加課金できるはずだが LORAのコツを知りたいです。
LORAの作り方って特定の顔のくせみたいなのを学ばせたい場合は顔だけを切り取った物を学ばせるわけですよね?
正方形に切り取って背景できるだけきれいに抜いて、taggerでキャプション作って、それでKohya_SSで適当なプリセットで回す。
って感じですよね?
生成時にそのLORAとtagを使っても、なんかお腹に顔がくっついてるみたいな変なキメラが生まれちゃいます。 切り取ったせいで顔がどこにあるかを学べてないのでは・・・ >>524
知らないんならいいや
4090勿体ないね 生成するとき解像度は1000より1024にしたほうがいいですか?
1024にするとうまく絵が出力できたり、生成速度が速くなるとかあるんですか? >>523
体付きの画像を使って
タグから顔の特徴を削除してトリガーワードに集約してみては >>522
スレたいとは関係ないけどこのスレで最近こういったレス番のおかしな物を見かけるけどどうなってるの? >>523
上半身~バストアップ推奨
(全身は顔の比率が小さいので非推奨)
背景はシンプルであれば気にしなくて大丈夫
(あまりにごちゃごちゃしていれば切り抜いた方がいいかな)
あと画質は重要
画質が良くないものは切り捨てる
素材画像が減っても高画質で揃っていた方が仕上がりは良い tiledで拡大ってそんなにいい?
解像度はhiresのがいいと思うんだが、設定かえればtiledでもよくなるんか? 512*768の4倍程度でアウトオブメモリーになったことないなぁ
ハード性能使い切れない環境になってそう >>528
>>530
ありがとうございます!
なるほど、体との繋がりみたいのが学べてないのはありそうです。
癖のある男性の顔なのでちゃんとした顔と認識されてないとかはありそうなので試してみます。
キャプションのテキストとかは整理するほうがいいんでしょうか?
細かく見ると全く関係ないワード(狐耳とか、ポケモンとか)が入ってたりするんですけれど >>531
tiledの方がvramが少なくていいというのもあるけど
tiledの一番のメリットは構図が変化しないことじゃないかな
お手本があって構図を変化させずに高画質化したいならtiled プロンプトの英語で
前置詞の扱いが難しいんだけど
英語勉強してた時も
前置詞で苦労した覚えある しっかりとした背景入れるようにプロンプト入れると、lora込みの人物のクオリティがかなり下がるんだけどみんなどうしてるんだ
背景はinpaintとかであとから入れてるのか?
先に人物作ってシード固定とかしてあとから背景入れてたりするのか
追加で服のlora入れたりするより、背景入れたほうがクオリティ下がる程度が大きい >>532
hiresならvram24でもアウトオブメモリーじゃね? >>534
サンクス
そうなのかー、個人的にはhiresのほうが描写が細かくていい感じに仕上がるんだよなあ
tiledだと細かい所がちょっとぼける
設定のせいかなあ? そもそもNGしてるやつが見るわけないだろ
回避工作する意味あるのかこの馬鹿は よく見たらタグテキスト入れてるのにキャプションなかったとかいうメッセージ出ててloraに反映されてなかった
答えてくれた方ありがとうございました >>529
レス番がおかしいのは専ブラ使用者がレス削除されたのに再読み込みしていない場合が多い webpって学習とかに使えるんですか?
試せばいいと言えばそれまでですが、例えばまだ検証版で不具合が出るとかあるのかとかよくわからない えっちなプロンプトを探してきてinpaintで好きなモデルさんの首から下にいろんなシチュエーションを合成できることに気づいて楽しい。 Inpaint繰り返してると暗い所が黒つぶれしてしまうのですが何か良い対策ないですか? >>544
自分の場合、最初の頃ずっとキャプションに.txtを指定し忘れてて、テキストが全く反映されないLoraばっかり作ってたわ。それに気づいた時は頭を抱えたけど、作り直した結果、画質だけならキャプションなしの方が良いケースが多くなって結局また悩むはめに…
ほんと学習はよくわからんわ 人間も同じ学習内容の勉強しても覚えている内容も出せる結果もバラバラやしな
良くも悪くも同じ展開 >>551
キャプションの付け方
学習時のパラメーター
どこまでLossを減らせば良いか
生成時のパラメーター
いろいろな要素が絡むガチャでシンドイ
世の中のすんばらしいLoRAは偶然の産物なのか?って思うくらい沼にハマる
元の画像が悪いんかねえ…… Pixaiの学習Loraで何個か使ったけど出来良すぎてワラタ。ベースモデルの差?
リアル系も引退したアイドルDVDのスクショから30枚ぐらいで適当に作ったけど満足出来る出来だったで。 フェイク画像が捲くりそうだな……。
いややってる人の99.8%は外には出さないんだろうけど。 >>538
処理が終わるまでVRAM上限で張り付くだけ
共有GPUメモリを使うわけではないので生成完了するまで時間はかからない
4倍でも8倍でもアウトオブメモリーになるとか意味がわからない ここのテンプレのリンク先には書いてない、RTX3000,4000シリーズに替えたらやることをやってないんだろうと推測
PC板やゲハ板ではないから知らないのは仕方ない気もするけれども >>557
そんな挙動初耳だわ
その仕様ならtile diffusionいらんやん resizeble bar という設定は知らんかったが確認したら最初からenableになってた
tileを使わないhiresのアップスケールはVRAM24GBだとxformersで3000x2000あたりが限界点でsdpだともっと小さくなる認識だったが
>>557の言ってる意味がわからない、8倍でもアウトオブメモリーにならんってどういうことや >>553
これまでのアイコラの多くは首から下を別人に挿げ替えていた。
一部で本人の身体のままで乳コラやスジコラあるいは10円コラといった亜種もあったけど基本は別人の身体。
それがinpaintでは本人の身体に乳だけ生成できて自然になる。
指崩壊問題とかもその辺りの気になるパーツを残して生成することができる。
あとinpaint最大の武器は画像の座標がずれないこと。
どういうことかというと元の画像と生成後の画像をフォトショで重ねて透過合成すると透け透けのTシャツ着てる人とか作れる。
AV女優みたいにお股の部分だけが切り取られたGパン履いてる風にしたりも。
そもそもフォトショ上で透過範囲を設定するブラシが強い。銀色のスクラッチカードを剥がすみたいにマウスで服を剥いでいくような遊び方は病みつきになる。 もしかしたらH100の200連装とかで生成しててVRAMが溢れたことが無いだけかもしれない 自環境の限界が気になって試してみた
4090欲しくなるわぁ
```
Hires.fix:
- Settings > 512*768, DDIM, steps:20, VRAM11GB
- Times:
- 2.00 (1024 * 1536) > 19.9s
- 2.25 (1152 * 1728) > 27.9s
- 2.50 (1280 * 1920) > 35.8s
- 2.75 (1408 * 2112) > 46.2s
- 3.00 (1536 * 2304) > 62.4s
- 3.05 (1561 * 2342) > OOM
``` >>555
pixaiのpixai Asian realってのより優れた実写系のモデルが無い
ダウンロードしたいが出来ない >>565
Hires.fixでそこそこ拡大してから、upscaylっていうソフトでさらに拡大するといいよ。
https://www.upscayl.org/ Tiktok登録したことない人は10日ログインだけで4000円
個人情報入力も無し
https://note.com/eightma/n/n9f88f9557b8b >>567
インストール時にノートン先生が怒ってきたけどお手軽に高解像度を出せるね
Denoising strengthはほぼ0で設定したみたいな感じで、4Kディスプレイ等で見たい場合にいいかも
https://imgur.com/zthcJSA.png
https://ul.h3z.jp/qnDQC81k.png 違うスレでradeonはVRAM足らないと共有メモリを使用するって見たんだけど仕様してる形跡がない なにか設定がいるの?
ドライバは最新版 Radeonを使っている人がこのスレにいるだろうか…… directml版でrx6800使ってるけど、
共有メモリはゲフォドライバの話しか聞いたことないが一体何の話だ >>574
よく見たらnvidiaの話だったorz 技術スレで散々話題になった設定知らんやつばっかりで草 >>559
倍率上げすぎると生成内容が変わりすぎるからhirsは実質2倍ぐらいまでしか使い途ないってだけ
途中で処理が止まるのをおかしいなんとかしようと思わないかね普通
技術レベル低いと思ってたけどCGスレだからこんなもんなのか >>578
俺はそんな話してないよ
hires8倍でアウトオブメモリーにならない方法教えてくれ でもOOM回避ドライバって物理破壊言われてるバージョンがほとんどなの怖くね
一応iCUEのせいじゃないかってなってるけどNVIDIA放置&ユーザー回避でよくわからんし >>579
Tiled vaeをオンにしたらアウトオブメモリーは出なくなる
hires8倍はそれを前提にした話になってるかもしれない なおradeonだとTiled vaeは出力できても角がグレーアウトする模様
ラデでも使えてる奴いるらしいけどほんとかよアレ >>582
初心者スレは水飲み場だからリスキルする奴が暴れるのは日常 ■ このスレッドは過去ログ倉庫に格納されています