【StableDiffusion】画像生成AI質問スレ17
■ このスレッドは過去ログ倉庫に格納されています
Stable Diffusionをはじめとする画像生成AIに関する質問用のスレッドです。
次スレは>>950が立ててください。
質問する人はなるべく情報開示してください
・使っているアプリケーション(1111ならローカルかcolabか、ローカルならどこから/何を読んでインストールしたか、colabならノートブックのURLも)や使っている学習モデル
・状況の説明は具体的に。「以前と違う画像が出力される」「変になった」では回答しようがない。どう違うのか、どう変なのかを書く
・状況やエラーメッセージを示すキャプチャ画像
・ローカルならマシンの構成(GPUの種類とVRAM容量は必須、本体メモリの容量やCPUもなるべく)
テンプレは>>2以降に
※前スレ
【StableDiffusion】画像生成AI質問スレ16
https://mevius.5ch.net/test/read.cgi/cg/1692012289/ Dynamic promptsで複数のテキストファイルを使いたいんだけど上手くいかなくて困ってます
例えば人物のポーズとカメラアングルで「1girl,{pose},{camera}」と書いても最初の{pose}しか反映されない
テキストファイルを複合して使えないってことはないよね?基本的なこと見逃してるのかな…… 学習ガチャは時間も掛かるし電気代も掛かるし正解の方向が見えないからツライ
上手くできているLoRAの方法を真似ても全然駄目だったりするし >>467
{__ファイル1__|__ファイル2__}, __ファイル3__,……
とかやっても全部効いてるよ >>467
470が言ってる通り、ワイルドカードは前後2つづつのアンダーバーまで含めないといけないんだが、{pose}だとただのプロンプトでしかないわけで 例文の方が間違ってたごめん
実際は{_pose_}と記述してあってダメだった……んだが
よく見たら2つ目の指定ファイル名を1文字ミスってるだけだった(face→fece)
重ね重ねごめん、俺っていつもこうなんだ,blush,water eye,embarrassed DiffusionBeeでLoraの追加方法が探しても見つからないのですが、やり方書いてあるところありますでしょうか? CIVITAIでフィルターをXL以外選択してるのにXLのモデルまで出てくるのどうにかならないの?…
フィルターの意味ないじゃんかぁああああああああああ…… 投稿者がタグを自由につけるものだとしたらフィルタリングの意味がないからどうしようもない
アップロードされたものを誰かが監視して正しいタグを全部つけてくれる仕様ではないだろうし
それこそAIの出番ともいえるw LoRA学習で triton 使ってる人いる?
pip じゃインストール出来なかったんだけど
triton 使ったとしてどのくらい速くなるの? 3060 12GB で >>475
civitaiの検索は吹っ飛んでいる事があるから >>477
ubuntuなら使えるんだっけ?
劇的に速くなるならwsl上のubuntuで動かすとか流行ってそうだけど 〉462
パラメーターはdim128alpha64,leaning late0.0002 adamWとggったサイトそのまんまでやりました。
上記でlossが0.005ぐらいでしたがそれ以上減る様子がなかったです。lossってどうやったら減るんですか
〉463
初心者質問で恐縮ですが、txtは覚えさせたいものを消す、でいいんですよね?black eyesとかeyesがつくものは取っています。学習させたくなかったのでlooking at viewerは何もしてなかったです。 adamWがよく推されているがLionのほうが良くない?と最近感じる
ただ納得行くレベルには仕上がってないw Lora作るのに25枚くらいの画像で3060 12GBだと何時間くらいかけるのが普通ですか?
学習ステップ7000
2時間かけたんだけど微妙で
やり過ぎも良くないんですよね? 拡張機能のNegPipを導入して、アクティブにチェック入れて生成しようとするとTypeError: unsupported operand type(s) for +: 'NoneType' and 'Tensor'’とエラーが出てしまいます
原因や解決方法ご存じの方いたら教えてください >>485
最近のお気に入りの設定は
教師画像10枚 くり返し10回 エポック30
lr 0.0005 dim 128 alpha 1 constant AdamW8bit
これをバッチ 5 でやって10分くらい
グラボは3060 12GBね 即戦力でSD1.5用を作ってるのか次のためにSDXL用を作ってるのかによっても話が変わってくると思うけど
SDXLでもその辺の基本的な設定はあんま変わらんものなのかな >>476
でもそのタグ学習はアフリカの貧しい人達にやらせてたりするのがOpenAIだったりする。
法律や規制で先進国ではできないから >>485
昨日始めたばかりのLora学習初心者だけど、某所に書かれてたのを参考に
・画像20枚(たまたま)、フォルダ名1_で1回
・BLIPでtxt出して手作業でカンマ入れたり、調整したり
・Epoch40~80(学習画像による、上手くいかない都度LoRA network weightsで追加学習していく)
・Text Encoder learning rate 1.0
・cosine_with_restarts、DAdaptation
・Network Rank 128、Network Alpha 64
(1回で8分~20分くらいかな、中途LoraもSave every N epochsでいくつか残しておく)
が一番うまくいってる、使い方が本当に合ってるのかわからんけど
3060(12GB)だから試行錯誤に時間かかるので自分で突き詰めるのしんどい、学習画像でコロコロ変わるっぽいし
lossは眺めてるけど収束具合がまだよくわからん、グラフでも出てくれたらなぁ
DAdaptationは今や一周回って人気ないみたいだけど、自動だから過学習しにくい?
batchはDAdaptationだから上げるのは無理かな?弊害あるっぽいので元々1で回してたけど
出てきたLoraの顔が似なかったりしたら、無理矢理<Lora:xxxx:1.5:lbr=yyyy>
(yyyyは顔意外おおよそフィルタしたlbw)とか1以上にして無理矢理調整してる、自分用で配布する気もないので
自分でLora作れず他人様のをこねくり回してた期間が長いのでLora Block Weightの謎の経験蓄積があったりw
Advanced Configurationにもweightあるみたいだけど画像によって変わるのに追随する自信がないのえあえて使わない >>487
>>492
時間かけるだけじゃ駄目なんですね
参考にさせてもらいます
ありがとうございました 何枚も作成すればするほど思ってたのと違ってくる現象 関係なさそうなプロンプトが意外と影響してるよな
ミススペルしてるやつとか >>492
>>492
> lossは眺めてるけど収束具合がまだよくわからん、グラフでも出てくれたらなぁ
WANDB API Key
kohya_ss で「API key」を取得すればできたよ。 >>487
著作権法上何かあったとしても、法律上クリアな治験とかでアフリカ人使うよかよっぽど倫理的だと思うわ なんなら「英語さえ読み書きできればAIタグ付け奴隷の仕事がある」ってアフリカではかなりマシな労働まである みんな3060-12GBで不満ない感じ?
512*768を4倍にアップスケールするのに1分もかからない感じ? たぶん俺だけぽいので知ってたらで教えてほしい
lora学習でnエポックごとに保存って設定すると
「〇〇-000001.safetensors,〇〇-000002.saferensors,…」って感じでファイル出てくると思うんだけど最後に出てくる〇〇.safetensorsだけ急に質感変わる現象って何が原因?
ちなみに適用するとパッと見は凄いいい出来だけどプロンプトの効きはめちゃくちゃ悪い ローカルで始めたけどanything-v5モデルフォルダに入れたら自動DLしたモデルは削除でOK? >>497
ありがとう・・なんかわからんけど、検索してやってみる 眉毛だけの学習させたいんだけどタグにアイブロウ出なくて詰んだw >>506
URL貼ると書き込めないので・・・
「誰でもわかるStable Diffusion Kohya_ssを使ったLoRA学習設定を徹底解説」
のWANDB API Keyのこうもくを見ればできるよ 馬鹿な俺でもできたから >>500
素直にアップスケールすると1分半ぐらい
2段階アップスケールなら1分弱 わいはそれの3倍すら10分かかる
出来るまでずっと空眺めてる
なぜかi2iだけは生成完了の通知が来ないので困る RTX3050 Latentの設定 1回目 96 96 48 2回目 128 128 64
512*768 → 1024*1536 30秒 → 2048*3072 2:40 合計 3分10秒
768*768→1536*1536 1分そこそこ → 3072*3072 5分そこそこ 合計6分強
>>511
その間にペイントでごにょごにょしたりしたらええやん
メインメモリ32GBあったらつべで音楽聞きながら生成画像を2GBの仮想ドライブに吐かせて2Dゲーム周回させてても余裕やで >>500
4090吐血しながらポチったけどそれでも一瞬じゃないのでAI専用ハードはよ出て欲しい
頑張れジムケラー >>500
Hires. fixで512x768 から4倍の 2048x3072 は4090でも余裕でアウトオブメモリーなので
tiled vaeかましても大体40〜60秒はかかるぞ
hires前
https://i.imgur.com/fbULbBH.png
hires後
https://i.imgur.com/214owsc.jpg Lycorisが良いと聞き学習を試したものの1ヶ月ほど試行錯誤してみてLoRAの方が良くない?となりつつあるw 生成ボタン押しても何も出ない
cmdのDownloading pytorch_model.binが完了するまで待つしかない? 何かが進行してるならそのとおり
コマンドラインの部分はマルチタスクじゃないから Google colab課金勢ってどれくらいいるのかな?
自分のペースだと2日くらいで停止になること多いから3つアカウント作って使い回してるとそんなに困らない。 規約に「複垢使いまわしでcolabってるの見つけたらBAN(意訳)」って書いてあるから気をつけろよ >>520
50時間でcolabのCUを使い果たすってこと?
それならアカウントを分けなくても追加課金できるはずだが LORAのコツを知りたいです。
LORAの作り方って特定の顔のくせみたいなのを学ばせたい場合は顔だけを切り取った物を学ばせるわけですよね?
正方形に切り取って背景できるだけきれいに抜いて、taggerでキャプション作って、それでKohya_SSで適当なプリセットで回す。
って感じですよね?
生成時にそのLORAとtagを使っても、なんかお腹に顔がくっついてるみたいな変なキメラが生まれちゃいます。 切り取ったせいで顔がどこにあるかを学べてないのでは・・・ >>524
知らないんならいいや
4090勿体ないね 生成するとき解像度は1000より1024にしたほうがいいですか?
1024にするとうまく絵が出力できたり、生成速度が速くなるとかあるんですか? >>523
体付きの画像を使って
タグから顔の特徴を削除してトリガーワードに集約してみては >>522
スレたいとは関係ないけどこのスレで最近こういったレス番のおかしな物を見かけるけどどうなってるの? >>523
上半身~バストアップ推奨
(全身は顔の比率が小さいので非推奨)
背景はシンプルであれば気にしなくて大丈夫
(あまりにごちゃごちゃしていれば切り抜いた方がいいかな)
あと画質は重要
画質が良くないものは切り捨てる
素材画像が減っても高画質で揃っていた方が仕上がりは良い tiledで拡大ってそんなにいい?
解像度はhiresのがいいと思うんだが、設定かえればtiledでもよくなるんか? 512*768の4倍程度でアウトオブメモリーになったことないなぁ
ハード性能使い切れない環境になってそう >>528
>>530
ありがとうございます!
なるほど、体との繋がりみたいのが学べてないのはありそうです。
癖のある男性の顔なのでちゃんとした顔と認識されてないとかはありそうなので試してみます。
キャプションのテキストとかは整理するほうがいいんでしょうか?
細かく見ると全く関係ないワード(狐耳とか、ポケモンとか)が入ってたりするんですけれど >>531
tiledの方がvramが少なくていいというのもあるけど
tiledの一番のメリットは構図が変化しないことじゃないかな
お手本があって構図を変化させずに高画質化したいならtiled プロンプトの英語で
前置詞の扱いが難しいんだけど
英語勉強してた時も
前置詞で苦労した覚えある しっかりとした背景入れるようにプロンプト入れると、lora込みの人物のクオリティがかなり下がるんだけどみんなどうしてるんだ
背景はinpaintとかであとから入れてるのか?
先に人物作ってシード固定とかしてあとから背景入れてたりするのか
追加で服のlora入れたりするより、背景入れたほうがクオリティ下がる程度が大きい >>532
hiresならvram24でもアウトオブメモリーじゃね? >>534
サンクス
そうなのかー、個人的にはhiresのほうが描写が細かくていい感じに仕上がるんだよなあ
tiledだと細かい所がちょっとぼける
設定のせいかなあ? そもそもNGしてるやつが見るわけないだろ
回避工作する意味あるのかこの馬鹿は よく見たらタグテキスト入れてるのにキャプションなかったとかいうメッセージ出ててloraに反映されてなかった
答えてくれた方ありがとうございました >>529
レス番がおかしいのは専ブラ使用者がレス削除されたのに再読み込みしていない場合が多い webpって学習とかに使えるんですか?
試せばいいと言えばそれまでですが、例えばまだ検証版で不具合が出るとかあるのかとかよくわからない えっちなプロンプトを探してきてinpaintで好きなモデルさんの首から下にいろんなシチュエーションを合成できることに気づいて楽しい。 Inpaint繰り返してると暗い所が黒つぶれしてしまうのですが何か良い対策ないですか? >>544
自分の場合、最初の頃ずっとキャプションに.txtを指定し忘れてて、テキストが全く反映されないLoraばっかり作ってたわ。それに気づいた時は頭を抱えたけど、作り直した結果、画質だけならキャプションなしの方が良いケースが多くなって結局また悩むはめに…
ほんと学習はよくわからんわ 人間も同じ学習内容の勉強しても覚えている内容も出せる結果もバラバラやしな
良くも悪くも同じ展開 >>551
キャプションの付け方
学習時のパラメーター
どこまでLossを減らせば良いか
生成時のパラメーター
いろいろな要素が絡むガチャでシンドイ
世の中のすんばらしいLoRAは偶然の産物なのか?って思うくらい沼にハマる
元の画像が悪いんかねえ…… Pixaiの学習Loraで何個か使ったけど出来良すぎてワラタ。ベースモデルの差?
リアル系も引退したアイドルDVDのスクショから30枚ぐらいで適当に作ったけど満足出来る出来だったで。 フェイク画像が捲くりそうだな……。
いややってる人の99.8%は外には出さないんだろうけど。 >>538
処理が終わるまでVRAM上限で張り付くだけ
共有GPUメモリを使うわけではないので生成完了するまで時間はかからない
4倍でも8倍でもアウトオブメモリーになるとか意味がわからない ここのテンプレのリンク先には書いてない、RTX3000,4000シリーズに替えたらやることをやってないんだろうと推測
PC板やゲハ板ではないから知らないのは仕方ない気もするけれども >>557
そんな挙動初耳だわ
その仕様ならtile diffusionいらんやん resizeble bar という設定は知らんかったが確認したら最初からenableになってた
tileを使わないhiresのアップスケールはVRAM24GBだとxformersで3000x2000あたりが限界点でsdpだともっと小さくなる認識だったが
>>557の言ってる意味がわからない、8倍でもアウトオブメモリーにならんってどういうことや >>553
これまでのアイコラの多くは首から下を別人に挿げ替えていた。
一部で本人の身体のままで乳コラやスジコラあるいは10円コラといった亜種もあったけど基本は別人の身体。
それがinpaintでは本人の身体に乳だけ生成できて自然になる。
指崩壊問題とかもその辺りの気になるパーツを残して生成することができる。
あとinpaint最大の武器は画像の座標がずれないこと。
どういうことかというと元の画像と生成後の画像をフォトショで重ねて透過合成すると透け透けのTシャツ着てる人とか作れる。
AV女優みたいにお股の部分だけが切り取られたGパン履いてる風にしたりも。
そもそもフォトショ上で透過範囲を設定するブラシが強い。銀色のスクラッチカードを剥がすみたいにマウスで服を剥いでいくような遊び方は病みつきになる。 もしかしたらH100の200連装とかで生成しててVRAMが溢れたことが無いだけかもしれない ■ このスレッドは過去ログ倉庫に格納されています