【StableDiffusion】画像生成AI質問スレ17
■ このスレッドは過去ログ倉庫に格納されています
Stable Diffusionをはじめとする画像生成AIに関する質問用のスレッドです。
次スレは>>950が立ててください。
質問する人はなるべく情報開示してください
・使っているアプリケーション(1111ならローカルかcolabか、ローカルならどこから/何を読んでインストールしたか、colabならノートブックのURLも)や使っている学習モデル
・状況の説明は具体的に。「以前と違う画像が出力される」「変になった」では回答しようがない。どう違うのか、どう変なのかを書く
・状況やエラーメッセージを示すキャプチャ画像
・ローカルならマシンの構成(GPUの種類とVRAM容量は必須、本体メモリの容量やCPUもなるべく)
テンプレは>>2以降に
※前スレ
【StableDiffusion】画像生成AI質問スレ16
https://mevius.5ch.net/test/read.cgi/cg/1692012289/ Learning Rate を変化させるなら
0.0001
0.0005
0.001
の3パターンくらいで試せばいいんじゃないかな?
最大ステップ数は3000~5000??
その他の要素は全て同一で
(seed値固定を忘れずに!!) ID:r/w9zbpf
レスありがとう、で肝心の質問なんですが
①の0.0001を0.001にしたとき、この数値は②③に関係なく「効いてる」でいいんですか?
②③はよくわからないから
> それは慣れてからでいんじゃね
の通り、とりえあず無視して学習強度を試行錯誤したいんですが
> ここで数値を指定した場合、Learning rateの値よりもこちらが優先されます。
これが意味不明なんですよ >>440
言葉通りなんだと思うよ
1はそのままにして2と3で調整する感じか最悪全て同じにするか(あんまり勧めないけど)
1だけ変えても2と3が設定されてればそっちを参照するの1だけ変更するのはあんまり意味ないと思うよ >>440
TextEncoderもUNETも「ここで数値を指定した場合、Learning rateの値よりもこちらが優先されます。」と書いてあるから、指定しなければLearning rateの数値が全てに適用されると思ってるけど >>441
やっぱそういうことですか、今3つ全部0.001にして回してます
②③に値が入ってて空欄不可(optionalなのに)で、②③優先なら①の欄自体が要らないのでは・・
なんにせよ初心者なんでまず「あえて間違えたい」んですわ
過学習させてエポックごと保存の-00000xを逆に戻りたいというか
>>442
その「指定しなければ」ってのがそもそもできないですよね?
あれ?私なんかとっても変な勘違いしてる?w >>443
そうなん?スマンな、なんJニキのGUI(Kohya_lora_param_gui)でお手軽にやっちゃてたからコマンドラインの指定はそこまで詳しくないんだわ >>443
個人的にはlrを調整して色々試してもあんまり違いを実感しにくいと思うんだよね
学習強度を云々よりもう少し学習させたいって感じなら総STEPを伸ばして中間を2エポック毎とかこまめに取って確認する方がいいかなと もしかして、空欄ではなく
②0
③0
でいいのかな?かな?
マウス合わせたら、「有効な数値を入力してください。有効な数値として最も近いのは0と1です。」
って謎日本語ポップアップが出るけど・・ >>325
俺も去年20000超えてたけど
今年は18000
4090は節電効果あるね Regional Prompterについて質問です。
アニメキャラ2人を描いた画像を生成したいのですが、うまくいかない時があります。
プロンプトでキャラLora AとBだと生成できるのに、AとCや、CとDなど、その他の組み合わせだと全てエラーになってしまいます。
cmdのエラー文の最後が以下の通りです。
原因が解る方がいれば教えてください。どうかお願いします。
File "D:\Stable Diffusion web UI\stable-diffusion-webui\extensions-builtin\Lora\network.py", line 157, in forward
raise NotImplementedError()
NotImplementedError >>449
コメントありがとうございます。
確かにcivitaiで確認したら、確かにAとBだけLORAで、その他はLYCORISでした!
全てLORAフォルダに入れて、1人だとLYCORISでも生成できたのですが、タイプが違うと難しいでしょうか? Loraの発展系がLOHASとかだから、二つを混ぜるとLOHASにあって Loraに無い要素が出てくる
要素が足りねえぞゴルァってされてるってのがエラー文の中身だから、その辺りかなって辺りつけた
要するに同じタイトルのゲームだからってPCとPS4のゲームのセーブデータを交換できるとは限らんみたいな >>451
なるほど、わかりやすい例えありがとうございます。
ちなみにLyCORISをLoRAに変換?する方法などはあるんでしょうか? いくら専板でもコメントありがとうございますは5chで初めて見たかもしれん
良いですねぇ~ LoRA作る時に反転画像のオプションがあるけどあれチェック入れた方がいい?入れな方がいい? novelAIでオンラインで生成するよりなんか奇形が多い気がするんだけどそういうもんなのかな?
novelAIで使ってたプロンプトを変換して使ってるんだけど Lora学習の確認するときSave every N epochsを1とかにして、それぞれのデータを1つずつ確認してたりする?それともTensorBoardみりゃわかるとかある? >>456
NovelAIにはNGプロンプトが隠しで入ってるから >>455
自分は左右にこだわり無いので問答無用に
チェック入れて学習素材の数を水増ししてる
素材の数が少ない場合は仕上がり相当違うんじゃないかな
比較したことは無いが
サイコガンは絶対左腕!とかいう場合は入れちゃダメ >>454
別の板でも同じこと聞いてたマルチポストマンだから全然良くないけどな lora作成で質問です。画像20枚くらい、2000ー4000stepsで上半身と顔多めで作っても目だけ似ません。kohya sdscriptとtraintoolsどちらでやっても似ません。何が原因でしょうか。 可能性
・タグ付けが悪い
・lossがまだ大きい
・学習のパラメーターが悪い 目をちゃんと学習してるのかな brown_eyesとかlooking_at_viewerだとかbangsだとか目に影響するものは多い
中でもlooking_at_viewerは鬼門になりやすく、寄り目になって失敗したりするので、外して学習したほうがいい 1.6.0の起動時にブラウザが自動で立ち上がらないようにしたいんだけど Dynamic promptsで複数のテキストファイルを使いたいんだけど上手くいかなくて困ってます
例えば人物のポーズとカメラアングルで「1girl,{pose},{camera}」と書いても最初の{pose}しか反映されない
テキストファイルを複合して使えないってことはないよね?基本的なこと見逃してるのかな…… 学習ガチャは時間も掛かるし電気代も掛かるし正解の方向が見えないからツライ
上手くできているLoRAの方法を真似ても全然駄目だったりするし >>467
{__ファイル1__|__ファイル2__}, __ファイル3__,……
とかやっても全部効いてるよ >>467
470が言ってる通り、ワイルドカードは前後2つづつのアンダーバーまで含めないといけないんだが、{pose}だとただのプロンプトでしかないわけで 例文の方が間違ってたごめん
実際は{_pose_}と記述してあってダメだった……んだが
よく見たら2つ目の指定ファイル名を1文字ミスってるだけだった(face→fece)
重ね重ねごめん、俺っていつもこうなんだ,blush,water eye,embarrassed DiffusionBeeでLoraの追加方法が探しても見つからないのですが、やり方書いてあるところありますでしょうか? CIVITAIでフィルターをXL以外選択してるのにXLのモデルまで出てくるのどうにかならないの?…
フィルターの意味ないじゃんかぁああああああああああ…… 投稿者がタグを自由につけるものだとしたらフィルタリングの意味がないからどうしようもない
アップロードされたものを誰かが監視して正しいタグを全部つけてくれる仕様ではないだろうし
それこそAIの出番ともいえるw LoRA学習で triton 使ってる人いる?
pip じゃインストール出来なかったんだけど
triton 使ったとしてどのくらい速くなるの? 3060 12GB で >>475
civitaiの検索は吹っ飛んでいる事があるから >>477
ubuntuなら使えるんだっけ?
劇的に速くなるならwsl上のubuntuで動かすとか流行ってそうだけど 〉462
パラメーターはdim128alpha64,leaning late0.0002 adamWとggったサイトそのまんまでやりました。
上記でlossが0.005ぐらいでしたがそれ以上減る様子がなかったです。lossってどうやったら減るんですか
〉463
初心者質問で恐縮ですが、txtは覚えさせたいものを消す、でいいんですよね?black eyesとかeyesがつくものは取っています。学習させたくなかったのでlooking at viewerは何もしてなかったです。 adamWがよく推されているがLionのほうが良くない?と最近感じる
ただ納得行くレベルには仕上がってないw Lora作るのに25枚くらいの画像で3060 12GBだと何時間くらいかけるのが普通ですか?
学習ステップ7000
2時間かけたんだけど微妙で
やり過ぎも良くないんですよね? 拡張機能のNegPipを導入して、アクティブにチェック入れて生成しようとするとTypeError: unsupported operand type(s) for +: 'NoneType' and 'Tensor'’とエラーが出てしまいます
原因や解決方法ご存じの方いたら教えてください >>485
最近のお気に入りの設定は
教師画像10枚 くり返し10回 エポック30
lr 0.0005 dim 128 alpha 1 constant AdamW8bit
これをバッチ 5 でやって10分くらい
グラボは3060 12GBね 即戦力でSD1.5用を作ってるのか次のためにSDXL用を作ってるのかによっても話が変わってくると思うけど
SDXLでもその辺の基本的な設定はあんま変わらんものなのかな >>476
でもそのタグ学習はアフリカの貧しい人達にやらせてたりするのがOpenAIだったりする。
法律や規制で先進国ではできないから >>485
昨日始めたばかりのLora学習初心者だけど、某所に書かれてたのを参考に
・画像20枚(たまたま)、フォルダ名1_で1回
・BLIPでtxt出して手作業でカンマ入れたり、調整したり
・Epoch40~80(学習画像による、上手くいかない都度LoRA network weightsで追加学習していく)
・Text Encoder learning rate 1.0
・cosine_with_restarts、DAdaptation
・Network Rank 128、Network Alpha 64
(1回で8分~20分くらいかな、中途LoraもSave every N epochsでいくつか残しておく)
が一番うまくいってる、使い方が本当に合ってるのかわからんけど
3060(12GB)だから試行錯誤に時間かかるので自分で突き詰めるのしんどい、学習画像でコロコロ変わるっぽいし
lossは眺めてるけど収束具合がまだよくわからん、グラフでも出てくれたらなぁ
DAdaptationは今や一周回って人気ないみたいだけど、自動だから過学習しにくい?
batchはDAdaptationだから上げるのは無理かな?弊害あるっぽいので元々1で回してたけど
出てきたLoraの顔が似なかったりしたら、無理矢理<Lora:xxxx:1.5:lbr=yyyy>
(yyyyは顔意外おおよそフィルタしたlbw)とか1以上にして無理矢理調整してる、自分用で配布する気もないので
自分でLora作れず他人様のをこねくり回してた期間が長いのでLora Block Weightの謎の経験蓄積があったりw
Advanced Configurationにもweightあるみたいだけど画像によって変わるのに追随する自信がないのえあえて使わない >>487
>>492
時間かけるだけじゃ駄目なんですね
参考にさせてもらいます
ありがとうございました 何枚も作成すればするほど思ってたのと違ってくる現象 関係なさそうなプロンプトが意外と影響してるよな
ミススペルしてるやつとか >>492
>>492
> lossは眺めてるけど収束具合がまだよくわからん、グラフでも出てくれたらなぁ
WANDB API Key
kohya_ss で「API key」を取得すればできたよ。 >>487
著作権法上何かあったとしても、法律上クリアな治験とかでアフリカ人使うよかよっぽど倫理的だと思うわ なんなら「英語さえ読み書きできればAIタグ付け奴隷の仕事がある」ってアフリカではかなりマシな労働まである みんな3060-12GBで不満ない感じ?
512*768を4倍にアップスケールするのに1分もかからない感じ? たぶん俺だけぽいので知ってたらで教えてほしい
lora学習でnエポックごとに保存って設定すると
「〇〇-000001.safetensors,〇〇-000002.saferensors,…」って感じでファイル出てくると思うんだけど最後に出てくる〇〇.safetensorsだけ急に質感変わる現象って何が原因?
ちなみに適用するとパッと見は凄いいい出来だけどプロンプトの効きはめちゃくちゃ悪い ローカルで始めたけどanything-v5モデルフォルダに入れたら自動DLしたモデルは削除でOK? >>497
ありがとう・・なんかわからんけど、検索してやってみる 眉毛だけの学習させたいんだけどタグにアイブロウ出なくて詰んだw >>506
URL貼ると書き込めないので・・・
「誰でもわかるStable Diffusion Kohya_ssを使ったLoRA学習設定を徹底解説」
のWANDB API Keyのこうもくを見ればできるよ 馬鹿な俺でもできたから >>500
素直にアップスケールすると1分半ぐらい
2段階アップスケールなら1分弱 わいはそれの3倍すら10分かかる
出来るまでずっと空眺めてる
なぜかi2iだけは生成完了の通知が来ないので困る RTX3050 Latentの設定 1回目 96 96 48 2回目 128 128 64
512*768 → 1024*1536 30秒 → 2048*3072 2:40 合計 3分10秒
768*768→1536*1536 1分そこそこ → 3072*3072 5分そこそこ 合計6分強
>>511
その間にペイントでごにょごにょしたりしたらええやん
メインメモリ32GBあったらつべで音楽聞きながら生成画像を2GBの仮想ドライブに吐かせて2Dゲーム周回させてても余裕やで >>500
4090吐血しながらポチったけどそれでも一瞬じゃないのでAI専用ハードはよ出て欲しい
頑張れジムケラー >>500
Hires. fixで512x768 から4倍の 2048x3072 は4090でも余裕でアウトオブメモリーなので
tiled vaeかましても大体40〜60秒はかかるぞ
hires前
https://i.imgur.com/fbULbBH.png
hires後
https://i.imgur.com/214owsc.jpg Lycorisが良いと聞き学習を試したものの1ヶ月ほど試行錯誤してみてLoRAの方が良くない?となりつつあるw 生成ボタン押しても何も出ない
cmdのDownloading pytorch_model.binが完了するまで待つしかない? 何かが進行してるならそのとおり
コマンドラインの部分はマルチタスクじゃないから Google colab課金勢ってどれくらいいるのかな?
自分のペースだと2日くらいで停止になること多いから3つアカウント作って使い回してるとそんなに困らない。 規約に「複垢使いまわしでcolabってるの見つけたらBAN(意訳)」って書いてあるから気をつけろよ >>520
50時間でcolabのCUを使い果たすってこと?
それならアカウントを分けなくても追加課金できるはずだが LORAのコツを知りたいです。
LORAの作り方って特定の顔のくせみたいなのを学ばせたい場合は顔だけを切り取った物を学ばせるわけですよね?
正方形に切り取って背景できるだけきれいに抜いて、taggerでキャプション作って、それでKohya_SSで適当なプリセットで回す。
って感じですよね?
生成時にそのLORAとtagを使っても、なんかお腹に顔がくっついてるみたいな変なキメラが生まれちゃいます。 切り取ったせいで顔がどこにあるかを学べてないのでは・・・ >>524
知らないんならいいや
4090勿体ないね 生成するとき解像度は1000より1024にしたほうがいいですか?
1024にするとうまく絵が出力できたり、生成速度が速くなるとかあるんですか? >>523
体付きの画像を使って
タグから顔の特徴を削除してトリガーワードに集約してみては >>522
スレたいとは関係ないけどこのスレで最近こういったレス番のおかしな物を見かけるけどどうなってるの? >>523
上半身~バストアップ推奨
(全身は顔の比率が小さいので非推奨)
背景はシンプルであれば気にしなくて大丈夫
(あまりにごちゃごちゃしていれば切り抜いた方がいいかな)
あと画質は重要
画質が良くないものは切り捨てる
素材画像が減っても高画質で揃っていた方が仕上がりは良い tiledで拡大ってそんなにいい?
解像度はhiresのがいいと思うんだが、設定かえればtiledでもよくなるんか? 512*768の4倍程度でアウトオブメモリーになったことないなぁ
ハード性能使い切れない環境になってそう >>528
>>530
ありがとうございます!
なるほど、体との繋がりみたいのが学べてないのはありそうです。
癖のある男性の顔なのでちゃんとした顔と認識されてないとかはありそうなので試してみます。
キャプションのテキストとかは整理するほうがいいんでしょうか?
細かく見ると全く関係ないワード(狐耳とか、ポケモンとか)が入ってたりするんですけれど >>531
tiledの方がvramが少なくていいというのもあるけど
tiledの一番のメリットは構図が変化しないことじゃないかな
お手本があって構図を変化させずに高画質化したいならtiled プロンプトの英語で
前置詞の扱いが難しいんだけど
英語勉強してた時も
前置詞で苦労した覚えある しっかりとした背景入れるようにプロンプト入れると、lora込みの人物のクオリティがかなり下がるんだけどみんなどうしてるんだ
背景はinpaintとかであとから入れてるのか?
先に人物作ってシード固定とかしてあとから背景入れてたりするのか
追加で服のlora入れたりするより、背景入れたほうがクオリティ下がる程度が大きい >>532
hiresならvram24でもアウトオブメモリーじゃね? >>534
サンクス
そうなのかー、個人的にはhiresのほうが描写が細かくていい感じに仕上がるんだよなあ
tiledだと細かい所がちょっとぼける
設定のせいかなあ? ■ このスレッドは過去ログ倉庫に格納されています