【StableDiffusion】画像生成AI質問スレ17
■ このスレッドは過去ログ倉庫に格納されています
Stable Diffusionをはじめとする画像生成AIに関する質問用のスレッドです。
次スレは>>950が立ててください。
質問する人はなるべく情報開示してください
・使っているアプリケーション(1111ならローカルかcolabか、ローカルならどこから/何を読んでインストールしたか、colabならノートブックのURLも)や使っている学習モデル
・状況の説明は具体的に。「以前と違う画像が出力される」「変になった」では回答しようがない。どう違うのか、どう変なのかを書く
・状況やエラーメッセージを示すキャプチャ画像
・ローカルならマシンの構成(GPUの種類とVRAM容量は必須、本体メモリの容量やCPUもなるべく)
テンプレは>>2以降に
※前スレ
【StableDiffusion】画像生成AI質問スレ16
https://mevius.5ch.net/test/read.cgi/cg/1692012289/ 1.6.0にしたらmov2movのタブ消えて使えなくなったんだけど今使えてる人います? controlnetのIP adapterどんな感じよ?
reference onlyと似てるらしいが 顔だけのLoRA、体だけのLoRA、これらをマージしたら完全体で描かれるLoRAになるでしょうか? prompt-all-in-one、これ導入したら超快適。 最新のwebUIにアプデすると、stable-diffusion-webui-wd14-tagger の拡張機能のタブが消えて使えなくなる不具合ってありますか?
他の拡張機能全て無効化しても表示されたりしなくて学習画像のキャプションどうしようか悩んでいます このスレ検索するといいかも
同じような質問繰り返し出てるはず >>409
ありがとうございます。
私は5chも初心者なもので申し訳ないのですがスレ内検索のやり方を教えていただいてもよろしいでしょうか・・・ >>410
>>263にとりあえずの回避方法あるみたい Ctrl+Fも知らないような奴が環境構築して生成してるとか怖いな…
1個でもトラブル起こったら全部人に聞きまわるしかないやろ バッテリーや空気圧や交通法規すら知らない人間が運転しまくってる現実よりはマシさ てっきり5chスレ内検索機能があると思っていたらなんかページ内検索で探せって言われてるのは驚きました >>412
文字揺れがあるから実際には検索は無理じゃね?
ログを常時LLMに食わせることができるようになればいいのにな >>418
今回のケースならtaggの部分だけでスレ内検索するとうまく見つかるよ
あと普通のグーグル検索でもstable diffusionのバージョンとtaggerの不具合のことを検索しても解決作が書いてあるサイトが出てくる 質問スレで検索しろって言い放つのすごい気持ちよさそう >>420
ググれば出てくることを聞いてくる意味よ >>8
10年前のだけど余裕だよ
CPU XEON 2690 V2 10core
Main Memory 128GB
Quad Channel 帯域60GB/s
GPU RTX4090 24GB
帯域1008GB/s
OS用 SATA SSD 500GB
SD用 SATA SSD 500GB
DATA用 NVMe Gen3x4 2TB
DATA用 HDD 4TB + 3TB
これで、生成ほぼ最速で動いてる
メモリ量と帯域があってGPU 速ければ問題無し 今から7年前って多分6・7世代 Core i だと思うけど4コアなら余裕だと思う
2コア2スレッドでもできるだろうけど拡大やLama等CPUを使う動作はもっさりする可能性はある
ドライブはHDDでもできるけどSATAでもいいからSSDのがいい Kohya's GUIでLora作ったら2GBになって
使ったら全然効いて無かったです
epoch 5でTrain batch size 2
画像24枚
フォルダ名 100_AAA
学習ステップ6000になりました
どこかおかしいでしょうか? Mサイズはあれどmカップというサイズは実在するのですか? >>420
普通は同じ質問無いか確認してから書き込むからね
>>426
多分Dream Boothになってる気がする >>427
大変申し訳ございません。
あなたとは分かり合えないようです。 >>429
あー
そっちも多分設定してました
ありがとうございます >>432
ありがとうございます。好みではありませんでした。
安心してスルーできます。ゆっくり眠れそうです kohya_ssのTraining Parametersで
①Learning rate デフォ0.0001
②Text Encoder learning rate デフォ0.00005
③Unet learning rate デフォ0.0001
になってるけど、学習強度を上げたいときは、Learning rateだけ大きくすればOK?この場合0.001とかに
https://hoshikat.hate
nablog.com/entry/2023/05/26/223229#Text-Encoder-learning-rate
このサイト(貼れないので改行分割)の
> ここで数値を指定した場合、Learning rateの値よりもこちらが優先されます。
が気になって・・デフォで入ってるのに②③が①より優先って意味が分からない
②③を両方空欄にすると
if not (float(text_encoder_lr) == 0) or not (float(unet_lr) == 0):
TypeError: float() argument must be a string or a real number, not 'NoneType'
ってエラーが出た、0だと0で優先になっちゃうだろうし >>434
初心者という想定でのレスになるけど、学習をしっかりしたいなら学習率を大きくすればもっと学習するって思ってるなら、学習率ってのはそういうものではないよ
学習率ってのはざっくり言えばゴールにたどり着くための一歩の歩幅だから、大きすぎるとゴールを通り越す(収束しない)し、小さすぎるとゴールにたどりつけない(局所解にハマる)ので、
ちょうどいい数値がいいんだけど、それは素材や学習状況によるので、試してみて試行錯誤するしかない。それか、使ったことないが、うまいこと調整してくれるオプティマイザーはあった気はするが。 >>434
追記だけどリンク先のはなしはUnetとTextEncoderの学習率を別に設定する話だろうけど、まあ書いてある通りだが、ほぼ初めてなら、それは慣れてからでいんじゃね >>435
別人だけどすげーわかりやすい
dimとかconv dimは学習する際の細かさって理解でいいんかな >>437
dimはネットワーク(ベクトル)の複雑さだからあれやこれや細かいことを覚えさせたければそれないりにdimを上げなければ覚えられないってことで
そういう意味では細かさという理解であってると思うよ
ただdimの大きさに見合った素材量とかないと逆に悪化すると思われる、ただ実際dimはいじったことないから、そのはずってレベルの理解だが Learning Rate を変化させるなら
0.0001
0.0005
0.001
の3パターンくらいで試せばいいんじゃないかな?
最大ステップ数は3000~5000??
その他の要素は全て同一で
(seed値固定を忘れずに!!) ID:r/w9zbpf
レスありがとう、で肝心の質問なんですが
①の0.0001を0.001にしたとき、この数値は②③に関係なく「効いてる」でいいんですか?
②③はよくわからないから
> それは慣れてからでいんじゃね
の通り、とりえあず無視して学習強度を試行錯誤したいんですが
> ここで数値を指定した場合、Learning rateの値よりもこちらが優先されます。
これが意味不明なんですよ >>440
言葉通りなんだと思うよ
1はそのままにして2と3で調整する感じか最悪全て同じにするか(あんまり勧めないけど)
1だけ変えても2と3が設定されてればそっちを参照するの1だけ変更するのはあんまり意味ないと思うよ >>440
TextEncoderもUNETも「ここで数値を指定した場合、Learning rateの値よりもこちらが優先されます。」と書いてあるから、指定しなければLearning rateの数値が全てに適用されると思ってるけど >>441
やっぱそういうことですか、今3つ全部0.001にして回してます
②③に値が入ってて空欄不可(optionalなのに)で、②③優先なら①の欄自体が要らないのでは・・
なんにせよ初心者なんでまず「あえて間違えたい」んですわ
過学習させてエポックごと保存の-00000xを逆に戻りたいというか
>>442
その「指定しなければ」ってのがそもそもできないですよね?
あれ?私なんかとっても変な勘違いしてる?w >>443
そうなん?スマンな、なんJニキのGUI(Kohya_lora_param_gui)でお手軽にやっちゃてたからコマンドラインの指定はそこまで詳しくないんだわ >>443
個人的にはlrを調整して色々試してもあんまり違いを実感しにくいと思うんだよね
学習強度を云々よりもう少し学習させたいって感じなら総STEPを伸ばして中間を2エポック毎とかこまめに取って確認する方がいいかなと もしかして、空欄ではなく
②0
③0
でいいのかな?かな?
マウス合わせたら、「有効な数値を入力してください。有効な数値として最も近いのは0と1です。」
って謎日本語ポップアップが出るけど・・ >>325
俺も去年20000超えてたけど
今年は18000
4090は節電効果あるね Regional Prompterについて質問です。
アニメキャラ2人を描いた画像を生成したいのですが、うまくいかない時があります。
プロンプトでキャラLora AとBだと生成できるのに、AとCや、CとDなど、その他の組み合わせだと全てエラーになってしまいます。
cmdのエラー文の最後が以下の通りです。
原因が解る方がいれば教えてください。どうかお願いします。
File "D:\Stable Diffusion web UI\stable-diffusion-webui\extensions-builtin\Lora\network.py", line 157, in forward
raise NotImplementedError()
NotImplementedError >>449
コメントありがとうございます。
確かにcivitaiで確認したら、確かにAとBだけLORAで、その他はLYCORISでした!
全てLORAフォルダに入れて、1人だとLYCORISでも生成できたのですが、タイプが違うと難しいでしょうか? Loraの発展系がLOHASとかだから、二つを混ぜるとLOHASにあって Loraに無い要素が出てくる
要素が足りねえぞゴルァってされてるってのがエラー文の中身だから、その辺りかなって辺りつけた
要するに同じタイトルのゲームだからってPCとPS4のゲームのセーブデータを交換できるとは限らんみたいな >>451
なるほど、わかりやすい例えありがとうございます。
ちなみにLyCORISをLoRAに変換?する方法などはあるんでしょうか? いくら専板でもコメントありがとうございますは5chで初めて見たかもしれん
良いですねぇ~ LoRA作る時に反転画像のオプションがあるけどあれチェック入れた方がいい?入れな方がいい? novelAIでオンラインで生成するよりなんか奇形が多い気がするんだけどそういうもんなのかな?
novelAIで使ってたプロンプトを変換して使ってるんだけど Lora学習の確認するときSave every N epochsを1とかにして、それぞれのデータを1つずつ確認してたりする?それともTensorBoardみりゃわかるとかある? >>456
NovelAIにはNGプロンプトが隠しで入ってるから >>455
自分は左右にこだわり無いので問答無用に
チェック入れて学習素材の数を水増ししてる
素材の数が少ない場合は仕上がり相当違うんじゃないかな
比較したことは無いが
サイコガンは絶対左腕!とかいう場合は入れちゃダメ >>454
別の板でも同じこと聞いてたマルチポストマンだから全然良くないけどな lora作成で質問です。画像20枚くらい、2000ー4000stepsで上半身と顔多めで作っても目だけ似ません。kohya sdscriptとtraintoolsどちらでやっても似ません。何が原因でしょうか。 可能性
・タグ付けが悪い
・lossがまだ大きい
・学習のパラメーターが悪い 目をちゃんと学習してるのかな brown_eyesとかlooking_at_viewerだとかbangsだとか目に影響するものは多い
中でもlooking_at_viewerは鬼門になりやすく、寄り目になって失敗したりするので、外して学習したほうがいい 1.6.0の起動時にブラウザが自動で立ち上がらないようにしたいんだけど Dynamic promptsで複数のテキストファイルを使いたいんだけど上手くいかなくて困ってます
例えば人物のポーズとカメラアングルで「1girl,{pose},{camera}」と書いても最初の{pose}しか反映されない
テキストファイルを複合して使えないってことはないよね?基本的なこと見逃してるのかな…… 学習ガチャは時間も掛かるし電気代も掛かるし正解の方向が見えないからツライ
上手くできているLoRAの方法を真似ても全然駄目だったりするし >>467
{__ファイル1__|__ファイル2__}, __ファイル3__,……
とかやっても全部効いてるよ >>467
470が言ってる通り、ワイルドカードは前後2つづつのアンダーバーまで含めないといけないんだが、{pose}だとただのプロンプトでしかないわけで 例文の方が間違ってたごめん
実際は{_pose_}と記述してあってダメだった……んだが
よく見たら2つ目の指定ファイル名を1文字ミスってるだけだった(face→fece)
重ね重ねごめん、俺っていつもこうなんだ,blush,water eye,embarrassed DiffusionBeeでLoraの追加方法が探しても見つからないのですが、やり方書いてあるところありますでしょうか? CIVITAIでフィルターをXL以外選択してるのにXLのモデルまで出てくるのどうにかならないの?…
フィルターの意味ないじゃんかぁああああああああああ…… 投稿者がタグを自由につけるものだとしたらフィルタリングの意味がないからどうしようもない
アップロードされたものを誰かが監視して正しいタグを全部つけてくれる仕様ではないだろうし
それこそAIの出番ともいえるw LoRA学習で triton 使ってる人いる?
pip じゃインストール出来なかったんだけど
triton 使ったとしてどのくらい速くなるの? 3060 12GB で >>475
civitaiの検索は吹っ飛んでいる事があるから >>477
ubuntuなら使えるんだっけ?
劇的に速くなるならwsl上のubuntuで動かすとか流行ってそうだけど 〉462
パラメーターはdim128alpha64,leaning late0.0002 adamWとggったサイトそのまんまでやりました。
上記でlossが0.005ぐらいでしたがそれ以上減る様子がなかったです。lossってどうやったら減るんですか
〉463
初心者質問で恐縮ですが、txtは覚えさせたいものを消す、でいいんですよね?black eyesとかeyesがつくものは取っています。学習させたくなかったのでlooking at viewerは何もしてなかったです。 adamWがよく推されているがLionのほうが良くない?と最近感じる
ただ納得行くレベルには仕上がってないw Lora作るのに25枚くらいの画像で3060 12GBだと何時間くらいかけるのが普通ですか?
学習ステップ7000
2時間かけたんだけど微妙で
やり過ぎも良くないんですよね? 拡張機能のNegPipを導入して、アクティブにチェック入れて生成しようとするとTypeError: unsupported operand type(s) for +: 'NoneType' and 'Tensor'’とエラーが出てしまいます
原因や解決方法ご存じの方いたら教えてください >>485
最近のお気に入りの設定は
教師画像10枚 くり返し10回 エポック30
lr 0.0005 dim 128 alpha 1 constant AdamW8bit
これをバッチ 5 でやって10分くらい
グラボは3060 12GBね 即戦力でSD1.5用を作ってるのか次のためにSDXL用を作ってるのかによっても話が変わってくると思うけど
SDXLでもその辺の基本的な設定はあんま変わらんものなのかな >>476
でもそのタグ学習はアフリカの貧しい人達にやらせてたりするのがOpenAIだったりする。
法律や規制で先進国ではできないから >>485
昨日始めたばかりのLora学習初心者だけど、某所に書かれてたのを参考に
・画像20枚(たまたま)、フォルダ名1_で1回
・BLIPでtxt出して手作業でカンマ入れたり、調整したり
・Epoch40~80(学習画像による、上手くいかない都度LoRA network weightsで追加学習していく)
・Text Encoder learning rate 1.0
・cosine_with_restarts、DAdaptation
・Network Rank 128、Network Alpha 64
(1回で8分~20分くらいかな、中途LoraもSave every N epochsでいくつか残しておく)
が一番うまくいってる、使い方が本当に合ってるのかわからんけど
3060(12GB)だから試行錯誤に時間かかるので自分で突き詰めるのしんどい、学習画像でコロコロ変わるっぽいし
lossは眺めてるけど収束具合がまだよくわからん、グラフでも出てくれたらなぁ
DAdaptationは今や一周回って人気ないみたいだけど、自動だから過学習しにくい?
batchはDAdaptationだから上げるのは無理かな?弊害あるっぽいので元々1で回してたけど
出てきたLoraの顔が似なかったりしたら、無理矢理<Lora:xxxx:1.5:lbr=yyyy>
(yyyyは顔意外おおよそフィルタしたlbw)とか1以上にして無理矢理調整してる、自分用で配布する気もないので
自分でLora作れず他人様のをこねくり回してた期間が長いのでLora Block Weightの謎の経験蓄積があったりw
Advanced Configurationにもweightあるみたいだけど画像によって変わるのに追随する自信がないのえあえて使わない >>487
>>492
時間かけるだけじゃ駄目なんですね
参考にさせてもらいます
ありがとうございました 何枚も作成すればするほど思ってたのと違ってくる現象 関係なさそうなプロンプトが意外と影響してるよな
ミススペルしてるやつとか >>492
>>492
> lossは眺めてるけど収束具合がまだよくわからん、グラフでも出てくれたらなぁ
WANDB API Key
kohya_ss で「API key」を取得すればできたよ。 >>487
著作権法上何かあったとしても、法律上クリアな治験とかでアフリカ人使うよかよっぽど倫理的だと思うわ なんなら「英語さえ読み書きできればAIタグ付け奴隷の仕事がある」ってアフリカではかなりマシな労働まである みんな3060-12GBで不満ない感じ?
512*768を4倍にアップスケールするのに1分もかからない感じ? たぶん俺だけぽいので知ってたらで教えてほしい
lora学習でnエポックごとに保存って設定すると
「〇〇-000001.safetensors,〇〇-000002.saferensors,…」って感じでファイル出てくると思うんだけど最後に出てくる〇〇.safetensorsだけ急に質感変わる現象って何が原因?
ちなみに適用するとパッと見は凄いいい出来だけどプロンプトの効きはめちゃくちゃ悪い ■ このスレッドは過去ログ倉庫に格納されています