【Midjourney】AI画像生成技術5【StableDiffusion】
■ このスレッドは過去ログ倉庫に格納されています
英語の文章が画像に!
背景に使うか?イラストのアイデア出しはもちろん、
与える英文を捏ね捏ねして思いがけず生成される秀逸画像ガチャで遊ぶのも楽しい
有料サブスクで商用利用まで可能なAI画像生成サービス
★★★ 注意 ★★★
ここは既存のAI画像生成サービスの”””具体的な”””技術や動向について語り合うスレです
漠然としたAI画像生成の未来や、イラストレーターの職権侵害等の一般的な話題は明確に【禁止】します
(以下のスレッドへ移動してください)
AIイラスト 愚痴、アンチ、賛美スレ
https://mevius.5ch.net/test/read.cgi/illustrator/1661305344/
前スレ
Midjourney】AI画像生成技術交換3【StableDiffusion
https://mevius.5ch.net/test/read.cgi/cg/1661762186/
テンプレまとめ
https://rentry.co/zqr4r
編集コード「5ch」
Midjourney】AI画像生成技術交換4【StableDiffusion
https://mevius.5ch.net/test/read.cgi/cg/1662332320/ シンプルな絵柄だし日本だけでも10万人はいると思う 絵柄っていうより、3DCGモデルで作ったアニメ絵みたいな感じ
非常にまねされやすいタイプのCG顔 アニメ系厚塗りは言ってみれば違う人間が描いていても破綻しづらく量産しやすい効率特化の果てに生まれてきたわけだから、まあみんな似通ってくるのは当然といえば当然なわけで。
SDさんも厚塗り放り込んどくと結構安定する >>368でモンスターが人に化ける原因をprompt matrixで調べてみた。
'd & d character' と 'alphonse mucha' が原因だったよw
https://i.imgur.com/yrdmcYy.jpg ああ…… 'jeremy mann' と 'artstation' もそこそこ人化の原因になってるか? まさに、「どっかにこの絵柄で描いてる人居るよね」を目標にシンプルで維持されやすいテンプレートプロンプトを作ってるところなんで
その評価は狙い通りではある
本日の収穫 schematics(設計図)
十分に強いプロンプトに隠し味的に混ぜると書き込みの線が細くなり全体的に若干フラットになる
弱いプロンプトだと謎の設計図に化ける
無し https://i.imgur.com/rmpTxXr.png
schematics https://i.imgur.com/n17KN55.png >>614
設計図に化ける場合は [schematics] でいけるんじゃね? waifuでは線の細い少女小説のヒーロー系イケメンを出すのがかなりムズイ。
ショタに振れるかオヤジに振れるか、体育会系のイカツイ兄ちゃんになってしまう。 中国のあの画像生成AIなら原神や崩壊3rd食わせまくってるみたいだからイケメンも作りやすいかも ああ!>>612はtrinart2_step95000を使ってるから、>>368のsd-v1-4やwd-v1-2-full-emaとはまた少し絵の雰囲気が違ってるかも どっかに画像張られてたけど、waifuで男子を召喚しても非モテ眼鏡男子みたいなのが出てくるだけだしな
男女格差が極大の世界やで >>584
negativeにextra headって入れても意味ない? stepで変えるのは扱い難しそう。ちょっとずつ変化したバリエーション画像をたくさん生成の方がいいな prompt editingはどこで実行するんだろう。txt2imgのpromptに a [fantasy:cyberpunk:16] landscape って入れるのは違うようだし。 exampleの[fantasy:cyberpunk:16]はミスなんじゃないかな(正しくは小数点?)
プロンプトに[fantasy:cyberpunk:0.16]って書いて、step100で回すと1枚出力される
その1枚を出力する過程で100ステップまわるけど
1から16ステップはfantasy、17~100はcyberpunkって入力されたことにして処理するんじゃない?
試してないから実際は知らない プロンプト変形はアニメーションフレーム作るのに有用そう わかった!1枚ずつ描けってことだな!
seed値固定して
a [fantasy:cyberpunk:0.0] landscape
https://i.imgur.com/slx6lGB.png
a [fantasy:cyberpunk:0.2] landscape
https://i.imgur.com/Y8W4zBb.png
a [fantasy:cyberpunk:0.2] landscape
https://i.imgur.com/pei57CQ.png
以下略! あ、最後のは
a [fantasy:cyberpunk:0.4] landscape
です。 なんか、1.0を指定すると最初の絵に戻っちゃいますね。
a [fantasy:cyberpunk:0.99] landscape
https://imgur.com/di8QZdi あ、そうか。100ステップだから0から始まったら最後は99なのか。 犬猫ハイブリッド
a portrait of [dog:cat0.5]
https://imgur.com/ULUvFYb.png プロンプト間違った。
a portrait of [dog:cat:0.99]
https://imgur.com/I32n8yT.png
a portrait of [dog:cat:0.0]
https://imgur.com/7ESeXRB.png
a portrait of [dog:cat:0.2] あたりでちょうど半々に混ざった感じになった。
https://imgur.com/MYvmwj3.png anime modelは結局無かったことになった? 背景がフォトバッシュと称するただのトレスが当たり前になったみたいに
キャラ絵もAIの絵にちょっと加筆して自作主張するAIバッシュが当たり前になっていくんだろうな
今でもツイッターの有名絵師は背景は写真、CG、キャラ絵は3Dトレスな人が大量にいるし 自分の絵に組み込みたいんだが現状手ごろなオプションがKrita pulginしかないのがな
クリスタとブラウザでいちいち画像やりとりするとか面倒すぎるし アーティストを複数人入れてて、最後にHokusai入れてるけど
Hokusai感が強すぎ…
ちょっとだけHokusai、というか複数アーティストの比率って決められます? >>639
1111版なら、xxxx, yyyy, [[hokusai]] とかでいいんじゃない? >>639
あとは画家2人なら、1111版についたばかりのprompt editingで
portrait of a pretty girl, [greg rutkowski:alphonse mucha:0.0]
https://imgur.com/RhkT1e7.png
portrait of a pretty girl, [greg rutkowski:alphonse mucha:0.3]
https://imgur.com/tpZ5dQ6.png
portrait of a pretty girl, [greg rutkowski:alphonse mucha:0.6]
https://imgur.com/8NA18FG.png
portrait of a pretty girl, [greg rutkowski:alphonse mucha:0.99]
https://imgur.com/ubkbna1.png
とか >>641
詳しくありがとうございます!
あとでやってみます! >>638
言語―画像に使ってるCLIPが高精度版リリース、は分かるけど、
学習時の精度向上で今後リリースされるモデル2.0とかが良くなるのか、
同梱されてるCLIP更新で現時点のモデル1.4でも画像生成の精度が良くなるのかどっちなのかニワカすぎてわからない
○CLIP Vit-Hリリース
・ViTとは:Vitsion Transformer。それまでの画像認識に多く使われてきたCNNとは違い、Transformerベース。未知の画像(=zero shot)を分類できる。初めてシマウマを見て縞模様の馬の一種と判断するようなこと。
・OpenCLIP(StableDiffusion、DALL-E2に含まれている)のよりよいバージョンがリリースされた。
・L/14=ロスワイトマン氏による学習、H/14,G/14=Romain Beaumnt氏による学習(パラメータ違い)
(ViT-Gはzero shotではViT-Hより悪いが、学習時間が短く、一部の検索タスクでは非常に上手く機能する)
・一般に利用可能なCLIPはViT L/14 336で、61.6%。今回のViT Hは73.4%で+11.8%もよい
(参考)CLIP以外の方式として最も優れているのは、BASIC、COCA(zero shot 86%程度)
○今後
・CLIPがスケールすることが証明されたので
・多言語で機能するテキストエンコーダーへの変更(multilingual-CLIP等)
・小さいCLIPから大きなCLIPからへの知識抽出による学習時間の短出
・オーディオ(CLAP)
https://github.com/mlfoundations/open_clip
https://laion.ai/blog/large-openclip/ >>643
CLIPには二種類の役割がある
画像を入力されてそれを特徴分布に分解する機能と
テキストで特徴分布に入出力する機能
StableDiffusionではCLIPを使ってテキストから特徴分布に直してそれを元にdiffusionをかけてるので
精度が良くなるということはプロンプトの理解が良くなるということに等しい >>643
DiscordでEmadさんが答えてた
・新しいCLIP(ViT-H)はV3。プロンプトの理解がより良くなる
Q V3の前にV2はあるの?
A ある。1024ネイティブで2倍の速度になる
Q 今回のCLIPを差し替えるだけでよくなるの?それともモデルの再学習が必要?
A MidjourneyのようにCLIPガイドを使ってないので、再学習が必要 prompt editingの説明をきちんと読んでみたんだが、whenに整数を入れる場合はその数字を1/100した小数を入れた時と同じになるんかね。
a [fantasy:cyberpunk:0] landscape
https://imgur.com/HlMRv7z.png
a [fantasy:cyberpunk:0.99] landscape
https://imgur.com/RbDnbzj.png
a [fantasy:cyberpunk:99] landscape
https://imgur.com/AIK5bfu.png
a [fantasy:cyberpunk:0.24] landscape
https://imgur.com/MxFgThc
a [fantasy:cyberpunk:24] landscape
https://imgur.com/aydopa6.png
1を入れたときに0と同じに見えたのは、実際は0.01を入力したことになってたからか。 ローカル版1111、1070Tiだとアカンやろ……って敬遠してたけど。
512x512なら、1.6it/sくらいは出るんだな。 waifuは元データが海賊版だから使いません!って騒いでるやついるけど
そもそもSDに大量の転載画像が含まれてることはどうお考えなんだろうか?
AI画像生成を辞めるなら分かるんだが、SDはOKというのは矛盾してね? 実際の処理が小数=>整数なのか整数=>小数なのかは知らんケド。 んでもステップ数なんだから、小数=>整数なのかな…… ざっと見た感じ
整数ならそれを変化するステップ数そのものとして処理
少数ならその値x1回の生成に必要なステップ数を変化するステップ数として処理
だから画像生成が100stepの場合は整数と少数で等しい挙動だけど、それ以外は異なる(場合もある)
https://github.com/AUTOMATIC1111/stable-diffusion-webui/commit/dc769e097c878927fcd222cd855eb794726e922b pull requestの例にも示されてるけど
ブロックでできた四角い物体と
ブロックでできた丸い物体は
そもそもとして概念が結構違うので四角いと丸いを入れ替えるとブロックの模様や画角とかも一緒に変わってしまう
それを、ブロックでできた丸い物体を作らせておいて、後半のステップで四角い物体にプロンプトを入れ替えることで
既に作られているブロックの模様とかを引き継いで四角く加工できると
使い方によっては特定のキャラの顔維持とかに使えそうではある textual inversionも似たようなことやってたな >>653
ああ、このステップ数ってひょっとしてSampling Stepsで設定してる値のことなのか。
俺がたまたま100に設定してたので同じ結果になったんだなぁ…… >>594
AI関係なしに、最近めっちゃ増殖した絵柄w 1111版の最大bachcountの値変更するbatのオプション引数はなんじゃろ バッチサイズ変えると出力結果も変わっちゃうんだな
もうやらないように1に固定しとこ >>662
>>250-251情報によると1111版では euler_a の場合だけダメらしいで。 prompt editingは動画用途は無理だ
やり方悪いのかもしれないけど動画にできるほどの数のフレーム生成できないな と思ったらもしかして治った?
Make K-diffusion samplers produce same images in a batch as when making a single image
って項目が設定に追加された 微妙に治ってなかった…
countを2、sizeも2だと
4枚のうち後半の2枚は違うのが出る そもそもbatch size上げるためにmedvramやらsplit attentionやら有効にした時点で出力が微妙に変わるのか だからeuler_aでしょ?>>663の通り
ram云々はたぶん関係なかったはず
lmsでやってみてどうなるか euler a用で組み立てた呪文だと
他のやつだとかなり出てくる画像の雰囲気が変わっちゃうんだよね。塗りからして違う
主要な何個かのサンプラの中では、突出して違う絵が出てくる バッチサイズで増やした2枚目以降のseedは実装に依る
ということは1111が更新されたらパラメータ再現しても同じ画像できなくなる可能性があるんだろう
完全に罠だわ >>667
残念ながら不動小数点演算は計算の順序が変わると結果が変わってしまう
((((a+b)+c)+d)≠((a+b)+(c+d))
普通ならばそれは大きな影響を与えないのだが
拡散モデルの場合には微小な値の差が最終的にはそれなりに大きな影響を与える euler大好きマンなんでバッチは使わないことにしてる
良くて1.5~2割スピードアップくらいなんで・・いや使いたいんだけど、はよ治して 微妙な呪文でもeular aにするだけで映えちゃったりするからな。厄介な代物だとわかってるけどつい使ってしまう。 LAIONが進めてるのがCLIP Guided StableDiffusionってヤツか
普通なら備え付けのCLIPのテキストエンコーダーでプロンプトを一回エンコードして流し込んで終わり(後はサンプラーがそこに近付けていくだけ)なのを
逐次どんな画像になってるかをもっと賢いCLIPに見せて注文通りになってるか確認して補正しつつ進めていく方式
学習やり直し無しでプロンプトの理解と反映が向上するけど
waifuみたいな特殊環境への適応は監督役のCLIPも知ってないといけないので怪しそう waifuってdanbooruの学習データが入る分、他の情報が圧迫されてたりするのかな? これ試してみてほしい
(((intricate human hands fingers))) in positive
((((mutated hands and fingers)))) in negative
https://boards.4channel.org/g/thread/88636024#p88636398 1111のローカル環境更新したら、SD upscaleで黒ずんだ画像が出力されるようになっちった…… >>679
元レス見ればわかると思うけどプロンプトに組み込むものだから… 1111で急に眼がダブってうまくいかないようになったなぁってRestore facesにこっそりチェック入ってやがんの・・ 勝率はそんな高くないけど、時々普通の手が出てくるなw おかしな形の手を学習しまくって、ネガティブリストではじくっていうのが現実的な解決策なのかもな Emadのおっさん、新しいモデルがスーンスーンといつも言ってるけど、結局何か出てるの? >>686
プロンプトに加えてimg2とか部分的に加筆してガイドを用意したり
部分指定で再出力すれば5本指行けるのでは?
これってプロンプトのみでこの結果だよね? nekodrawがぶっちゃけあまり期待できなさそうなんだけど
他にクリスタプラグイン開発してる人いないのかな...海外ではマイナーなのか? >>688
soon→もうすぐ(DreamStudioで)β版
β終わって問題なければ→一般公開 >>687
midjourneyでは50%ぐらい進んでいて腕の数多いなぁと思っていたら0%から書き直しになったことある 久し振りにwin版のartroom起動したら、ネガティブプロンプト使えるようになってた
これもう、colabとかでも標準になるんじゃ >>689
txt2imgでプロンプト打って、>>678追加しただけよ。 何でトークン数の制限がこんなに厳しいんだろ
トークンが多いと上手く入力元の画像ノイズに変換できないのか? でっかいキャンバスに下絵の画像を読み込んで、512x512の範囲でimage 2imageを自分で選びながら貼り付けてでっかくするってできたら構図もポーズも解決するんだが…
ダリではそっち系に進んでる感じだけどSDには来ないかな。 >>695
カンマやスペースが数に入る仕組みがよくわからん
まさか(((abc)))
の()で6個とか数えてないよね・・逆に除外されてるならカンマスペースも除外できるのでは?って >>697 トークンってのは用意した辞書に載っている言葉の最小単位だからclipの辞書に(と((と(((が別に用意されていない限り
原理的には()が全部で6個あるなら6トークンなんじゃ?
試してないけど 強調のカッコ類はトークン化前にスクリプトで処理されてる、はず たしか、 ( が1個出てくると1回UP調整かけて、 ) が1個出てくると1回DOWN調整かけるとかになってた気がする。
なので、閉じ括弧が足りないと最後までUP調整がかかったまま実行される。 GPU周りでコンフリクト起こしてて、うまいことパッケージングまでもってけないっぽいね。
この辺、やっぱ環境依存が強いというか。 1111の()[]は事前処理されてるのでトークン数に入らない
簡単な確認は(((((((...((((((girl))))))...)))))みたいに大量に囲んでも長すぎwarningが出ないから大丈夫
後直接sd_hijack.pyも確認した
ただそのソース見てて小さな問題に気が付いたんだけど
制御がかかってるトークンをハッシュ値にして重み制御してたから
例えばこんな画像を
A hen laying eggs, sunny-side-up fried eggs, on the table
https://imgur.com/tVbuh7W
詰まれてる卵だけ強調したくても後ろのeggsにも掛かっちゃうね
A hen laying (((((eggs))))), sunny-side-up fried eggs, on the table
https://imgur.com/A9IJxa3 後の方はネガティブで括って打ち消せないかな? 両方のエッグが相殺されるだけかな? トークンをハッシュ値っていってるから
やるならthree fried egg(単数形などほかの単語にして無理やりトークン変える)
みたいなかんじじゃないのかな fried-eggsみたいにしちゃえばトークンは変わるのかな? ■ このスレッドは過去ログ倉庫に格納されています