X



【Midjourney】AI画像生成技術5【StableDiffusion】
■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@お腹いっぱい。
垢版 |
2022/09/12(月) 08:58:08.25ID:7eP1MleX
英語の文章が画像に!
背景に使うか?イラストのアイデア出しはもちろん、
与える英文を捏ね捏ねして思いがけず生成される秀逸画像ガチャで遊ぶのも楽しい
有料サブスクで商用利用まで可能なAI画像生成サービス

★★★ 注意 ★★★
ここは既存のAI画像生成サービスの”””具体的な”””技術や動向について語り合うスレです
漠然としたAI画像生成の未来や、イラストレーターの職権侵害等の一般的な話題は明確に【禁止】します
(以下のスレッドへ移動してください)
AIイラスト 愚痴、アンチ、賛美スレ
https://mevius.5ch.net/test/read.cgi/illustrator/1661305344/

前スレ
Midjourney】AI画像生成技術交換3【StableDiffusion
https://mevius.5ch.net/test/read.cgi/cg/1661762186/

テンプレまとめ
https://rentry.co/zqr4r
編集コード「5ch」

Midjourney】AI画像生成技術交換4【StableDiffusion
https://mevius.5ch.net/test/read.cgi/cg/1662332320/
0610名無しさん@お腹いっぱい。
垢版 |
2022/09/16(金) 00:39:06.03ID:G+D7wC5p
絵柄っていうより、3DCGモデルで作ったアニメ絵みたいな感じ
非常にまねされやすいタイプのCG顔
0611名無しさん@お腹いっぱい。
垢版 |
2022/09/16(金) 00:44:24.76ID:ZdJynPrT
アニメ系厚塗りは言ってみれば違う人間が描いていても破綻しづらく量産しやすい効率特化の果てに生まれてきたわけだから、まあみんな似通ってくるのは当然といえば当然なわけで。
SDさんも厚塗り放り込んどくと結構安定する
0613612
垢版 |
2022/09/16(金) 00:53:00.24ID:7AkfYTUK
ああ…… 'jeremy mann' と 'artstation' もそこそこ人化の原因になってるか?
0614名無しさん@お腹いっぱい。
垢版 |
2022/09/16(金) 00:59:59.43ID:ATv5OjaU
まさに、「どっかにこの絵柄で描いてる人居るよね」を目標にシンプルで維持されやすいテンプレートプロンプトを作ってるところなんで
その評価は狙い通りではある

本日の収穫 schematics(設計図)
十分に強いプロンプトに隠し味的に混ぜると書き込みの線が細くなり全体的に若干フラットになる
弱いプロンプトだと謎の設計図に化ける

無し https://i.imgur.com/rmpTxXr.png
schematics https://i.imgur.com/n17KN55.png
0617名無しさん@お腹いっぱい。
垢版 |
2022/09/16(金) 01:06:02.27ID:ZdJynPrT
waifuでは線の細い少女小説のヒーロー系イケメンを出すのがかなりムズイ。
ショタに振れるかオヤジに振れるか、体育会系のイカツイ兄ちゃんになってしまう。
0618名無しさん@お腹いっぱい。
垢版 |
2022/09/16(金) 01:15:32.46ID:MQAp0p4b
中国のあの画像生成AIなら原神や崩壊3rd食わせまくってるみたいだからイケメンも作りやすいかも
0620名無しさん@お腹いっぱい。
垢版 |
2022/09/16(金) 01:28:21.08ID:G+D7wC5p
どっかに画像張られてたけど、waifuで男子を召喚しても非モテ眼鏡男子みたいなのが出てくるだけだしな
男女格差が極大の世界やで
0623名無しさん@お腹いっぱい。
垢版 |
2022/09/16(金) 02:15:19.99ID:8CiemT4/
stepで変えるのは扱い難しそう。ちょっとずつ変化したバリエーション画像をたくさん生成の方がいいな
0624名無しさん@お腹いっぱい。
垢版 |
2022/09/16(金) 02:27:53.72ID:7AkfYTUK
prompt editingはどこで実行するんだろう。txt2imgのpromptに a [fantasy:cyberpunk:16] landscape って入れるのは違うようだし。
0625名無しさん@お腹いっぱい。
垢版 |
2022/09/16(金) 02:39:04.27ID:8CiemT4/
exampleの[fantasy:cyberpunk:16]はミスなんじゃないかな(正しくは小数点?)
プロンプトに[fantasy:cyberpunk:0.16]って書いて、step100で回すと1枚出力される
その1枚を出力する過程で100ステップまわるけど
1から16ステップはfantasy、17~100はcyberpunkって入力されたことにして処理するんじゃない?
試してないから実際は知らない
0628627
垢版 |
2022/09/16(金) 02:59:33.00ID:7AkfYTUK
あ、最後のは

a [fantasy:cyberpunk:0.4] landscape

です。
0630名無しさん@お腹いっぱい。
垢版 |
2022/09/16(金) 03:06:06.57ID:7AkfYTUK
あ、そうか。100ステップだから0から始まったら最後は99なのか。
0633名無しさん@お腹いっぱい。
垢版 |
2022/09/16(金) 04:53:26.28ID:18wervgK
Emadさんによると新モデルが出るらしいな
0636名無しさん@お腹いっぱい。
垢版 |
2022/09/16(金) 07:00:40.63ID:u4tc8Ccp
背景がフォトバッシュと称するただのトレスが当たり前になったみたいに
キャラ絵もAIの絵にちょっと加筆して自作主張するAIバッシュが当たり前になっていくんだろうな
今でもツイッターの有名絵師は背景は写真、CG、キャラ絵は3Dトレスな人が大量にいるし
0637名無しさん@お腹いっぱい。
垢版 |
2022/09/16(金) 07:15:16.01ID:eHAlc869
自分の絵に組み込みたいんだが現状手ごろなオプションがKrita pulginしかないのがな
クリスタとブラウザでいちいち画像やりとりするとか面倒すぎるし
0639名無しさん@お腹いっぱい。
垢版 |
2022/09/16(金) 07:31:02.99ID:kwnwzZsv
アーティストを複数人入れてて、最後にHokusai入れてるけど
Hokusai感が強すぎ…
ちょっとだけHokusai、というか複数アーティストの比率って決められます?
0641名無しさん@お腹いっぱい。
垢版 |
2022/09/16(金) 07:42:16.65ID:7AkfYTUK
>>639
あとは画家2人なら、1111版についたばかりのprompt editingで
portrait of a pretty girl, [greg rutkowski:alphonse mucha:0.0]
https://imgur.com/RhkT1e7.png
portrait of a pretty girl, [greg rutkowski:alphonse mucha:0.3]
https://imgur.com/tpZ5dQ6.png
portrait of a pretty girl, [greg rutkowski:alphonse mucha:0.6]
https://imgur.com/8NA18FG.png
portrait of a pretty girl, [greg rutkowski:alphonse mucha:0.99]
https://imgur.com/ubkbna1.png
とか
0643名無しさん@お腹いっぱい。
垢版 |
2022/09/16(金) 08:42:02.58ID:lALpe0Io
>>638
言語―画像に使ってるCLIPが高精度版リリース、は分かるけど、
学習時の精度向上で今後リリースされるモデル2.0とかが良くなるのか、
同梱されてるCLIP更新で現時点のモデル1.4でも画像生成の精度が良くなるのかどっちなのかニワカすぎてわからない

○CLIP Vit-Hリリース
・ViTとは:Vitsion Transformer。それまでの画像認識に多く使われてきたCNNとは違い、Transformerベース。未知の画像(=zero shot)を分類できる。初めてシマウマを見て縞模様の馬の一種と判断するようなこと。
・OpenCLIP(StableDiffusion、DALL-E2に含まれている)のよりよいバージョンがリリースされた。
・L/14=ロスワイトマン氏による学習、H/14,G/14=Romain Beaumnt氏による学習(パラメータ違い)
 (ViT-Gはzero shotではViT-Hより悪いが、学習時間が短く、一部の検索タスクでは非常に上手く機能する)
・一般に利用可能なCLIPはViT L/14 336で、61.6%。今回のViT Hは73.4%で+11.8%もよい

(参考)CLIP以外の方式として最も優れているのは、BASIC、COCA(zero shot 86%程度)

○今後
・CLIPがスケールすることが証明されたので
・多言語で機能するテキストエンコーダーへの変更(multilingual-CLIP等)
・小さいCLIPから大きなCLIPからへの知識抽出による学習時間の短出
・オーディオ(CLAP)

https://github.com/mlfoundations/open_clip
https://laion.ai/blog/large-openclip/
0644名無しさん@お腹いっぱい。
垢版 |
2022/09/16(金) 08:59:23.57ID:jOFDJ6xl
>>643
CLIPには二種類の役割がある
画像を入力されてそれを特徴分布に分解する機能と
テキストで特徴分布に入出力する機能

StableDiffusionではCLIPを使ってテキストから特徴分布に直してそれを元にdiffusionをかけてるので
精度が良くなるということはプロンプトの理解が良くなるということに等しい
0645名無しさん@お腹いっぱい。
垢版 |
2022/09/16(金) 09:05:15.05ID:lALpe0Io
>>643
DiscordでEmadさんが答えてた

・新しいCLIP(ViT-H)はV3。プロンプトの理解がより良くなる

Q V3の前にV2はあるの?
A ある。1024ネイティブで2倍の速度になる

Q 今回のCLIPを差し替えるだけでよくなるの?それともモデルの再学習が必要?
A MidjourneyのようにCLIPガイドを使ってないので、再学習が必要
0647名無しさん@お腹いっぱい。
垢版 |
2022/09/16(金) 09:26:35.32ID:7AkfYTUK
prompt editingの説明をきちんと読んでみたんだが、whenに整数を入れる場合はその数字を1/100した小数を入れた時と同じになるんかね。
a [fantasy:cyberpunk:0] landscape
https://imgur.com/HlMRv7z.png
a [fantasy:cyberpunk:0.99] landscape
https://imgur.com/RbDnbzj.png
a [fantasy:cyberpunk:99] landscape
https://imgur.com/AIK5bfu.png
a [fantasy:cyberpunk:0.24] landscape
https://imgur.com/MxFgThc
a [fantasy:cyberpunk:24] landscape
https://imgur.com/aydopa6.png

1を入れたときに0と同じに見えたのは、実際は0.01を入力したことになってたからか。
0648名無しさん@お腹いっぱい。
垢版 |
2022/09/16(金) 09:33:50.72ID:j0JunP67
ローカル版1111、1070Tiだとアカンやろ……って敬遠してたけど。
512x512なら、1.6it/sくらいは出るんだな。
0649名無しさん@お腹いっぱい。
垢版 |
2022/09/16(金) 09:33:56.79ID:3qcZgGrJ
waifuは元データが海賊版だから使いません!って騒いでるやついるけど
そもそもSDに大量の転載画像が含まれてることはどうお考えなんだろうか?

AI画像生成を辞めるなら分かるんだが、SDはOKというのは矛盾してね?
0650647
垢版 |
2022/09/16(金) 09:35:53.72ID:7AkfYTUK
実際の処理が小数=>整数なのか整数=>小数なのかは知らんケド。
0653名無しさん@お腹いっぱい。
垢版 |
2022/09/16(金) 11:44:30.48ID:8CiemT4/
ざっと見た感じ
整数ならそれを変化するステップ数そのものとして処理
少数ならその値x1回の生成に必要なステップ数を変化するステップ数として処理
だから画像生成が100stepの場合は整数と少数で等しい挙動だけど、それ以外は異なる(場合もある)
https://github.com/AUTOMATIC1111/stable-diffusion-webui/commit/dc769e097c878927fcd222cd855eb794726e922b
0654名無しさん@お腹いっぱい。
垢版 |
2022/09/16(金) 11:55:29.72ID:jOFDJ6xl
pull requestの例にも示されてるけど
ブロックでできた四角い物体と
ブロックでできた丸い物体は
そもそもとして概念が結構違うので四角いと丸いを入れ替えるとブロックの模様や画角とかも一緒に変わってしまう

それを、ブロックでできた丸い物体を作らせておいて、後半のステップで四角い物体にプロンプトを入れ替えることで
既に作られているブロックの模様とかを引き継いで四角く加工できると

使い方によっては特定のキャラの顔維持とかに使えそうではある
0655名無しさん@お腹いっぱい。
垢版 |
2022/09/16(金) 12:05:45.92ID:gP4di/cF
textual inversionも似たようなことやってたな
0656名無しさん@お腹いっぱい。
垢版 |
2022/09/16(金) 12:50:43.87ID:jg7F6bwY
>>653
ああ、このステップ数ってひょっとしてSampling Stepsで設定してる値のことなのか。
俺がたまたま100に設定してたので同じ結果になったんだなぁ……
0664名無しさん@お腹いっぱい。
垢版 |
2022/09/16(金) 15:40:39.09ID:8CiemT4/
prompt editingは動画用途は無理だ
やり方悪いのかもしれないけど動画にできるほどの数のフレーム生成できないな
0665名無しさん@お腹いっぱい。
垢版 |
2022/09/16(金) 16:11:33.28ID:lucPjt6t
と思ったらもしかして治った?
Make K-diffusion samplers produce same images in a batch as when making a single image
って項目が設定に追加された
0667名無しさん@お腹いっぱい。
垢版 |
2022/09/16(金) 16:24:46.64ID:lucPjt6t
そもそもbatch size上げるためにmedvramやらsplit attentionやら有効にした時点で出力が微妙に変わるのか
0669名無しさん@お腹いっぱい。
垢版 |
2022/09/16(金) 19:04:26.82ID:G+D7wC5p
euler a用で組み立てた呪文だと
他のやつだとかなり出てくる画像の雰囲気が変わっちゃうんだよね。塗りからして違う
主要な何個かのサンプラの中では、突出して違う絵が出てくる
0670名無しさん@お腹いっぱい。
垢版 |
2022/09/16(金) 19:15:18.70ID:ufW8TO61
バッチサイズで増やした2枚目以降のseedは実装に依る
ということは1111が更新されたらパラメータ再現しても同じ画像できなくなる可能性があるんだろう
完全に罠だわ
0671名無しさん@お腹いっぱい。
垢版 |
2022/09/16(金) 19:21:31.65ID:08b/PWun
>>667
残念ながら不動小数点演算は計算の順序が変わると結果が変わってしまう
((((a+b)+c)+d)≠((a+b)+(c+d))
普通ならばそれは大きな影響を与えないのだが
拡散モデルの場合には微小な値の差が最終的にはそれなりに大きな影響を与える
0672名無しさん@お腹いっぱい。
垢版 |
2022/09/16(金) 19:41:32.71ID:LIN+pC0U
euler大好きマンなんでバッチは使わないことにしてる
良くて1.5~2割スピードアップくらいなんで・・いや使いたいんだけど、はよ治して
0673名無しさん@お腹いっぱい。
垢版 |
2022/09/16(金) 20:21:44.65ID:9eAZoGjK
微妙な呪文でもeular aにするだけで映えちゃったりするからな。厄介な代物だとわかってるけどつい使ってしまう。
0674名無しさん@お腹いっぱい。
垢版 |
2022/09/16(金) 23:34:48.41ID:ATv5OjaU
LAIONが進めてるのがCLIP Guided StableDiffusionってヤツか
普通なら備え付けのCLIPのテキストエンコーダーでプロンプトを一回エンコードして流し込んで終わり(後はサンプラーがそこに近付けていくだけ)なのを
逐次どんな画像になってるかをもっと賢いCLIPに見せて注文通りになってるか確認して補正しつつ進めていく方式

学習やり直し無しでプロンプトの理解と反映が向上するけど
waifuみたいな特殊環境への適応は監督役のCLIPも知ってないといけないので怪しそう
0680sage
垢版 |
2022/09/17(土) 02:21:33.93ID:gisD6INd
1111のローカル環境更新したら、SD upscaleで黒ずんだ画像が出力されるようになっちった……
0681名無しさん@お腹いっぱい。
垢版 |
2022/09/17(土) 02:25:17.98ID:S+9DsKqG
>>679
元レス見ればわかると思うけどプロンプトに組み込むものだから…
0683名無しさん@お腹いっぱい。
垢版 |
2022/09/17(土) 02:38:03.79ID:TSNOtRCT
1111で急に眼がダブってうまくいかないようになったなぁってRestore facesにこっそりチェック入ってやがんの・・
0687名無しさん@お腹いっぱい。
垢版 |
2022/09/17(土) 03:32:28.61ID:temo01D7
おかしな形の手を学習しまくって、ネガティブリストではじくっていうのが現実的な解決策なのかもな
0688名無しさん@お腹いっぱい。
垢版 |
2022/09/17(土) 04:15:32.26ID:KjrACo7F
Emadのおっさん、新しいモデルがスーンスーンといつも言ってるけど、結局何か出てるの?
0689名無しさん@お腹いっぱい。
垢版 |
2022/09/17(土) 04:20:58.70ID:VyttaNVF
>>686
プロンプトに加えてimg2とか部分的に加筆してガイドを用意したり
部分指定で再出力すれば5本指行けるのでは?
これってプロンプトのみでこの結果だよね?
0690名無しさん@お腹いっぱい。
垢版 |
2022/09/17(土) 04:34:31.38ID:5+jy8cuK
nekodrawがぶっちゃけあまり期待できなさそうなんだけど
他にクリスタプラグイン開発してる人いないのかな...海外ではマイナーなのか?
0693名無しさん@お腹いっぱい。
垢版 |
2022/09/17(土) 07:38:40.79ID:FxoRaI6I
久し振りにwin版のartroom起動したら、ネガティブプロンプト使えるようになってた
これもう、colabとかでも標準になるんじゃ
0695名無しさん@お腹いっぱい。
垢版 |
2022/09/17(土) 09:48:33.36ID:qZCWMipK
何でトークン数の制限がこんなに厳しいんだろ
トークンが多いと上手く入力元の画像ノイズに変換できないのか?
0696名無しさん@お腹いっぱい。
垢版 |
2022/09/17(土) 11:36:06.69ID:FxoRaI6I
でっかいキャンバスに下絵の画像を読み込んで、512x512の範囲でimage 2imageを自分で選びながら貼り付けてでっかくするってできたら構図もポーズも解決するんだが…
ダリではそっち系に進んでる感じだけどSDには来ないかな。
0697名無しさん@お腹いっぱい。
垢版 |
2022/09/17(土) 11:48:13.44ID:TSNOtRCT
>>695
カンマやスペースが数に入る仕組みがよくわからん
まさか(((abc)))
の()で6個とか数えてないよね・・逆に除外されてるならカンマスペースも除外できるのでは?って
0698名無しさん@お腹いっぱい。
垢版 |
2022/09/17(土) 12:49:10.05ID:iASfaGPL
>>697 トークンってのは用意した辞書に載っている言葉の最小単位だからclipの辞書に(と((と(((が別に用意されていない限り
原理的には()が全部で6個あるなら6トークンなんじゃ?
試してないけど
0701名無しさん@お腹いっぱい。
垢版 |
2022/09/17(土) 13:12:13.93ID:gisD6INd
たしか、 ( が1個出てくると1回UP調整かけて、 ) が1個出てくると1回DOWN調整かけるとかになってた気がする。
なので、閉じ括弧が足りないと最後までUP調整がかかったまま実行される。
0703名無しさん@お腹いっぱい。
垢版 |
2022/09/17(土) 13:49:02.20ID:FxoRaI6I
GPU周りでコンフリクト起こしてて、うまいことパッケージングまでもってけないっぽいね。
この辺、やっぱ環境依存が強いというか。
0704名無しさん@お腹いっぱい。
垢版 |
2022/09/17(土) 13:54:49.04ID:Ugl6jIw0
1111の()[]は事前処理されてるのでトークン数に入らない
簡単な確認は(((((((...((((((girl))))))...)))))みたいに大量に囲んでも長すぎwarningが出ないから大丈夫
後直接sd_hijack.pyも確認した

ただそのソース見てて小さな問題に気が付いたんだけど
制御がかかってるトークンをハッシュ値にして重み制御してたから
例えばこんな画像を
A hen laying eggs, sunny-side-up fried eggs, on the table
https://imgur.com/tVbuh7W

詰まれてる卵だけ強調したくても後ろのeggsにも掛かっちゃうね
A hen laying (((((eggs))))), sunny-side-up fried eggs, on the table
https://imgur.com/A9IJxa3
0706名無しさん@お腹いっぱい。
垢版 |
2022/09/17(土) 14:29:06.07ID:irljJ+xn
トークンをハッシュ値っていってるから
やるならthree fried egg(単数形などほかの単語にして無理やりトークン変える)
みたいなかんじじゃないのかな
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況