【Midjourney】AI画像生成技術5【StableDiffusion】

**名無しさん＠お腹いっぱい。** · 2022/09/12(月) 08:58:08.25

英語の文章が画像に！
背景に使うか？イラストのアイデア出しはもちろん、
与える英文を捏ね捏ねして思いがけず生成される秀逸画像ガチャで遊ぶのも楽しい
有料サブスクで商用利用まで可能なAI画像生成サービス

★★★ 注意 ★★★
ここは既存のAI画像生成サービスの”””具体的な”””技術や動向について語り合うスレです
漠然としたAI画像生成の未来や、イラストレーターの職権侵害等の一般的な話題は明確に【禁止】します
（以下のスレッドへ移動してください）
AIイラスト　愚痴、アンチ、賛美スレ
https://mevius.5ch.net/test/read.cgi/illustrator/1661305344/

前スレ
Midjourney】AI画像生成技術交換3【StableDiffusion
https://mevius.5ch.net/test/read.cgi/cg/1661762186/

テンプレまとめ
https://rentry.co/zqr4r
編集コード「5ch」

Midjourney】AI画像生成技術交換4【StableDiffusion
https://mevius.5ch.net/test/read.cgi/cg/1662332320/

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 00:36:06.55

シンプルな絵柄だし日本だけでも10万人はいると思う

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 00:36:58.42

イリュージョンさん家にもたくさんいそう

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 00:39:06.03

絵柄っていうより、3DCGモデルで作ったアニメ絵みたいな感じ
非常にまねされやすいタイプのCG顔

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 00:44:24.76

アニメ系厚塗りは言ってみれば違う人間が描いていても破綻しづらく量産しやすい効率特化の果てに生まれてきたわけだから、まあみんな似通ってくるのは当然といえば当然なわけで。
SDさんも厚塗り放り込んどくと結構安定する

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 00:48:49.20

>>368でモンスターが人に化ける原因をprompt matrixで調べてみた。

'd & d character' と 'alphonse mucha' が原因だったよｗ

https://i.imgur.com/yrdmcYy.jpg

**612** · 2022/09/16(金) 00:53:00.24

ああ…… 'jeremy mann' と 'artstation' もそこそこ人化の原因になってるか？

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 00:59:59.43

まさに、「どっかにこの絵柄で描いてる人居るよね」を目標にシンプルで維持されやすいテンプレートプロンプトを作ってるところなんで
その評価は狙い通りではある

本日の収穫　schematics(設計図)
十分に強いプロンプトに隠し味的に混ぜると書き込みの線が細くなり全体的に若干フラットになる
弱いプロンプトだと謎の設計図に化ける

無し　https://i.imgur.com/rmpTxXr.png
schematics　https://i.imgur.com/n17KN55.png

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 01:03:53.13

bold outline入れたくなる

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 01:03:56.32

>>614
設計図に化ける場合は [schematics] でいけるんじゃね？

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 01:06:02.27

waifuでは線の細い少女小説のヒーロー系イケメンを出すのがかなりムズイ。
ショタに振れるかオヤジに振れるか、体育会系のイカツイ兄ちゃんになってしまう。

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 01:15:32.46

中国のあの画像生成AIなら原神や崩壊3rd食わせまくってるみたいだからイケメンも作りやすいかも

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 01:22:09.17

ああ！>>612はtrinart2_step95000を使ってるから、>>368のsd-v1-4やwd-v1-2-full-emaとはまた少し絵の雰囲気が違ってるかも

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 01:28:21.08

どっかに画像張られてたけど、waifuで男子を召喚しても非モテ眼鏡男子みたいなのが出てくるだけだしな
男女格差が極大の世界やで

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 01:57:02.67

>>584
negativeにextra headって入れても意味ない？

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 02:02:41.95

新機能プロンプト変形
https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Features#prompt-editing

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 02:15:19.99

stepで変えるのは扱い難しそう。ちょっとずつ変化したバリエーション画像をたくさん生成の方がいいな

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 02:27:53.72

prompt editingはどこで実行するんだろう。txt2imgのpromptに a [fantasy:cyberpunk:16] landscape って入れるのは違うようだし。

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 02:39:04.27

exampleの[fantasy:cyberpunk:16]はミスなんじゃないかな（正しくは小数点？）
プロンプトに[fantasy:cyberpunk:0.16]って書いて、step100で回すと1枚出力される
その1枚を出力する過程で100ステップまわるけど
1から16ステップはfantasy、17～100はcyberpunkって入力されたことにして処理するんじゃない？
試してないから実際は知らない

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 02:48:27.55

プロンプト変形はアニメーションフレーム作るのに有用そう

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 02:57:49.94

わかった！1枚ずつ描けってことだな！
seed値固定して
a [fantasy:cyberpunk:0.0] landscape
https://i.imgur.com/slx6lGB.png
a [fantasy:cyberpunk:0.2] landscape
https://i.imgur.com/Y8W4zBb.png
a [fantasy:cyberpunk:0.2] landscape
https://i.imgur.com/pei57CQ.png
以下略！

**627** · 2022/09/16(金) 02:59:33.00

あ、最後のは

a [fantasy:cyberpunk:0.4] landscape

です。

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 03:03:13.34

なんか、1.0を指定すると最初の絵に戻っちゃいますね。
a [fantasy:cyberpunk:0.99] landscape
https://imgur.com/di8QZdi

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 03:06:06.57

あ、そうか。100ステップだから0から始まったら最後は99なのか。

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 03:09:58.39

犬猫ハイブリッド
a portrait of [dog:cat0.5]
https://imgur.com/ULUvFYb.png

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 03:16:35.73

プロンプト間違った。
a portrait of [dog:cat:0.99]
https://imgur.com/I32n8yT.png
a portrait of [dog:cat:0.0]
https://imgur.com/7ESeXRB.png
a portrait of [dog:cat:0.2] あたりでちょうど半々に混ざった感じになった。
https://imgur.com/MYvmwj3.png

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 04:53:26.28

Emadさんによると新モデルが出るらしいな

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 06:06:00.75

先月もう直ぐ出るって言ってたやつ？

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 06:49:34.57

anime modelは結局無かったことになった？

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 07:00:40.63

背景がフォトバッシュと称するただのトレスが当たり前になったみたいに
キャラ絵もAIの絵にちょっと加筆して自作主張するAIバッシュが当たり前になっていくんだろうな
今でもツイッターの有名絵師は背景は写真、CG、キャラ絵は3Dトレスな人が大量にいるし

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 07:15:16.01

自分の絵に組み込みたいんだが現状手ごろなオプションがKrita pulginしかないのがな
クリスタとブラウザでいちいち画像やりとりするとか面倒すぎるし

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 07:27:05.20

もうすぐ出る新しいCLIPで文章の理解の精度が上がるっぽい
https://twitter.com/emostaque/status/1570514379149574144
https://twitter.com/5chan_nel (5ch newer account)

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 07:31:02.99

アーティストを複数人入れてて、最後にHokusai入れてるけど
Hokusai感が強すぎ…
ちょっとだけHokusai、というか複数アーティストの比率って決められます？

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 07:32:41.83

>>639
1111版なら、xxxx, yyyy, [[hokusai]] とかでいいんじゃない？

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 07:42:16.65

>>639
あとは画家2人なら、1111版についたばかりのprompt editingで
portrait of a pretty girl, [greg rutkowski:alphonse mucha:0.0]
https://imgur.com/RhkT1e7.png
portrait of a pretty girl, [greg rutkowski:alphonse mucha:0.3]
https://imgur.com/tpZ5dQ6.png
portrait of a pretty girl, [greg rutkowski:alphonse mucha:0.6]
https://imgur.com/8NA18FG.png
portrait of a pretty girl, [greg rutkowski:alphonse mucha:0.99]
https://imgur.com/ubkbna1.png
とか

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 08:19:17.49

>>641
詳しくありがとうございます！
あとでやってみます！

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 08:42:02.58

>>638
言語―画像に使ってるCLIPが高精度版リリース、は分かるけど、
学習時の精度向上で今後リリースされるモデル2.0とかが良くなるのか、
同梱されてるCLIP更新で現時点のモデル1.4でも画像生成の精度が良くなるのかどっちなのかニワカすぎてわからない

○CLIP Vit-Hリリース
・ViTとは：Vitsion Transformer。それまでの画像認識に多く使われてきたCNNとは違い、Transformerベース。未知の画像（=zero shot)を分類できる。初めてシマウマを見て縞模様の馬の一種と判断するようなこと。
・OpenCLIP(StableDiffusion、DALL-E2に含まれている)のよりよいバージョンがリリースされた。
・L/14＝ロスワイトマン氏による学習、H/14,G/14＝Romain　Beaumnt氏による学習（パラメータ違い）
　（ViT-Gはzero shotではViT-Hより悪いが、学習時間が短く、一部の検索タスクでは非常に上手く機能する）
・一般に利用可能なCLIPはViT L/14 336で、61.6%。今回のViT Hは73.4%で+11.8%もよい

（参考）CLIP以外の方式として最も優れているのは、BASIC、COCA（zero shot 86%程度）

○今後
・CLIPがスケールすることが証明されたので
・多言語で機能するテキストエンコーダーへの変更（multilingual-CLIP等）
・小さいCLIPから大きなCLIPからへの知識抽出による学習時間の短出
・オーディオ（CLAP)

https://github.com/mlfoundations/open_clip
https://laion.ai/blog/large-openclip/

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 08:59:23.57

>>643
CLIPには二種類の役割がある
画像を入力されてそれを特徴分布に分解する機能と
テキストで特徴分布に入出力する機能

StableDiffusionではCLIPを使ってテキストから特徴分布に直してそれを元にdiffusionをかけてるので
精度が良くなるということはプロンプトの理解が良くなるということに等しい

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 09:05:15.05

>>643
DiscordでEmadさんが答えてた

・新しいCLIP(ViT-H)はV3。プロンプトの理解がより良くなる

Q　V3の前にV2はあるの？
A　ある。1024ネイティブで２倍の速度になる

Q　今回のCLIPを差し替えるだけでよくなるの？それともモデルの再学習が必要？
A　MidjourneyのようにCLIPガイドを使ってないので、再学習が必要

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 09:13:29.26

waifu diffusionで作ったミク
https://i.imgur.com/gsH2qCf.jpg

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 09:26:35.32

prompt editingの説明をきちんと読んでみたんだが、whenに整数を入れる場合はその数字を1/100した小数を入れた時と同じになるんかね。
a [fantasy:cyberpunk:0] landscape
https://imgur.com/HlMRv7z.png
a [fantasy:cyberpunk:0.99] landscape
https://imgur.com/RbDnbzj.png
a [fantasy:cyberpunk:99] landscape
https://imgur.com/AIK5bfu.png
a [fantasy:cyberpunk:0.24] landscape
https://imgur.com/MxFgThc
a [fantasy:cyberpunk:24] landscape
https://imgur.com/aydopa6.png

1を入れたときに0と同じに見えたのは、実際は0.01を入力したことになってたからか。

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 09:33:50.72

ローカル版1111、1070Tiだとアカンやろ……って敬遠してたけど。
512x512なら、1.6it/sくらいは出るんだな。

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 09:33:56.79

waifuは元データが海賊版だから使いません！って騒いでるやついるけど
そもそもSDに大量の転載画像が含まれてることはどうお考えなんだろうか？

AI画像生成を辞めるなら分かるんだが、SDはOKというのは矛盾してね？

**647** · 2022/09/16(金) 09:35:53.72

実際の処理が小数=>整数なのか整数=>小数なのかは知らんケド。

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 09:37:23.48

んでもステップ数なんだから、小数=>整数なのかな……

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 09:43:54.01

>>649
スレチ。こっちにレスしたので続きはこちらで
https://mevius.5ch.net/test/read.cgi/cg/1663123507/

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 11:44:30.48

ざっと見た感じ
整数ならそれを変化するステップ数そのものとして処理
少数ならその値ｘ1回の生成に必要なステップ数を変化するステップ数として処理
だから画像生成が100stepの場合は整数と少数で等しい挙動だけど、それ以外は異なる（場合もある）
https://github.com/AUTOMATIC1111/stable-diffusion-webui/commit/dc769e097c878927fcd222cd855eb794726e922b

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 11:55:29.72

pull requestの例にも示されてるけど
ブロックでできた四角い物体と
ブロックでできた丸い物体は
そもそもとして概念が結構違うので四角いと丸いを入れ替えるとブロックの模様や画角とかも一緒に変わってしまう

それを、ブロックでできた丸い物体を作らせておいて、後半のステップで四角い物体にプロンプトを入れ替えることで
既に作られているブロックの模様とかを引き継いで四角く加工できると

使い方によっては特定のキャラの顔維持とかに使えそうではある

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 12:05:45.92

textual inversionも似たようなことやってたな

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 12:50:43.87

>>653
ああ、このステップ数ってひょっとしてSampling Stepsで設定してる値のことなのか。
俺がたまたま100に設定してたので同じ結果になったんだなぁ……

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 13:07:45.23

>>594
AI関係なしに、最近めっちゃ増殖した絵柄w

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 13:18:22.93

https://github.com/AUTOMATIC1111/stable-diffusion-webui/issues/544
めちゃくちゃなバグ見つかって草
https://i.imgur.com/d72LhH7.jpg

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 13:37:47.84

1111版の最大bachcountの値変更するbatのオプション引数はなんじゃろ

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 13:42:06.35

ui-config.jsonを編集

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 14:01:55.36

>>660
今そっちなんだ、㌧㌧

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 14:45:58.47

バッチサイズ変えると出力結果も変わっちゃうんだな
もうやらないように1に固定しとこ

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 15:08:49.56

>>662
>>250-251情報によると1111版では euler_a の場合だけダメらしいで。

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 15:40:39.09

prompt editingは動画用途は無理だ
やり方悪いのかもしれないけど動画にできるほどの数のフレーム生成できないな

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 16:11:33.28

と思ったらもしかして治った？
Make K-diffusion samplers produce same images in a batch as when making a single image
って項目が設定に追加された

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 16:16:46.81

微妙に治ってなかった…
countを2、sizeも2だと
4枚のうち後半の2枚は違うのが出る

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 16:24:46.64

そもそもbatch size上げるためにmedvramやらsplit attentionやら有効にした時点で出力が微妙に変わるのか

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 18:51:09.13

だからeuler_aでしょ？>>663の通り
ram云々はたぶん関係なかったはず
lmsでやってみてどうなるか

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 19:04:26.82

euler a用で組み立てた呪文だと
他のやつだとかなり出てくる画像の雰囲気が変わっちゃうんだよね。塗りからして違う
主要な何個かのサンプラの中では、突出して違う絵が出てくる

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 19:15:18.70

バッチサイズで増やした2枚目以降のseedは実装に依る
ということは1111が更新されたらパラメータ再現しても同じ画像できなくなる可能性があるんだろう
完全に罠だわ

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 19:21:31.65

>>667
残念ながら不動小数点演算は計算の順序が変わると結果が変わってしまう
((((a+b)+c)+d)≠((a+b)+(c+d))
普通ならばそれは大きな影響を与えないのだが
拡散モデルの場合には微小な値の差が最終的にはそれなりに大きな影響を与える

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 19:41:32.71

euler大好きマンなんでバッチは使わないことにしてる
良くて1.5～2割スピードアップくらいなんで・・いや使いたいんだけど、はよ治して

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 20:21:44.65

微妙な呪文でもeular aにするだけで映えちゃったりするからな。厄介な代物だとわかってるけどつい使ってしまう。

**名無しさん＠お腹いっぱい。** · 2022/09/16(金) 23:34:48.41

LAIONが進めてるのがCLIP Guided StableDiffusionってヤツか
普通なら備え付けのCLIPのテキストエンコーダーでプロンプトを一回エンコードして流し込んで終わり(後はサンプラーがそこに近付けていくだけ)なのを
逐次どんな画像になってるかをもっと賢いCLIPに見せて注文通りになってるか確認して補正しつつ進めていく方式

学習やり直し無しでプロンプトの理解と反映が向上するけど
waifuみたいな特殊環境への適応は監督役のCLIPも知ってないといけないので怪しそう

**名無しさん＠お腹いっぱい。** · 2022/09/17(土) 00:33:54.24

outpaintingのColabo環境

stablediffusion_infinity_colab.ipynb - Colaboratory
https://colab.research.google.com/github/lkwq007/stablediffusion-infinity/blob/master/stablediffusion_infinity_colab.ipynb

**名無しさん＠お腹いっぱい。** · 2022/09/17(土) 00:49:44.60

それ昨日あたり書き込みあったやつだな
https://github.com/lkwq007/stablediffusion-infinity
ローカルだとトラブルだらけだったけど動かす方法きた
https://github.com/lkwq007/stablediffusion-infinity/issues/12

**名無しさん＠お腹いっぱい。** · 2022/09/17(土) 01:24:32.84

waifuってdanbooruの学習データが入る分、他の情報が圧迫されてたりするのかな？

**名無しさん＠お腹いっぱい。** · 2022/09/17(土) 01:58:03.81

これ試してみてほしい

(((intricate human hands fingers))) in positive

((((mutated hands and fingers)))) in negative

https://boards.4channel.org/g/thread/88636024#p88636398

**名無しさん＠お腹いっぱい。** · 2022/09/17(土) 02:12:35.46

うん。まぁわかってた。そううまくはいかないよな・・・
https://i.imgur.com/J3Fveha.jpg

**sage** · 2022/09/17(土) 02:21:33.93

1111のローカル環境更新したら、SD upscaleで黒ずんだ画像が出力されるようになっちった……

**名無しさん＠お腹いっぱい。** · 2022/09/17(土) 02:25:17.98

>>679
元レス見ればわかると思うけどプロンプトに組み込むものだから…

**名無しさん＠お腹いっぱい。** · 2022/09/17(土) 02:31:00.19

>>679
グロ

**名無しさん＠お腹いっぱい。** · 2022/09/17(土) 02:38:03.79

1111で急に眼がダブってうまくいかないようになったなぁってRestore facesにこっそりチェック入ってやがんの・・

**名無しさん＠お腹いっぱい。** · 2022/09/17(土) 02:53:48.01

>>678
結構いけるのかもしれない。
https://imgur.com/JX0LDKN.png

**名無しさん＠お腹いっぱい。** · 2022/09/17(土) 03:00:22.31

勝率はそんな高くないけど、時々普通の手が出てくるなｗ

**名無しさん＠お腹いっぱい。** · 2022/09/17(土) 03:06:24.85

40回回してみた結果
https://imgur.com/IGErQUq.png
https://imgur.com/d2ULpkp.png
https://imgur.com/DVNxTdc.png
https://imgur.com/f7xIrPh.png

**名無しさん＠お腹いっぱい。** · 2022/09/17(土) 03:32:28.61

おかしな形の手を学習しまくって、ネガティブリストではじくっていうのが現実的な解決策なのかもな

**名無しさん＠お腹いっぱい。** · 2022/09/17(土) 04:15:32.26

Emadのおっさん、新しいモデルがスーンスーンといつも言ってるけど、結局何か出てるの？

**名無しさん＠お腹いっぱい。** · 2022/09/17(土) 04:20:58.70

>>686
プロンプトに加えてimg2とか部分的に加筆してガイドを用意したり
部分指定で再出力すれば5本指行けるのでは？
これってプロンプトのみでこの結果だよね？

**名無しさん＠お腹いっぱい。** · 2022/09/17(土) 04:34:31.38

nekodrawがぶっちゃけあまり期待できなさそうなんだけど
他にクリスタプラグイン開発してる人いないのかな...海外ではマイナーなのか？

**名無しさん＠お腹いっぱい。** · 2022/09/17(土) 04:45:54.39

>>688
soon→もうすぐ(DreamStudioで)β版
β終わって問題なければ→一般公開

**名無しさん＠お腹いっぱい。** · 2022/09/17(土) 06:27:28.68

>>687

midjourneyでは50%ぐらい進んでいて腕の数多いなぁと思っていたら0%から書き直しになったことある

**名無しさん＠お腹いっぱい。** · 2022/09/17(土) 07:38:40.79

久し振りにwin版のartroom起動したら、ネガティブプロンプト使えるようになってた
これもう、colabとかでも標準になるんじゃ

**名無しさん＠お腹いっぱい。** · 2022/09/17(土) 08:06:39.23

>>689
txt2imgでプロンプト打って、>>678追加しただけよ。

**名無しさん＠お腹いっぱい。** · 2022/09/17(土) 09:48:33.36

何でトークン数の制限がこんなに厳しいんだろ
トークンが多いと上手く入力元の画像ノイズに変換できないのか？

**名無しさん＠お腹いっぱい。** · 2022/09/17(土) 11:36:06.69

でっかいキャンバスに下絵の画像を読み込んで、512x512の範囲でimage 2imageを自分で選びながら貼り付けてでっかくするってできたら構図もポーズも解決するんだが…
ダリではそっち系に進んでる感じだけどSDには来ないかな。

**名無しさん＠お腹いっぱい。** · 2022/09/17(土) 11:48:13.44

>>695
カンマやスペースが数に入る仕組みがよくわからん
まさか(((abc)))
の()で6個とか数えてないよね・・逆に除外されてるならカンマスペースも除外できるのでは？って

**名無しさん＠お腹いっぱい。** · 2022/09/17(土) 12:49:10.05

>>697 トークンってのは用意した辞書に載っている言葉の最小単位だからclipの辞書に(と((と(((が別に用意されていない限り
原理的には()が全部で6個あるなら6トークンなんじゃ？
試してないけど

**名無しさん＠お腹いっぱい。** · 2022/09/17(土) 12:50:04.68

>>697
数えてるんだなあ

**名無しさん＠お腹いっぱい。** · 2022/09/17(土) 13:01:39.76

強調のカッコ類はトークン化前にスクリプトで処理されてる、はず

**名無しさん＠お腹いっぱい。** · 2022/09/17(土) 13:12:13.93

たしか、 ( が1個出てくると1回UP調整かけて、 ) が1個出てくると1回DOWN調整かけるとかになってた気がする。
なので、閉じ括弧が足りないと最後までUP調整がかかったまま実行される。

**名無しさん＠お腹いっぱい。** · 2022/09/17(土) 13:23:51.24

最大2倍高速化させる手法が新たに提案された
https://github.com/huggingface/diffusers/pull/532

1111版での議論ではwindowsでの実装で手こずってるっぽい
https://github.com/AUTOMATIC1111/stable-diffusion-webui/issues/576

**名無しさん＠お腹いっぱい。** · 2022/09/17(土) 13:49:02.20

GPU周りでコンフリクト起こしてて、うまいことパッケージングまでもってけないっぽいね。
この辺、やっぱ環境依存が強いというか。

**名無しさん＠お腹いっぱい。** · 2022/09/17(土) 13:54:49.04

1111の()[]は事前処理されてるのでトークン数に入らない
簡単な確認は(((((((...((((((girl))))))...)))))みたいに大量に囲んでも長すぎwarningが出ないから大丈夫
後直接sd_hijack.pyも確認した

ただそのソース見てて小さな問題に気が付いたんだけど
制御がかかってるトークンをハッシュ値にして重み制御してたから
例えばこんな画像を
A hen laying eggs, sunny-side-up fried eggs, on the table
https://imgur.com/tVbuh7W

詰まれてる卵だけ強調したくても後ろのeggsにも掛かっちゃうね
A hen laying (((((eggs))))), sunny-side-up fried eggs, on the table
https://imgur.com/A9IJxa3

**名無しさん＠お腹いっぱい。** · 2022/09/17(土) 13:57:51.68

後の方はネガティブで括って打ち消せないかな？　両方のエッグが相殺されるだけかな？

**名無しさん＠お腹いっぱい。** · 2022/09/17(土) 14:29:06.07

トークンをハッシュ値っていってるから
やるならthree fried egg（単数形などほかの単語にして無理やりトークン変える）
みたいなかんじじゃないのかな

**名無しさん＠お腹いっぱい。** · 2022/09/17(土) 14:32:06.01

fried-eggsみたいにしちゃえばトークンは変わるのかな？

**名無しさん＠お腹いっぱい。** · 2022/09/17(土) 14:39:55.22

トークンの一覧欲しい感ある