【Midjourney】AI画像生成技術6【StableDiffusion】
レス数が1000を超えています。これ以上書き込みはできません。
英語の文章が画像に!
背景に使うか?イラストのアイデア出しはもちろん、
与える英文を捏ね捏ねして思いがけず生成される秀逸画像ガチャで遊ぶのも楽しい
有料サブスクで商用利用まで可能なAI画像生成サービス
★★★ 注意 ★★★
ここは既存のAI画像生成サービスの”””具体的な”””技術や動向について語り合うスレです
漠然としたAI画像生成の未来や、イラストレーターの職権侵害等の一般的な話題は明確に【禁止】します
(以下のスレッドへ移動してください)
【Midjourney】AI関連総合3【StableDiffusion】
https://mevius.5ch.net/test/read.cgi/cg/1663123507/
AIイラスト 愚痴、アンチ、賛美スレ part3
https://mevius.5ch.net/test/read.cgi/illustrator/1662093183/
テンプレまとめ
https://rentry.co/zqr4r
編集コード「5ch」
前スレ
【Midjourney】AI画像生成技術5【StableDiffusion】
https://mevius.5ch.net/test/read.cgi/cg/1662940688/ 前スレの最後のほうの話題だけど
CLIPの学習では単語の関係性がベクトルデータに変換されているから
例えば鳥山明という単語に対応するベクトルデータ―の中身には
漫画家である、ジャンプ作家である、絵柄は○○さんとは10%類似、△△さんとは20%類似…
みたいな意味が全て数値の組に変換されて突っ込まれている
だからLAIONの学習データから特定の作家の画像だけ抜いたところで作家名を指定すると
やっぱりその作家の画風が反映されてしまう もしかしてLAIONのCLIP Hを使うようになるSDv3ではGreg Rutkowskiその他アーティストが機能しなくなる?
https://twitter.com/emostaque/status/1571634871084236801
https://twitter.com/5chan_nel (5ch newer account) https://note.com/uunin/n/n725ae4601264
前スレでも貼ったがオススメのAutomtic1111インストール方法
ユーザーフォルダにキャッシュやゴミを作らないし1フォルダで完結してるっぽいので他の環境とも共存出来る
むしろ本家もそうして欲しいわ >>3
機能しなくなることはまずないよ
同じプロンプト指定しただけだと新旧で生成画像の雰囲気ががらりと変わる可能性がある
そしてまたゼロからプロンプト模索必要な可能性があるってだけ >>3
引用ツイート元が消えてるけど、LAIONからOptOutしたいみたいな話に違うよって訂正入れたとかかね >>4
初心者にはおすすめできないかな
1111はよく大きな変更入るからトラブったときに原因切り分け難しい。ここで聞いてもわからないだろうし
環境汚さないって考えるほどなら最初から自分でanaconda使うのがいい
しかし本家からmanual installのセクション消えたっぽいのは残念だな。あれで簡単に作れたのに 初心者はそもそもそんな頻繁にアプデしないだろうし、Automatic1111を選択する時点で初心者ではない印象 >>7
manual installはここに移ったんじゃね?
AUTOMATIC1111/stable-diffusion-webui/wiki/Install-and-Run-on-NVidia-GPUs#manual-installation >>4
アップデートがgit pull一発というわけにはいかないとしたら、頻繁にアップデートしている今は不便やね あくまでも最初の環境構築がちょっとだけラクってぐらいだな
個人的にはユーザーフォルダにゴミ作らないのは嬉しい
というかバッチファイル見たけどパスを追加するだけなのは盲点だったわ >>10
ほんとだ。そんなとこにあったのか。readme.mdにリンクもっと分かりやすく用意しとけよ(逆ギレ もしかしてLAIONのCLIP Hを使うようになるSDv3ではGreg Rutkowskiその他アーティストが機能しなくなる?
https://twitter.com/emostaque/status/1571634871084236801
https://twitter.com/5chan_nel (5ch newer account) アプデも多過ぎて何が新機能なのかすらわからん
重みとかもどこで説明してんのかな 最近1111のcolabで連続出力出来ないんだけど同じような人おる? NMKD stable diffusionを使ってるんだけど重み付けの方法次第でAutomatic1111のnegative promptと同じような設定できるのかな? v2のtextual inversion colabでは厳しそうだな お絵描き教室で「人間の肌は"はだいろ"じゃありません。よく観察しましょう」と言われるがプロンプト探索でも同じやな
例えばフリルの付いたドレスを着せたいならフリルと入れるのではなくアメリカのドレス通販サイトでフリルの付いたやつを探してそのブランド名を打ち込む >>18
無知すぎて申し訳ないのだがグリッドとは… >>19
おとなしく1111を導入しろ
サイト翻訳してよく読めば誰でも出来る 人物の属性にもかなり引っ張られるから、それを重みにしても結構良い感じにかかるね。
Drってやったらほぼ自動的に白衣を着るので、あえて白衣を着たとか付け加える必要は無かったりするし。 その辺はモデルのバイアス次第だから一概には言えんねえ >>1乙
>>22
作った全部の画像を3x3とかにくっつけた絵を出す機能 >>18
localの1111でも最近たまにgrid画像生成のところでエラーが出るよ。
grid画像は生成し終わってて、追加のテキストファイルが生成されてないので、こいつを吐くところでエラー出してるみたい。 俺もNMKDしか使ってなかったけど頑張って1111導入してみよ 手持ちの死んだ漫画家の画像ファイル学習させて指定ワードの画像作れるんかな? Negativeは本当に便利よ
前はうまく描いて欲しいところを延々とプロンプトに祝詞として書いた挙げ句あまり効きもせずにそこだけ注目されてズームはされるなんて悲劇も多かったが
Negativeに呪詛を書いておく分にはそもそもそこに近寄らずズームされないから調整がしやすい TIエンベディングファイルに不審なコードが含まれてないか簡易チェックするスクリプト作ってみた
https://pastebin.com/ChWmscUK
python check.py embeddings.pt のようにファイルを指定して実行
手元で簡単に作った任意コード実行できるptファイルはこれで検知できたけど、抜け道はあるかも知れない >>26
ありがとう。オフのやり方が分かんなかったので
1枚出力を間に挟めばとりあえず動くようになった。 >>19
だいたいここに書いてあるよ
ttps://pajoca.com/nmkd-stable-diffusion-advanced/ >>34
グリッド画像を出力しない設定はSettingsタブの
「Do not save grids consisting of one picture」
で変えられます(オンで出力しない) 1111でpng chunk書き込まれてなくね?
png info入れてもデータなしになるんだが >>38
settingsにチェック入れてる?
> Save text information about generation parameters as chunks to png files >>37
それはbatch countが1の時だけだけど >>39
いれてる
ってことは他の人はちゃんと書き込まれてるのか > If PNG image is larger than 4MB or any dimension is larger than 4000, downscale and save copy as JPG
にチェック入れてて、PNGじゃないとかってオチではないよね・・ >>39
解決した
自動保存時しか書いてくれないんだな
saveボタンで保存してた 前スレの最後の方で質問させていただいた者ですが、おかげで理解できました。ありがとうございます
aiやるならWindowsの方が良さげなのですね
gpuについても大体分かったのですが、3060tiでもローカル関連で生成時間以外に不便なことってありますか? >>45
AIはWindowsかどうかより、CUDA使えるGPUかどうかが大事。
3060TiはVRAMが8GBだからメモリの点では12GBの3060や24GBの3090Tiより(同時生成数とか最大サイズとかで)不利だけど、速度は3090Tiの40%位出るからいいんじゃない?
https://i.ibb.co/yd7SZ32/chartthin.png ai一般論だったらlinux+nvidiaの方がいいな。sdだったらwindows+nvidiaでいいけど
3060tiはメモリ8GBかな。今のsd使う分には十分
だけど数か月後、一年後にはメモリ不足で不満になってる可能性あると思う >>44
へぇー、普通にバグだね
気づかれてないってことはたぶん誰もボタンオンリー保存してないw
>>45
> GPUは今のところはメモリが命なのでRTX30で考えると
> RTX 3090 Ti>=RTX 3090>RTX 3080 Ti>=RTX 3080 12GB>RTX 3080>RTX 3060
> 3070シリーズはVRAMが8GBしかないので、回避が吉。
この人のこれ3060tiじゃなく3060ってのに注意ね
3060tiはVRAMを8GBしか積んでない >>41
本当だね!オンにしたら1枚出したときにもう1枚同じのが出るようになって、しかも1枚はtxt2img-gridに保存されるので何ごと?? と思っていたところだった
ゴメン間違っていたよ>40 > RTX 3080 12GB>RTX 3080>RTX 3060
メモリの話ならここ変だな
真ん中は「3080 10GB」なのに「3060 12GB」より上ってことに 4ch見てたら前スレ734のプロンプトの主題に「台所」って突っ込んだポストがあって、その手があったかー!ってなった。
こんな風になるんだなぁ
https://imgur.com/NF72Lth.png
そんなわけで働いてる人描写を追加していろいろ出してみた。
司書の働く図書室
https://imgur.com/O3tH3Ey.jpg
研究者の働く研究室
https://imgur.com/aOMTqzu.jpg
錬金術師の働くアトリエ
https://imgur.com/kIoSaNn.jpg
いうて、普通に図書館だけ突っ込んでも女の子出てくるんだが……
https://imgur.com/FUYcrPc.jpg
それにしてもurban backgroundは改変されずに使われてるな、使い勝手いいのかしらん…… >>0046〜>>0048
ありがとうございます
速度を求めるなら最低限3060ti、質を求めるなら最低限3060(VRAM12GB)という感じみたいですね
速度も質も欲しい、のでもう少しパソコン買うのは様子見します
3080や3090入りのパソコン安くなって販売してほしいよ… >>53
とりあえずグラボなしで買ってCPU内蔵のGPU使っておいて、後でグラボ買うのでもいいのよ? それ用のパソコン見てるのですが
うーん27万円代でRTX 3080 12GB、64GB(32GB×2)って値段的にどうですか…? >>57
スペックはこういう感じです
Windows(R) 11 Home 64bit版 [正規版]
AMD Ryzen 7 5700X プロセッサー (3.40GHz [最大4.60GHz] / 8コア / 16スレッド / 32MB L3キャッシュ / TDP 65W)
【NVMe SSD】1TB SSD
ストレージ無し
NVIDIA GeForce RTX 3080 12GB LHR【HDMI x1 / DisplayPort x3】
【ASRock製】AMD B550 チップセット搭載マザーボード
850W ATX電源 80PLUS GOLD (日本製コンデンサ仕様) highres, fixっていう機能使うと大きい画像でも変な絵になりにくくなるのかな 前スレ948さん
調べていただいてありがとうございます
念のためにもう一回zipで更新してみたらオプション通るようになりました
更新に失敗してたか、なんかしらの相性が出てたみたいです >>59
ドスパラで見てもだいたいそんな値段になるみたいね。
俺の場合はとりあえずお試しで3060でいいかなって5万で買ってみて特に不満はない。 >>62
一緒w
5年前のPCの980tiと入れ替えた
PC買うまで行くのはもったいないと判断、メモリもいっぱい載せてるし 3090か3080 12GBか3060 12GBを予算に応じて買えってのはいいけどさ
それ載ったPCの値段が適正かは他で相談した方がいいよ お安いと評判のPalitで12GB 3080って11万くらいだから、それ以外のPC部分が16万とかまあそんなもんでしょ。 安ければいいなら3060 LHRを中古で買えば良い マイニング死んだと思ったらSD特需か。Nvidiaには神風が吹いてるな
ユーザーには逆風でしかないが。特に日本は円安で二重苦だ… 画像生成でもこのレベルなら動画生成とか音楽生成になったらどんなGPU性能を求められてしまうんだ
来月にも音楽生成出るらしいし 音楽生成は画像生成と同じよ
波形画像を学んで波形画像を吐き出すわけだし 1660から3090やA5000までのスペックを比較して生成できるまでの時間測ってるサイトないかなあ >>51
あ、プロンプトはこんな感じっス
prompt: kitchen, (((intricate human hands fingers))), modern style, detailed face, beautiful face, by greg rutkowski and alphonse mucha, d & d character, in front of an urban background, digital painting, concept art, smooth, sharp focus illustration, artstation hq
negative prompt: ((((mutated hands and fingers)))), (((portrait)))
マジでだたの台所の絵描いてるだけだなw >>59
へえ3080搭載BTOがやっと20万円代まで下がったんだねえ
一時期のGPU高騰が落ち着いて来たってのは本当だったのか
いい事だ DALLEがアップデートしたぞとメールが来た
どんなもんかレビューしてくれ >>51
スチームパンク系のアドベンチャーゲームみたいだな 画像や動画よりも音声のほうがやばい気がするな
人間はなんだかんだで絵やコラ動画にはすぐ慣れて何とも思わなくなるけど
声優に好きなセリフ喋らせるとかVtuberにエロASMRさせるとかAIで実現したらヤバ味があると思う 声優を音源にした音声合成はすでにあるけどあまりそんなことにはなってないかな どこまで自然に喋らせられるか、と言うか感情を乗せられるか次第かな。
これが難しいから、未だにゆっくりに毛の生えた状態なわけで。 >>60
縦長はきついけど横長画像には結構効く、確実に進歩してて怖いわ いつの間にか、png infoに投げるだけで自動的にデータ出るようになっとるw
あとは、これをtxt2imageにボタン一発で反映させれるようになると嬉しいw ちなみにこれは寝室です。
https://imgur.com/heSuj4s.png
そしてこれが夜の寝室
https://imgur.com/vvPISlh.png
夜にするの、今のところ背景のところに"under moon light"って追加してくそでか満月を召喚する以外の方法を見つけてないんだ…… >>86
いいねえー
しかもこれ、画像が入っているときに画像を落とすと自動的に入れ替わる仕様に変わってる
1111版はどんどん便利になっていくなあ
出てきたパラメータをtxt2imgやimg2imgへ転記する機能は要望が出てるんじゃないかな 新しいCLIPによるディープフェイク検出イニシアチブをまもなく発表
https://twitter.com/EMostaque/status/1572013393455845376
悪意のある利用は避けられないので、フェイクを検出するパートナー・コミュニティを作らなければならない
---
よく分からないんだけど、ディープフェイク固有の特徴量みたいなものを検出するってこと?
その特徴量を限りなく小さく消していくこともできる気がするんだけどどうなんだろう
https://twitter.com/5chan_nel (5ch newer account) >>87
良いね。夜は「部屋を暗くする」とか「夜景」とかかな。 >>84
今は提示された音声サンプルをトレースして、その通りに合成音声を調律するAIと
顔の動き、表情をトレースして発声に合わせたモーションをつけるAIが現場で使われてるよ
画像AIのTIみたいなもんで、全自動までは流石に少し遠いんだよな >>89
やる姿勢見せなきゃいけないから見せてるだけで実際いたちごっこになりそう まぁ流石にここにはそんな人間いないと信じたいが >>89
AIによるフェイク検出の精度が上がるのはAIによる生成の精度も上げられることとイコールだよな... AUTOMATIC1111版にパフォーマンス15%向上の最適化きたのに話題にならないの…? 馬鹿は自分が知ってることを人が知ってると思い込むんだよなw
>>94
どういう改善で性能アップしたんですか? 高速化よりもhighresfixとscale latentの方がホットでは?
トーテムポール問題に改善策が出た
その代わり人体は延長されるらしいが hlkyもautomatic1111も確かに高速になってる
けどコミットもissueも多すぎてどれで速いなってんのか分からないw >>93
そこら辺は暗号通信と同じだろう
フェイク検出AIを誤魔化せるが電気代が500万かかるとかになる >>99
やってみたけど、類似の幅が広すぎな気がする
https://i.imgur.com/eAa4D91.jpg
アジア人の女の一覧2,812画像がでてきてどうしろっていうんだろう >>101
画像からテキストを類推、マッチング率何%以上のPromptと画像のセットを抽出するようになってんじゃない?
そのサイトの用途考えたらどうしろも何も無いと思うんだけど >>101
確かに似ているのもあるけど9割以上が誤検知に近い判定だなぁ・・・
その類似画像も目元は流用された?程度で他は全然分からん
Googleの画像検索でも対象が全く同じでなければ全然アテにならないし GPU買おうとしてる人は1週間は待った方がいい
今晩NVIDIAが新商品発表するから、値下がるかもしれない >>105
4000にがっかりして3000メモリ増量モデルの再評価だぞ マイニング終了も今週末か来週に控えてるだろ
円安もあるし時期が悪いおじさんはいつまで経っても買えん 更新多くて楽しい時期だし4000番代待つよりもさっさと買って遊び始めたほうがいいと思うわ 3000番台は在庫処分ですでに補填入って在所処分は始まってるわけで
すぐには値下がりはしないし、年内の4000番台はハイエンドだけだし
今の円安で3割近く値上がりして今の相場なら激安もいいところだよな
指くわえて眺めてるより今はどんどん回した方が楽しいと思うぞ
一週間で2割下がるなら土下座くらいするさ。いくら下がると思ってんの(笑) highres fix 一度512で作ってからそれをスケーリングして所望の解像度に直す機能
scale latent on SD内部のlatent(画像にデコードされる前のdiffusionが行われている空間)を拡大し、その後もう一度ステップを回す
scale latent off 出力画像を拡大しimg2img
off
https://i.imgur.com/OeVoyxU.png
highres fix scale latent on
https://i.imgur.com/jJl0ogA.png
なるほど
offとonで全然違うがそもそもトーテムポール画像に価値は無いのでうまく出るようになっただけで革新だな DiscordにDreamBoothでホロのぐらちゃんを学習させたモデルを公開している人がいたので使ってみた
前評判通りプロンプトに対して柔軟だし再現度も高い
https://i.imgur.com/C1LWwTB.jpg
https://i.imgur.com/8sCKAkR.jpg ローカル1111を使っていますが、生成中もGPU使用率はほぼ15%、たまに50%近くになるけど一瞬
これは1111の設定でGPUを最大限使わない命令がされてますか? >>112
せめてグラボぐらいかけとw
グラボ以外の部分の性能が問題なんじゃないの?
うちのだとGPU 3Dが90%、GPU copyが2%ぐらい そこそこ有名でも認識されないアーティストがたくさんいるのに日本でしか有名でないであろうラッセンがばっちり認識されるのが不思議でしょうがない
まあトラだけで海景画は全然別物になるんだけど >>111
Textual Inversionじゃなくてckptモデルなんですね
見つけられない人のために↓
☁DREAMER COMMUNITIE☁
🍥|anime
2022/09/20 06:39 >>119
ckpt読み込んだら1文字目大文字のGuraで呼び出せる RTX3060の12GB版ってマイニング対策でCUDAの性能下げられてるとかそういう話なかったっけ、大丈夫かな? https://github.com/eyriewow/merge-modelsのckptをブレンド出来るってのを試してみた。
Waifu
https://imgur.com/KstuT7t
Trinart
https://imgur.com/Zhx4Ntj
Waifu50 Trinart50
https://imgur.com/qI2Gj7A
いろいろブレンド試したら、結構、面白そうな感じ。
コーヒーと同じで、結局はオリジナルが一番ウメえとかになりそうだがw >>122
LHR版はマイニング性能が抑えられているという話のことかな >>124
あーLHR版ってのがあるんだ、多分それの事を聞いて覚えてたんだと思う。ありがとう
3060もそのLHR版があるみたいだし、適したカード探すの大変そうだなぁ 江戸の有名でない絵師とか彫刻家の名前でアニメちっくになるのおもろいね
やっぱ日本アニメの源流てこれかと思うわw なんか勝手に納得してるようだが
LHRはイーサリアムのマイニングの速度が落ちるだけで別にそれ以外は関係無いぞ >>123
>コーヒーと同じで、結局はオリジナルが一番ウメえとかになりそうだがw
わかる。めっちゃわかりみ ワードの重み付けが全然違うからなあ
使いこなすには両方のワードの重み付けをある程度把握してないと無理だと思う >>125
それは暗号通貨掘るプログラムが検知されてスピードダウンするだけで
AIは全然アルゴリズム違うから関係ないぞ ググって見つけた過去スレのレスから来たんだけどこれ解決方法わかる人いる?
https://github.com/AbdBarho/stable-diffusion-webui-docker
動かそうとしているんだけど
docker compose --profile auto up --build
で↓のエラーが出てしまって進めないんだ cuda toolkitは入れているけどエラー変わらずでお手上げ状態
161名無しさん@お腹いっぱい。2022/08/30(火) 15:24:50.21ID:kv64WKVJ
>>138
Windows10(insider previewでWSL2はインストール済)ですが
docker-compose.ymlのビルドで以下のエラーになりました。
nvidia-container-cli: initialization error: WSL environment detected but no adapters were found: unknown
また、entrypoint.shが、改行コードがCRLFのため動作しない(LFに変えればいいだけですが)でした
Windows11だと不要なのかもしれませんが、どうもcuda toolkitが必要なようです。
疲れたw Highres, fixはESRGANとかのアップスケーラーを介さずにSDアップスケールができるって感じだな >>131
それ書いたの私だけど、WindowsをH21H2に更新することで解決しました。
CMDから、winverで確認してH21H1だったらそれが原因だと思います。
私の場合、Windows updateで表示されなかったのでググって個別にH21H2をインストールしました。
cuda toolkitは特に不要です。(普通のGeforceドライバに入ってると思われる)
https://mevius.5ch.net/test/read.cgi/cg/1662940688/946 1111、こんなに更新が凄いと起動前にpullしとかないとアレってことに確実になっちゃうな。 定期的にバグも仕込まれるからそれはやらん方がいいと思うが dockerで特定のcommitでresetしてwebui立ち上がるとこまで全自動だぞ >>135
なるほど
webui-user.batの2行目に「git pull」、最終行に「exit」と書いて、起動のたびに何も考えず最新版にしてた Snake PlisskenとかJack Burtonと入れてもカート・ラッセルの若かりし頃の姿が出てこないのはどうしてだろう >>140
何てスレか教えてくだしあ┌(_Д_┌ )┐ なるほど
https://mercury.bbspink.com/test/read.cgi/erocg/1662132381/384
384 名前:...φ(・ω・`c⌒っ[sage] 投稿日:2022/09/20(火) 01:11:49.73 ID:63ysJ2H+ [1/3]
ワイは明日から出張でしばらく触れんから女の子のポーズ指定に関するワイのプロンプト研究結果をサンプル付きで貼るやで
https://i.imgur.com/Q08jlJE.png いつの間にか、Automatic1111って、modelsフォルダに複数ckpt入れておくと
Settingタブで切り替えられるようになってんたんだな・・・
Automatic1111のリリースノートというか新機能・変更点をまとめてるページとかってどこかにあるのかな? 毎日のように信じられないような新しい技術が出てくるな
切り替えるだけじゃなくて混ぜられるみたいだし >>90
(((nightscape)))くらい強化してやっとこれよ……
どんだけ外を明るくしたいんだよw
https://imgur.com/77SlClA.png
くそでか月がないからまあヨシ! >>127 >>130
あ、そうなんだごめん怪情報流しちゃって。とりあえず12GB版3060は安心して買っていいって事かな >>148
Negativeにsun lightとか入れてみた? >>133
ありがとう!
おかげで起動できました
うちもWindows Updateに表示されていなくて手動Updateが必要でした
1年近くもUpdateが放置されていたとは。。 AI詳しくないから細かいことはわからんけど
先日のTensorFlowに続いてKerasベースでも実行できるようになったらしい
高速化とかMac環境に貢献してるとのこと
https://twitter.com/fchollet/status/1571874757582389250
https://twitter.com/5chan_nel (5ch newer account) ui-config.json範囲外でWebUIをちょっと修正しようとすると、じゃんじゃかエラーが出て手に負えない……
gradio ちゃんと学習せねばダメか >>153
昨日 TensorFlow / Kerasで実装してMacで4倍速くなったって言ってて、同じ話かな?と思ったら違う人だったw
https://twitter.com/divamgupta/status/1571234504320208897
>>153のツイートの人だとコードが読みやすい、Macで2~3倍になった、と言ってる
昨日の人のほうが早いのか環境の違いとかなのか
Windowsで性能向上するのかが気になる
https://twitter.com/5chan_nel (5ch newer account) webUIの最新版webUI-user.bat消えた? Highres. fixはすごい!
https://imgur.com/Zuc1fRl.png
でもこれ寝室ではないよなって絵が結構な頻度で出てくるんだが……?
完全に夜にするのはとりあえず諦めたー >>155 Colabで実行してみた 512x512で56秒@T4
メモリ容量が最適化されたらしい >>159
通常はColab 13秒とかそのぐらいだから、nVidiaだとKeras実装は逆に4倍遅いって感じですか
残念・・・ 1111をアップデートしたらいきなりSD upscaleが動かなくなったが、どうやらrealesrganのweightsファイルの保存先が変更になったようだ。 それにしてもどうしてこんな変更があるんだ?
/usr/local/lib/python3.10/dist-packages/realesrgan/weights/
↓
/usr/local/lib/python3.10/dist-packages/weights/ >>158
>>72のポジとネガにちょっとずつ追加した。さらにネガに(((brightness light)))とかbrightness追加するといいかも
(((((darkness background, darkness night, under exposure)))))
ネガ (((correct exposure)))
https://i.imgur.com/kjB321G.jpg >>166
協力感謝!
https://imgur.com/jtnS08y.png
これ、部屋は暗くなるけど窓の外が白いのは変わらないっすね。
というか、なにこのやべぇキッチンw 服装の指定に引きずられて顔まで変化するのが困りものだな
髪色の指定だけでも顔分るしな、黒髪指定したら一気に顔がもっさりした感じになる
これはCLIPの仕様上避けられない奴だよな 色々なものが紐づいてるしな
スポーツウェア着せれば大人っぽくなるし、乳でかくすれば顔もエロくなる ややスレチだが
NVIDIA、従来より最大4倍速い「GeForce RTX 4090」。1,599ドルで10月12日発売
https://pc.watch.impress.co.jp/docs/news/1441388.html
高すぎてお通夜とのこと > 30 Socket774 (ワッチョイ b73f-jztO)[12]2022/09/21(水) 01:42:52.29ID:WWhkvTAA0(12)
> 今日の革ジャンの生配信9割AIの話ししてたな
> 一部の人間にしか売る気がないのか
革ジャン=NVIDIAのCEO、ね
マイニング景気終わってグダグダでこれしかないって状態との見方 1600ドルなら有りかなって思えるけど、日本だと30万円だしな prompt matrixによると、"in front of urban background"が真っ白背景を生み出している模様。
https://i.imgur.com/SvpmMp4.jpg
"in front of night urban background"ではどうか。……他は全部夜景なのに、なぜ最後の最後で白くなるのか!
https://imgur.com/HtkAkgy.jpg
もちっと細かく見てみる。
どうやら、"in front of" "a night arban" "illustration"の3つがそろった時、引きの絵に変わって夜景が解除される模様。
どないせいっちゅーねん!
https://imgur.com/NFY2RHS.jpg
そして今回、アップで人間が2人近接すると腕の数がすごいことになるという知見を得たw 単純にnegativeに(blur), (bokeh), (fog)は効かないの? >>172
4090一枚でガンガンファインチューニングできますという訳でもないしな...
さっさと3080かっといて正解だったわ 4090なんて今の為替だと20万軽く超えてくるしな(笑)
まぁ3070-8GBじゃいろいろ厳しかったので、4080-16GBあたりを買いそうだけど
モノがあればだなぁ 大富豪にぃに達が4090を大量に買って
安く投げ売りされた3080を僕が買う
winwin(´・ω・`) > NVIDIAは9月21日、「GeForce RTX 4090」「GeForce RTX 4080」を発表した。
> 「GeForce RTX 4090」は10月12日より順次発売予定、価格は29万8000円からとなる。
> 「GeForce RTX 4080」は11月発売。価格はメモリ12GBが16万4800円、16GBが21万9800円となる。
フーン >>174
とりあえず、>>72をゴチャゴチャ触ってみたら、なんとか外の夜率は上がった気がする。
prompt:bright kitchen in front of the (( stary midnight city view )) and without citylights,, (((intricate human hands fingers))), modern style, detailed face, beautiful face, by greg rutkowski, d & d character, digital painting, concept art, smooth, sharp focus illustration, artstation hq,wide angle,((underexpose)) photo
negative prompt: ((((mutated hands and fingers)))), (((portrait))),(((fog))),(((correct exposure)))
室内を明るくして、外の夜景は強引に灯りを落として星を強調。室内が暗いと露光差で外が白飛びする現象はSDでも再現してるっぽい……
なお、ここまで夜夜言っても昼になる時もある模様。。。
https://imgur.com/a/yerjxiP RTX40シリーズ、この値段ならcolabに居座りかな Waifuの場合、プロンプトの描き方が特殊らしい
https://wiki.installgentoo.com/wiki/Stable_Diffusion#Waifu_Diffusion
・Danbooruのタグを使う。元のタグのスペースは"_"で置き換える
・プロンプトははこの順番。カンマは使わずスペース区切り
著作権タグ(作品名) キャラクタータグ 一般タグ アーティストタグ
・hiresなどのメタタグは使わない
・4種類のタグ内で複数タグが場合、数字、アルファベットでソートする
例: https://wiki.installgentoo.com/wiki/File:SD-Waifu_diffusion_finetune_recipe_example.jpg
"kono_subarashii_sekai_ni_shukufuku_wo! megumin 1girl ^_^ backlighting blush brown_hair cape closed_eyes collar facing_viewer fingerless_gloves flat_chest gloves hat lens_flare short_hair short_hair_with_long_locks smile solo staff sunset witch_hat dacchi"
1 著作権タグ: kono_subarashii_sekai_ni_shukufuku_wo!
2 キャラクタータグ: megumin
3 一般タグ: 1girl ^_^ backlighting blush brown_hair cape closed_eyes collar facing_viewer fingerless_gloves flat_chest gloves hat lens_flare short_hair short_hair_with_long_locks smile solo staff sunset witch_hat
4 アーティストタグ: dacchi
SDは、プロンプトを77トークン化した後、英語の構文解析して768次元ベクトルに変換してからDiffusionにつっこんでるんだけど
Waifuは英語の構文無視した学習してるから、それに応じたプロンプトが有効ってことぽい? 4chan見るとみんな他モデルと同じプロンプトの気がするんだけどな Waifuでは効きやすいワードがあるってだけで、言ってみればタグで個別学習したみたいな感じになってる。
英文無視とまではいかなくて、kawaiiなんかが実質的に<style>化してるって感じ。 1111ってswinIRにまで対応したのか?
あれ確かEsrGenより高画質な超解像だったよな >>185
それっぽいのが出てくるけど
これがめぐみんかと言われると誰だこれになるわ
この絵にめぐみんのタグは付けないほうがいいと思う >>189
コミットログ見るに、SwinIRの実装コードは突っ込まれたけどUIがまだ対応してないように見える。 swinIRはかなり設定がピーキーなので使いにくいイメージ >>189
pthファイルダウンロードしてSwinIR/フォルダに置いたらもう使えた。誤情報すまん。 >>194
EsrGenと違ってSwinIRのptfファイルって全然配布されてなくない? rinnaさんところの日本語SDデモがhuggerfceに来てたけどほぼ使えなかった SD1.5がもうクーロズドテストに入ってることを考えるとwaifu1.3は結構ビミョーな気がする。 sdは質より量で三次元二次元混在、タグはカオスだけど
waifuは量より質で二次元のみ画像厳選(スコアで絞ってる)、画像ソース一か所でタグ公開予定
だからwaifuはwaifuで期待できる SD1.5はSD1.4の延長線上でしかないから
別にシステム上何か変わったという話ではなく1.4で出てきた問題点を踏まえて追加学習とチューンをしたという程度
waifu1.2とwaifu1.3の変化幅の方がデカいと思うぞ waifu1.3は話聞く限りだとさらに凄い絵が出てくるようになってそうだ 国産Trinartにも頑張ってほしいところだが、別サービスがメインってことを考えるととりあえず出来るぜアピール以上のことは無理だろうなあ… 来月以降出る音楽とか動画とかも使う練習したいし時間が足りぬ いうてWaifuのおかげでアニメ絵のクオリティはファインチューンしたStyleGAN2に追いついたけど
この先は未踏の地だから他AIの改善も必要になるし時間かかると思われ 本家でも克服は難しいと言っている手などの問題は克服したのかね?
そこが変わらないと劇的に改良とは言えないような 手とかはnegative promptの工夫である程度は改善できる
まぁ確実にキレイな手になるわけじゃなくあくまでなりやすくなるくらいだけど 1番期待のブレイクスルー、キャラ使い回しはストーリーモード搭載まで無理っぽいから当分はガチャなのは変わりない感じだね。
精度はグングン上がってるから、クリーチャー率は激減して好みでピックアップになるだろうけど。 SD1.5とWaifu1.3が両方くることによって、続きから学習するとこうなる
という事例が2個も出てくるのは良いことだと思う 1111使ってるんだけど一度の生成は16枚が限界?
寝てる間に200枚ぐらい生成できないもんかな >>210
ui-config.jsonを開いてみるといい、すぐ上の方にtxt2img/Batch count/maximumってあるから 512の学習縛りを考えると、メモリそこそこでもやっぱ速さが欲しくなるな。
試行回数は処理速度が重要だし。
つっても、将来的に512より高解像度で学習したデータが出てきたらメモリマシマシって話になるんだろうが。
省メモリも限界あるだろうしなあ。 >>181
いろいろと禁じられた結果、ついにオープンカフェタイプに移行してしまった……
https://imgur.com/MFBhCGv.jpg
prompt: (((kitchen widh lamps))), (((in front of midnight urban background, dark scenery, nightscape))), (((intricate human hands fingers))), modern style, detailed face, beautiful face, by greg rutkowski and [alphonse mucha], d & d character, digital painting, concept art, smooth, sharp focus, illustration, artstation hq
negative prompt: ((((mutated hands and fingers)))), (((portrait))), ((((sky, open doors)))) >>214
これはこれですごく良いな
どちらかというとMJが得意そうなジャンルに踏み込みつつある >>212
時期はわからないけど、SD V2は1024x1024で2倍の速度、メモリは+50%必要(現在3.1GBが最小だけど、5GBが最小)になるらしい
https://mevius.5ch.net/test/read.cgi/cg/1662940688/990
5GBが最小、2倍の速度ってのが、512x512で生成した場合の話なのか、1024x1024でも5GBで2倍の速度なのかはよく分からないけど SD2で1024*1024になるなら
4090クラスのGPUでも個別の学習出来なくなるかもしれないな highres fixとか大きめのimg2imgを連続でやると割とすぐにメモリリークするんだけどおま環? >>220
img2imgのSD upscaleなら、1664 x 1024を10枚出すのは平気(RTX3060) 小さい画像を合わせるSDアップスケールは話が違くない? >>220
highres. fixの場合はテストで1600 x 1216を3枚目に突入したとこだけど、このサイズだと残像すごくて実用は無理だな……
832x512程度なら10枚ずつ出してるけど、さすがに小さいか。 凄い今さらな話だが、1111のネガティブpromptってトークン制限ある? 警告でないから調子に乗って突っ込んでたら、後半効かなくなってる感じで。 >>224
試しに無効になると即わかるようなのを最後に持ってきてみればいいんじゃね? どなたか、waifu_diffusionのfullemaじゃないモデルの場所か、fullema.ckptから不要部分を取り除く方法を教えていただけませんか?
東方project aiのDiscordにあることまでは調べたのですが場所がわからず困っています
既出だったらすみません >>224
普通のpromptと一緒で76トークン colabを利用してTIにチャレンジしてるけど上手くいかない途中で止まる
無料枠だと途中で限界に来てしまうのか?
画像4枚、サイズ512に揃えてステップ数9000にして走らせてたけど途中で止まってた
ステップを3000に落として再チャレンジ中だけどイマイチ仕様が分からん
TI済みのトレーニングデータをステ9000とか1万以上で上げてる人いたけど有料でやってるのか? 素のSDでこんなの出来ちゃったけどどうする?
girl, detailed face, beautiful face, by CLAMP, screentone
Negative prompt: ((((mutated hands and fingers))))
Steps: 20, Sampler: Euler a, CFG scale: 7.5, Seed: 1, Size: 512x512, Model hash: 4af45990
https://i.imgur.com/yVnnDer.png >>233-234
凄いなあ‥来月には普通にプロレベルの漫画描けそう 重ね重ね申し訳ありません
前スレで話題に出た、1111automaticでgradioのoutput欄に出力画像を表示させなくする方法をご存知の方いたら教えてください
自分でも引き続き調べます openAIが「人間レベルの」音声認識を発表したけど、インストール・使い方がわからない
https://github.com/openai/whisper
コマンドラインで
whisper japanese.wav --language Japanese
とかできると書いているけど、そもそもwhisperコマンドがない >>239
pip install git+https://github.com/openai/whisper.git
これで /usr/local/bin/whisper がインストールされる。 音声の話でCG板としてはスレチですみません。 長く鬱陶しくなるようであれば場所を変えます。
>>239
ありがとうございます。
単純に見落としていました・・・
whisper audio.aac --language Japanese --task transcribe
これで日本語も文字起こしできました。わりと間違ってますが、他の文字起こし使ったことがないので精度が良い方なのかどうか不明
--translateにすると英語に翻訳されます。 英語→日本語がほしいけど多分無理?
--device "cuda" をつけると Torch not compiled with CUDA enabledで落ちるので遅いですね。
改良されていくと思いますが さくっとcuda-toolkit入れずにimage作ってみたらCPUで動いた。
$ singularity exec ubuntu-20.04-whisper.sif whisper voice-01-01.ogg --language Japanese
/usr/local/lib/python3.8/dist-packages/whisper/transcribe.py:70: UserWarning: FP16 is not supported on CPU; using FP32 instead
warnings.warn("FP16 is not supported on CPU; using FP32 instead")
[00:00.000 --> 00:07.940] 私はマミアマミと言います ちょっと冗談みたいな名前ですよね >>237
簡単にやりたいならui.pyの423行目をvisible=Falseにすればおk
ちょっと表示崩れるかもだけど
txt2img_gallery = gr.Gallery(label='Output', elem_id='txt2img_gallery', visible=False).style(grid=4)
https://github.com/AUTOMATIC1111/stable-diffusion-webui/blob/master/modules/ui.py#L423 >>242
先に適切なバージョンのtorchをインストールしておくとOK(torchvision torchaudioはいらんか?)
pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu113 >>234
明らかに吹き出しの学習素材がエロ漫画で草 今週末にThrowawayDiffusionなんて名前のアニメ系NSFWモデルでるらしい 電車の車内で立ってる女の子描いてくれって難しい注文出すと
平気で青空背景に申し訳程度の電車の窓枠だけ描いて誤魔化してくるのが笑える 結構コスパ良い、colabに課金するより良いかも
https://www.runpod.io >>242
そろそろスレ違いもいいところですが、google翻訳のコマンドラインインターフェース(Ubuntuだとtranslate-shellとbsdmainutils)をインストールするとヨシ!
whisperの標準出力を全部回しちゃってるけどまあいいでしょう。
$ singularity exec ubuntu-20.04-whisper-2.sif sh -c "whisper sample/CD1-7.mp3 | trans -b en:ja"
/usr/local/lib/python3.8/dist-packages/whisper/transcribe.py:70: UserWarning: FP16 is not supported on CPU; using FP32 instead
warnings.warn("FP16 is not supported on CPU; using FP32 instead")
最初の 30 秒までを使用して言語を検出します。 `--language` を使用して言語を指定します
Did you mean: Detect language: english
検出された言語: 英語
[00:00.000 --> 00:12.000] 4. 私のフライトは何時に出発しますか? >>251
そこコスパが良いせいでTextualInversionとかの用途で殺到してて今空きが無いらしいじゃん >>247
ありがとうございます。 miniconda環境なのですが以下の手順でcudaで動きました。
---
miniconda
(base) C:\t\whisper>python -V
Python 3.9.12
python -m venv env
env\Scritps\activate
pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu113
pip install git+https://github.com/openai/whisper.git
whisper "AMA - Emad, Bill, Zach - 2022-09-03 17-59-34.mp3" --task transcribe --device "cuda"
→ 文字起こし成功
---
やっぱり日本語翻訳が欲しいw 人間も前後の文脈で補完しながら会話してるし認識精度は内容次第になりそうだな
YOUTUBEの字幕機能もほぼ固有名詞しか出てこない競馬実況だとひどいことになるし >239
はいnpakaさん早かった
Google Colab で はじめる OpenAI Whisper|npaka|note
https://note.com/npaka/n/neb755633eb43 2022/9/3 DiscordでのEmad Q&Aライブ (1/3)
Q 手、顔は改善されるの?
A 1.5で少し良くなっている。V3では指数関数的に改善される。
・コードと学習の両面でより大きいウィンドウでより長い学習することによる改善
・顔固有のファインチューニング。 (DALLE-E2は既に特定の顔モデルを持っている)
・データの質。LIAON-2Bは量は多いが、より質の高い構造化データのサブセットにLAIONと取り組んでいる
Q APIで1000枚生成要求したら、バッチ処理になる?並列処理になる?
A 並列処理なので1000枚同時に取得することもできる
Q GPT-3やもうすぐ出るGPT-4のオープンソース版を作ってくれない?
A Luther AIコミュニティを通じてGPTJ、GPT Neoその他バリエーションをリリースした。(最大200億パラメータ)
GPT-4はすごそうだが1兆パラメータになる。我々は効率的なモデルにフォーカスしている。
言語モデルでは色々ありRWKV(attension freeでGPTの10倍以上効率的)も有望だ
我々が取り組んでいる中で最も興味深いのは、Chinchillaだ。GPTやBloomのような巨大モデルは適切に学習しておらず効率が悪いと考えている。
GPT3からinstructGPTのように巨大パラメータモデルは縮小することができる。
Q "Stabler" Diffusionと前にEmadは言ったがそれはViTの改良?
A 我々はOpenCLIPチームとViT-Hを作っている。V2、V3はより安定し、DALLE-E2より確実に高品質になる
Q 3Dモデルの計画はある?
A ある。three.jsと互換性のあるGLBファイルはJSON+テクスチャのセット
テクスチャはStableDiffusionで作れる ※3Dも同じなの??
これはUnityと話しているところ・・・、あ言っちゃダメだった。でも誰と話してるかは想像はつくでしょう。
NeRF、DreamFieldなどの研究は裏でたくさん支援していて今後6~12ヶ月で爆発的に普及すると思う。
3Dは最も力を入れている分野で多くのリソースを投入しています。 2022/9/3 DiscordでのEmad Q&Aライブ (2/3)
Q テキストを信頼できるものにするにはどのぐらいのサイズのモデルが必要?
A T5XXLやUL2は、今から年末までの間に20億パラメータまで最適化されると思う。
これはImagineatorなどの画像処理にも対応している。多くの最適化が必要だが言語だけなら10億パラメータ以下になるのではないか。
我々はT5XXLやUL2とCLIPを組み合わせて言語理解をより良くできないか実験している。
GoogleのPartiでこのような創発的な性質が現れることが分かったので。
Q 「少年」を出すと全て白人、「インド人」を出すと茶色になるんだけど?
A インドのEros(Netflixみたいな会社)と契約して多様性を反映させる予定
またオープンなので我々がやらなくても誰かでもできるし、やると思う。
Q より多くの被写体を描けないでしょうか?
A 今のモデルは最大2つの被写体しか描けない。VIT-L14ではワンショットで複数被写体を描写するのが難しい。
マルチプロンプトにはよりよい言語モデルが必要で、Dali miniのVAEのような別のアーキテクチャも必要
個のモデルはポートレートやシングルショットを学習しているので基本マルチステップ(アウトペインティングや、小さいスケッチをしてディテールを埋める等)を推奨する
Q パーソナライズされたマーケティング用の画像を作る製品を作っている。ブランドのフォントなどを様々なレベルのパラメータを制御することはできないか?
A そうしたものを1発でやろうとすると大変なことになるので、複数ツールを組み合わる方がいいと思う 2022/9/3 DiscordでのEmad Q&Aライブ (3/3)
Q Google ColabのTPUをサポートしないの?
A 我々はGoolgeと深い関係を持っていて一番早くTPU V4を入手した。今後数週間の内に発表があると思う。
Q GPU需要が急増しちゃうのでは?
A 半年でGPUは変えなくなるかも。早く買った方がいい ※それは大げさすぎでは??
Q プロンプトをプログラミングのようにもっと合理的にする計画はないの?
A "octane render"や"artstation trend"ではなく、自然言語で望むものができるようにする方向
Q ルッキンググラスで遊んでるんだけど、インタラクティブ・リアルタイムレンダーで調整ができるようにならない?
A 開発チームが増員されて近々本当にエキサイティングな発表ができる。パイプラインには多くのものが必要でみんなが改良、発明できるものにしたい。
最終的にレディプレイヤーワンのホロデッキのような体験をすることが目標でかなりの量のリソースを投入するつもり 852さんついに内容一切わからんもの売り始めててワロタ あれバックに誰かついたな
AIをビジネスとして売り出したい勢力の人物が味方についた動きしてる >>263
「いた」であって「ついた」ではないような気がするが、ともあれまあ今このムーブメントの中から売り出すならあの人以外にはないだろうさ。 色々と集合知でコツみたいなのは掴めつつあるけど、カメラアングルだけは分からん…
バーズアイ以外は有効なトークンさっぱりみちゅからぬ
人間がメインだとポートレートとかバストショットがそこそこ効いてる感じあるんだけど風景だとさっぱりんこじゃ 写真とかの説明文にアングルが書いてあることは希だから学習時の結び付きが甘いんだろうな
そういうアングルで撮られやすいシチュエーションを指定するとか、そういうアングルじゃないと見えない物を要求することで誘導するとか
そういうアングルで撮るときによく使うレンズやカメラの設定を入れるとか
回りくどく行くしかないんじゃないか この辺がそれらしくは見えているけど、個々のパーツに意味が存在しないディープラーニング絵画の泣きどころだなあ…
もっと学習深度が深くなって、被写体の距離で分類するようなレイヤーが増えればいいんだろうが。
ところでbirds viewじゃなくてaerial viewでも同じ効果出たので鳥さんに襲われる方はおススメ。 ~ viewシリーズ
closeup
close range
low angle
wide angle
aerial
first Person
product
front
back
side
isometric
panoramic
単体/遠景 high dynamic range
全部効果はあるが結局はアスペクト比 * 他Prompt * Seedの兼ね合いだからな >>270
言い換えるパターンは色々とある
直接指示
very high angle
vertical angle
overlooking
用語
bird's eye view
overhead view
機材
aerial photograph
satellite photograph
spy satellite
言葉のレベルを変えて色々と試すしかない フレームが邪魔な時は
art by <artist>にすればいいんだな 普通にアングルをファインチューニングさせれば済む話では 顔はいじらずにポーズだけ狙った形に修正する方法はないだろうか?
某人間みたいなボーンを受け付けてくれると神なんだが。 >>275
1111ならvariationでシードを固定していろいろ出してみるとか? >>276
いろいろ出しながらキーワードで誘導しようとしてはいるけど結構ムズい > 某人間みたいなボーン
なんかのキャラの能力の話かと検索しちゃったわ・・棒人間かよ >>268
カメラのショットを真似るとアングルを変えられると思う
俯瞰 aerial shot
近接 close-up shot
中間 medium shot
ロング long shot, extremely long shot
まともなPCもプログラミングの知識もなくてdreamlike.artとかで遊んでる雑魚なので
的外れなこと言ってたらごめん 他の組み合わせを追加で検証
low-angle, bust, wide, droneとshotの組み合わせは多分効いてると思う >>275
そういうときはimg2imgで体をマスクしてそこだけリトライするんじゃないの
それかいい体が出るまで回して、そこへKritaなどでいい顔を貼り付けてimg2imgで整える
こんな手法で
より思い通りの画像を作る!img2img&フォトバッシュ複合ワークフローについて[StableDiffusion]|abubu nounanka
https://note.com/abubu_nounanka/n/n3a0431d2c47a >>281
これ自作絵img2imgやマスクまではいいんだけど、途中で編集入れてるからなぁ
いや別に何も悪くないんだけど、AIだけで生成みたいな暗黙のルールがあって
ちょっと後ろめたいんだよね
> 20枚くらい生成したらそれぞれの画像から優れている部分をピックアップして
> フォトショップで合成していき完璧な狐娘を作り上げます。狐娘が出来上がったら、
> 大きく崩れてしまったベイマは消してフェーズ2ベイ画像を合成します。
何も悪くない、悪くない
某数字話氏が目をいじってるーワーワー >>282
> AIだけで生成みたいな暗黙のルール
馬鹿すぎ
某数字とかくだらんこと言ってるお前はもう書き込むな。しつこすぎだ Emad@Discord
昨日、超リファインされたデータセットでトレーニングを開始しました。43億のパラメータを超える、より優れたモデルが登場します
リリーススケジュールは決まっていませんが、かなり早いです。(セクター全体の動きが速いので遅く感じられるかもしれませんが)
また、新しい許可を得たライセンス・データセットの交渉も行い、今後の様々な改善のために多くのフィードバックに耳を傾けているところです。
V2 = 1024x1024学習モデル なのか、V3 = ViT-H学習なのか不明。
Emadさんでない人は、V3の方が先にでてV2が後になると書いてる人もいる(そんなことある?) DALL-E2 35億パラメータ
Imagen 46億パラメータ
SD1.4 9億パラメータ
SD V2 or V3 43億パラメータ
必要メモリ量が激増しないのかな。以前は+50%(最小3.1GB → 5GB)の見込みと言ってたけど 1024×1024か……ローカルで動くかな。
ラデでCudaと同じように動いてくれれば、メモリは有利なんだけどなあ。 >>281
ありがと。
要素ごとに作っていって結合しちゃえばよいのね。
この方法は歩留まりよさそうで実用的 >>246
遅くなりましたが無事出来ました!
ありがとうございました StableDiffusion用にメモリの多いグラボに買い替えようと考えているのだけど
24GBなら15万円で3090買うのと30万円で4090買うのとどちらが良いだろうか
4090なら画像の生成スピードも上がるかな >>291
メモリ数の影響が大きいんだからメモリ数だけ見ときゃいいでしょ
4090とか絶対費用ほどの効果得られん
金あるなら買えばいいと思うけど 2つ3090買って2台のPC走らせたら倍速になるな ゲームしないなら30だろう。40は消費電力もデカいから電源ユニットもかなり高くなるし。 スレチになるけど4090って日本だと税込み32万とかでしょ?
3000系の在庫処理まで考えた明らかに恣意的な値付けなんで、今買うのはないかなぁ どうせすぐ値下がりする
それでも奮発して4080 16GBだなー 余裕があるなら好きな物買えばいいと思うけど
貧乏人なら今はまだcolabで様子みといたほうがいいわ… メモリ量に対して最もコスパいいのは3060だろうな
酷使されてるけどマイニング上がりの中古が山のようにあるし
マルチGPUでメモリ合算できたら最高だったんだけどな >>291
性能2倍以上と、15万円差どっちを取るかは人によるけど予算あるなら4090でいいじゃん
デメリットがない
若干悩ましいのは4090Ti(48GB)がそのうち出るのでは、という噂もあるんだよな。まあもっと高くなるのは確実だけど (人) with 2 hornsみたいに書いたら、角の生えた人間にヤギさんそのものまで生やそうとするの草
悪役っぽいイメージ与えてるから悪魔の角→ヤギの角みたいな連想するのはわかるし正しいんだけど、ヤギさんの顔はいらないの テンプレからインストール手順消しちゃってもいいかな
知らぬ間に頻繁に変わるので編集が追い付かない
普通に最新版を英語で見たほうがいいと思う ここにいるの、ローカルにインストールする気があるならすでにインストールしてしまった人ばかりなんだよね…… 検索して来る人もいるかもだし、何がおすすめフォークかはいると思う
手順は確かに追うのが大変だね。注釈(最新版参照、不明点あれば掲示板で相談可)つけるとかかな。
公式のインストール手順もURLがちょいちょい変わったりするから誘導リンクもままならないって不安定ぶりだけどw 赤字で「古い情報、更新が早く今は変わってます」みたいに書いとけば察するんじゃね?
ないならないでなんでないの?不親切だ!みたいなことになるし・・ >>300
そこまで行くとA6000とかの方も検討したほうがよくなっちゃうな
消費電力も低い場合もあるだろうし 全身を描かせたい場合
筋肉質なほうが上手くいきやすいので
絵が上手なアメコミアーティストの一人や二人混ぜるのおすすめ 1111にLDSRが追加とあるけど、マニュアルインストールの方に入ってないですな。 ↓マニュアルインストールの場合はこれを追加するだけでよいはず。
git clone https://github.com/Hafiidz/latent-diffusion.git repositories/latent-diffusion
960x512を2倍に拡大するの、3060で8分くらいかかりおった…… ついでにSwinIRのmodelも入れてみた。reddit情報によると、↓ここから
https://github.com/JingyunLiang/SwinIR/releases
003_realSR_BSRGAN_DFOWMFC_s64w8_SwinIR-L_x4_GAN.pth
003_realSR_BSRGAN_DFOWMFC_s64w8_SwinIR-L_x4_PSNR.pth
を入れればよいらしい(それ以外は動かない?)。 初めて1週間ぐらいで右も左も分からない初心者です
https://i.imgur.com/vlhC3Yr.png
Textual Inversionでドット絵を出力させたく3日ぐらい試行錯誤しましたが画像が最高地点でそれ以上前に進めません
何が間違ってるんでしょうが?
使用機材はcolab、ckptはwaifu1.2、入力画像はフリーのドット絵集です 十分ドット絵風になってる気がするけど。プロンプトにpixel artとか入れてみては? 顔はWaifuとTrinartのおかげで、もうどうにでもなるんだけどネックはやっぱ指と手の辺りだな…… なんか草
普通にTIなしでpixel artっていれるだけでもドット絵でるよ
TIするときは構図とか被写体をある程度固定したほうがいいっぽい
欲張って色々いれると何エポック回してもぐちゃぐちゃ 結局のところ生成されるのは「一般人がなんとなく抱いているイメージ」なので無理じゃね
ファミコンのドット絵を指定しても平気で10色くらい使いそう
逆に言うと「(アメリカ)一般人が抱いているイメージ」を確認するには使いやすい
民主的(democratic)を入れるとなんでも青と赤のツートンカラーになる(米民主党のイメージカラーが赤と青だから) LDSR、使う時に無いと自分でインストールし始めるみたいね。
それにしても、くっそ時間かかるな……。通常の2割も出てないわ。 LDSRもSwinIRもESRGenより画質何か悪いな
SwinIRの超解像の性能はESRGenより高い筈なのに何でだ >>311
003_realSR_ (略) -with-dict-keys-params-and-params_ema.pth
てのも動く >>312
身も蓋もないことを言うとAIはキャラドット絵との相性が最悪なのでこれ以上は無理 ありがとうございます
プロンプトや設定を色々いじってもこれ以上進まなくなったので諦めます 出先なので試せないけど、ビデオでスタイル転送ができるこれどうなんだろう
VToonify Controllable High-Resolution Portrait Video Style Transfer
https://twitter.com/_akhaliq/status/1573112897710039041
https://github.com/williamyang1991/VToonify
Twitterのレスみると、1フレームが100msで描画できると書いてる人いる
"Portrait"だから用途は限定されそうだけど、VTuberみたいな使い方はできたりするのかも
https://twitter.com/5chan_nel (5ch newer account) >>322
こいつはvtuberに向かないな。おっさんが女キャラ演じたくてもおかまにしかならない
snowのフィルターみたいな用途じゃないかな ファインチューニングして物を認識させたいんだけど、入力画像を512x512のサイズに拡大してv1-finetune.yamlで学習させたら画風自体が変わるようになってしまった
これってもしかして学習に使った画像の大きさ・位置にしか出ない?
手とかアクセサリーとか、物単位で学習させて、画像に合わせて適切な方向・サイズで出てきてくれたら嬉しいなぁって思ってやってみたんだけど
それは無理なのかな?それとも単に方法が違う? 多分TIだろうけどfine tuningはいくつかやり方あるからどの方法でやりたいか言わない誰も何も言えないかも こちら、秋の森で獲物を探す猟師さん
outpaintingで追加してるので元画像は一回り大きかったのだけど、いろいろ難があって縮小してあります。
https://i.imgur.com/Gs2NVMA.png
Real-ESRGAN 4x plus anime 6Bを使ったSD upscale
https://i.imgur.com/8A11Zk0.png
LDSRを使ったSD upscale
https://i.imgur.com/PR06VfM.png
003_realSR_BSRGAN_DFOWMFC_s64w8_SwinIR-L_x4_GANを使ったSD upscale
https://i.imgur.com/Nl5jsMI.png
各10枚ずつ出して一番良さそうなのをピックアップしてあります。
背景が複雑だとDenoising strengthを0.15まで下げても妖精さんが湧いてきてツライ
LDSRとSwinIRは前景の描画が細やかになりますな。 >>312
dreamboothの方がいいんじゃね
知らんけど こちら追加でReal-ESRGAN 4x plusを使ったSD upscale
https://imgur.com/QQ2ixhZ.png
このくらい背景が複雑になるとReal-ESRGAN 4x plus anime 6Bじゃない方がいいかもな…… >>327
LDSRいいね
葉っぱ一枚一枚細かい部分も描かれてる >>326
一杯あるんだ……Textual Inversionです。txt2imgで特定の単語で任意の画像を出したりしたいです
>>325
https://towardsdatascience.com/how-to-fine-tune-stable-diffusion-using-textual-inversion-b995d7ecc095
わからない……ここを参考にしてやってみたけどダメでした
「v1-finetune.yamlはオブジェクト学習用」って書いてあったから、多分これでいいんだろうって思い込んで学習させてたら
画風みたいに画像全体に影響するようになってしまいました(学習させたアクセサリーの形に人物が歪んだり、模様が入ってしまう) waifuやとりんさまは簡単な呪文でいい感じの絵が出るから持て囃されてたけど
呪文の研究が進んでみるとSD1.4のほうがいい面も結構あるんだな
神絵師っぽい絵柄の制服JKとかはSD1.4のほうが上手く出せてる印象がある >>331
youtubeで無料素材製作@犬小屋って人が動画上げてるから調べてみ?
ただしGoogle colabでトレーニングだから有料使わないのならGPU制限に引っかかる可能性がある
objectでなくstyleで学習させてたら全体の画風が変わる
learning_rateやmax_train_stepsの数値でも学習深度から絵柄が変わる
低過ぎても高過ぎても駄目で手探り状態だわ >>333
wifuは無断転載のdanbooruを食わせた二次元向け学習モデルだからね
簡単な呪文で量産型萌えイラストを出すのは容易でもそれ以上になると厳しい
ゲーム画面を学習したみたいなモノまであったから質もピンキリよ
(画像生成したら明らかにゲームUIみたいなのが付いてきた) waifuはnegativeで質の悪い画像を参照しないようにするのが効果的だぞ Waifuは謎文字召喚率がめっちゃ高いからネガティブでtextとかtitle弾くのはほぼ必須。
言ってみれば二次系闇鍋。 >>332 おっ、kawaii
真ん中の巨大な鉛筆? はちょっと笑った
手をよくするとされる呪文もあるよ どうなることやら
https://nv-tlabs.github.io/GET3D/
>>337
イチから作り直したんではないから、SDモデルで学習されたものはそのまま活きてるよ。
ゲームUIが出るのもそれが理由。改変の影響で、出やすくなるor出づらくなるものはあるけど。 >>340
横長にしてるので、たぶん512pxを境に両方から腕が伸びてきて腕しか残らなかったんだと思うw
一応、(((intricate human hands fingers)))とネガに((((mutated hands and fingers))))は突っ込んでるんだけど……
複数人間が出てくるとさすがにキツイっぽい。 >>341
あの雑な学習は本家のものだったのか・・・
ただネガで弾きまくると最後には実写が登場してきて困る >>337
無断転載何も関係なくて草
ゲーム画面はwaifuで追加学習したものでは絶対なくて草 無断転載はダメということは逆に金出して買ったアニメのDVDを学習させるのはセーフということか ネガティブで肥満とか熟女とか黒人とかどんどん弾いていくと
逆に実写要素が強まっていくのはどういう理屈なんだ 1111でLDSRを使ってみると下記のエラーが表示されました
「RuntimeError: PytorchStreamReader failed reading zip archive: failed finding central directory」
自動でシステムがダウンロードされるものではなく別途手動でインストールが必要なのでしょうか?… >>348
まずは、↓これができているか確認を。
stable-diffusion-webui/repositories/latent-diffusion
実行時にmodelはここにダウンロードされるはず(stable-diffusion-webuiディレクトリから起動していれば)。
stable-diffusion-webui/repositories/latent-diffusion/experiments/pretrained_models/
model.chkpt と project.yaml があって、 model.chkpt は1.9GBほどのサイズ。 >>349
ありがとうございます!
model.chkptがダウンロードされていることを知らず動作していないと思い途中でストップし
中途半端なデータ状態になっていたのが原因のようで、手動でダウンロードしていたものと置き換えたら出来ました!! detailed art by <風景絵師の名前>で大体人消える でぃすこより
Waifu Diffusion v1.3の進捗状況を少し報告します。
- データ量を30万画像から60万画像に増やしました。現在、データセットを単純に200万画像にしようかとも考えていますが、モデルが学習を終えるまでにあと2週間ほどかかることが唯一の問題点です。何か問題があれば教えてください。
- 学習時には、変分解像度が使用されます。これにより、モデルは、誰かの手足がぐらついたスパゲティーのように見えることなく、様々なアスペクト比の画像を生成できるようになりますし、512x512でない画像にも大いに役立ちます。
- 通常のキャプションスタイルが使用され、タグの順序もランダム化されるため、touhou komeiji_koishi solo portrait looking_at_viewer の代わりに、トレーニング中に見られるキャプションは portrait, looking at viewer, touhou, solo, komeiji koishi のように見えます。つまり、アンダースコアがなくなるというのは良いニュースです。
データセットのサイズが30万画像から大幅に増加するため、モデルのリリース日が1?2週間遅れる可能性が非常に高くなります。 お、手足の精度が上がるのか。そして延期…
まあ精度上がってくれる方が嬉しいな AI規制により、StableDiffusionを名指しで禁止しようとする動きもあるらしい
Discord抜粋 (私が雑要約)
ホワイトハウスのAI政策タスクフォース委員
・技術的に既にデータセットに入っている作品をオプトアウトすることはできないため、規制し
合意のないデータを中心に構築されたモデルを根絶するしかない。
・StableDiffusionの禁止を望んでおり、ホワイトハウスに直談判している
・クリエーターの収益化が必要であり、オープンソースAIとAIアートに対抗する組織が必要
Emad: そう考えているのは彼女だけではない。EUも規制を考えている
https://www.brookings.edu/blog/techtank/2022/08/24/the-eus-attempt-to-regulate-open-source-ai-is-counterproductive/amp/
・人工知能法に取り組んでいるEUの立法機関で汎用AI(GPAI)の規制が検討されている。
・目的:よりツールを安全に使用できること。フェイク、偽情報への対応等
現状のGPAIの不透明性を問題視している。バイアスが意図的に操作されていないか等
・しかしオープンソースGPAIへの法的責任が重くなり弱体化すると、
大規模AI企業への権力集中が更に進み、一般の人々のAI理解が妨害される危険もある
・汎用AI(GPAI)=(曖昧だが)複数の場面で利用可能なAI。画像生成、翻訳、ロボット制御、等
規制はGPAI開発者にリスク管理、データ管理、透明性、精度、セキュリティ等の基準を満たすよう要求するもの
・規制への反論:既にAI法で規制(雇用、安全性)はある。オープンソースを明示的に入れるべきではない。オープンソースは(1)巨大企業への集中緩和、(2)AIの仕組みの一般理解の浸透で大きな役割を果たしている
大手AI企業はこの規制に法的に不備なオープンソース開発者を訴訟することも可能性になる。 しまった・・・。技術スレの話題ではないですね。 総合の方にいきます。
もしコメントなどあればそちらで >>352
是非、是非プロンプト教えていただきたい… LDSRってESRGANみたいなもんかと思ったら全然違った・・めっちゃ時間かかる
LDSRで検索しても何も出てこないけど、具体的には何やってるの?
Latent Diffusion Super Resolution? プロンプトの動き見てると、元画像を専用のmodel.ckptに学習させて、それをもとにアップスケールかけてるように見える。
時間がめっさかかるのはこの学習?パートでアップスケールそのものは普通って感じ。 自分の貧弱4GBグラボじゃLDSRは100%まで20分くらい、
しかも100%になったらメモリが足りないので生成出来なかったとエラー
それ最初に言ってくれ(T_T) >>358
公式SDの ttps://github.com/CompVis/latent-diffusion これじゃないの? Textual Inversion やってみようかと思ってInvokeAIインストールしてみたけど、wsl2のせいなのかNCCL errorが出てダメやった……
そのうちまた挑戦しよう。 >>366
素晴らしい
これめっちゃ頻繁に使うから、本家にプルリクして欲しい >>366
本家に連絡して、そのまま機能を入れてもらうんや
「日本の掲示板で公表したら思いのほか好評だったので」とか言ってええで まあ俺は動くの確認してないけど、それは大丈夫かなw ちなみに取り込まれるかどうかわからんが、プルリクはしてみた promptコピペしてー
negativeコピペしてー
seedコピペしてー
サイズ調整してー
samlerとstepとcfg調整してー
細かく調整しながら大量に作って、あとから選んでると
promptは念のため結局コピペさせられてるんだよなぁ
みんな思ってるから高確率で採用されると思う 結局1.5も公開されないしアニメ特化も出ないまま
動画版とかも公開されないのでは Macのグラボ、seedが機能せず再現性を持たせられないみたいで笑った(俺の環境でもそうなってる)
Macはほんと置いてけぼりだな…いいのは見た目だけ… 大幅進化してるらしいwaifu1.3が来週か再来週には出るもんな out paintingは辺を一気にガツッとかけちゃうんじゃなくてinfinityとかダリみたいにスクエアを動かして作って行きたいなあ。
ちょっとづつ伸ばす方が、多分望んだ方に誘導しやすいと思うし。
Inpaintingもマスク決めたらかなりガチャって採用決めてくし。out paintingもそんな感じでおながいします。 python出来るやつにuiの改造頼んでるわ
金はかかるけど使いやすくていいぞ☺ >>380
八百屋が大量に抱えてしまったダイコンについて「今が底値だ」 1111、なんか気がついたらセッティングの項目メッチャ増えとるw 1girl, mouth_veil, arabian_clothes, armpits, bangle, bead_bracelet, bikini, bracelet, breasts, brown_hair, dancer, earrings, jewelry, midriff, navel
https://imgur.com/rtZ4bus
https://imgur.com/2fg3LNs >>384
凄い
水着が小さくて乳がはみ出る高等テクも採用されとるけど
来月には抜けるレベルになるな >>353
> 学習時には、変分解像度が使用されます。> これにより、モデルは、誰かの手足がぐらついたスパゲティーのように見えることなく、
> 様々なアスペクト比の画像を生成できるようになりますし、512x512でない画像にも大いに役立ちます。
これ楽しみだね どんどん使いやすくなってるおかげで、このぐらいならもう脳死でガンガン回して気に入ったのあったらキープしてインペって感じだな。
https://imgur.com/a/9Q9KbIb >>387
凄いな・・ちょっと前だったらそこそこのプロ絵描きレベルじゃないか >>384,488
AIが書いたのは凄い、レベルで
絵自体は全然良くないね。普通にヘタクソ 人間でも...いや何でもない
>>389 のレベルによるので控える 確かにちょっと前のソシャゲとかだとコレより微妙な絵も普通に使われてたな
もっと言えば黎明期のエロソシャゲとかこれとは比較にならないレベルで下手だった
それでも商売として成り立ってたんだから一応プロの絵って事だったんだよな >>389のレベルというより、Pixiv、Artstation、日本の漫画、Pinterest、・・・どこみたって>>384,388レベルの絵が高評価されるとこなんてないでしょ
技術スレの話題ではないけど 神絵はともかく一般絵だとこれより下手な人の方が多い
なので >>389 が目だけ肥えてるタイプか描けるタイプかで意味は変わる >>393
あいかわらず反AIの絵師くんはアホだなぁw
あっというまに人間追い越すわ 単にAIがヘタな虹絵も学習してしまってるからだろうな
例えば目と耳がくっついてるような絵ってあるじゃない。ああいうのはプロの絵でも横行してて
別に誰も指摘しない。上のAIでもちょっとその傾向が出てる。 >>389
え?そんなことなくない?
ヘタクソじゃないでしょ >>393
プロレベルでも酷い絵結構あったでしょ?見たことない? >>394-395
なんでいきなり下手な人は大勢いるとか、AIは追い越すとかって話になるんだ。そりゃそうだが>>384,388がヘタクソな絵ってのは変わらないでしょ
目が肥えてるとか描けるかとかも何も関係ない
下手か上手いかは主観の問題だけど、少なくともPixiv、Artstation、漫画、同人誌、Pinterest、Twitterとかで高評価になることはない絵 そもそもAIの下手さって人間とは違う傾向にあると思う
人間がまず躓く光の表現が上手い一方で構造はイマイチって言うね
人間の初心者の場合、陰影が上手い人ってまず居ないから
AIの絵がパッと見良く見えるのはソレが原因じゃないかな 上手いか下手かでいうと、下手の部類に入っちゃうだろうね。
AIにしては上手いというの確かだろう。
けど、これ出力するのにかかった時間は秒単位なんだぜ…
その気になれば100枚ぐらいあっさり出せる。
この速さがAIの最大の武器だな。
一旦、ある程度のクォリティに達したら、そこから下がることなく秒単位でバンバン出せるんや。
誰にでも。 色と光の表現は良いし、初期のアニメ絵は出せないとか言ってた頃からすれば凄い進歩だけどね
でも量産できるってのはあまりメリットにならないと思う。むしろ価値が落ちる
同じキャラを描いてくれないのも欠点の一つだし >>402
水着のねーちゃんの顔のパーツが輪郭からずれてる
人間もやりがちなミス 髪で見えないが耳があったら耳が目とくっついてる絵になる >>389の目の正しさを確認するためにも>>488には期待だな
とりあえずAIの絵が下手かどうかを論ずる前にもうちょっとレスの仕方が上手くなると良いのだが SDが出たての頃って、人間の顔描くだけで四苦八苦してたんだよなw
今からは信じられんわ >>399
お前さんは目が肥えてんだろうけど、絵をまるで描かない人間からすれば充分上手だぞ
ていうかプロンプト次第ではもっとすごい絵いっぱい溢れてんじゃん?見てないの?
それでも下手だとか言い出すならそりゃもう単なる嫉妬かお前がとんでもない天才画家様かのどちらかだよ 元がここに貼られた画像に対する評価の話だから最初は仕方ない部分もあるがいい加減技術の話から外れてるからこっち行ってやれ
【Midjourney】AI関連総合4【StableDiffusion】
https://mevius.5ch.net/test/read.cgi/cg/1663773701/ >>409
ごめん
両方見てるからごっちゃになってきてたわ >>408
何言ってるのかさっぱり分からないが、上の絵がヘタクソって話と他にいいAI絵があるって話が何の関係があるんだw
そりゃ他にいいAI絵はあるよ。それがどうかしたのか? >>409
元々プロンプトもない絵をただ貼ること自体スレチだしね。 構ってほしいだけのレス乞食を相手する方も悪い
即NG入れて無視しとけ そういや、AIの絵を貼るだけのスレって何気に無いんだなw >>411
あなた様の言い方が反AIのクソ絵師っぽいと思ったのでAI様をバカにされたようで腹が立ったんですごめんなさいもうしませんAI様最高ですよね いい絵っていったってここに上がったのも何十も試行しての結果だろう
一分で素晴らしい絵が描けるってのは語弊があるよな へーへーごめんなさいねぇ なんか気に障ること言っちゃったかな
別にこの話題引っ張る気もないしまだ4レスしかしてねぇんだけど
二匹とか何エラソーに お前は何様だよ 前もあった流れだがなぁ
はーい 私 が わ る う う ご ざ い ま し た
満足か?必死な自治厨 まあ せいぜいがんばれや >>383
出力のサブディレクトリに[model_hash]使えばモデルごとに出力分けられるな! 前スレ辺りでプロ級の絵がうpされてたけど、見る人が見たら肩の角度が~なんて判断でアマ級になってたろ
SDなんてただの道具でしかない
人間側に能力ないといい絵は作れないんだよ 誘導されていきなりキレて暴れだすやつって最初の方のスレにもいたな
同じやつかな、そこまでプライド高すぎるのはちょっとまずいぞ その話題もスレ違いじゃねーの
高すぎるプライドじゃないね。だが人間としてのプライドはある
畜生みたいに言われたりゴミって言われたら怒るよ あたりまえでしょ 他人をゴミ呼ばわりするほうがキチガイだね 俺の生きてきた世界ではね これネタじゃなくて本当なのだとしたらかなりかわいそうな人だな
絵師だろ?おそらく
実は単なる中高生の荒らしでした、っていうオチであってほしい
本当にこんな人間がいるだなんて、あまりにも悲しくて スレ違いだから終わるがAIがどうのという前に人間としての常識をわきまえろ 以上だ
続きやりたいなら誘導先でやれ 俺がレスするとは限らないがな 下らんと思ったら永久に閉じて去るから心配すんな 自治厨くん、こいつらは「匹」にはいらないのかい?ずいぶん偏向がある誘導なんだね
終わり あーくだらね おっしゃ、イケメンpromptもでけた。
次はイケオジとアニキpromptだな。
しかし、ホモくせえw
https://imgur.com/a/nTk4Mwh なろうとか書いてる文字書きには嬉しいアプリだろうな、これ。
特定のキャラの色んなシーンは描けないけど、雰囲気だけなら十分に絵でも伝えられるもん。 10girlsとかboysとか複数形と画像の横幅が勝利の鍵かしら 横幅の勝利だと思う。だから、2人居るシーンってよく見ると片方が透けてるんよ。
おそらく、左の512に1人かいて右の512に別人を書いて合成してる感じで動いてる。
もっと人を出すのはもうちょっとpromptを煮詰めんとね。
>>431も>>387も1promptのバッチカウントぶん回しだから、汎用性のあるpromptにはなってきてる手応えある。 1111版のPNG Infoタブに「Send to txt2img」と「Send to img2img」のボタンがついたヨー >>436
さっそく活用中w そしてpromptにバージョン管理も来てるよー
そのうちgitみたいにpromptのフォーク管理とかできるようになるんじゃねw >>366が採用されたの?単に>>373?
まぁ、どっちでもいいけどw PNG InfoのSend to txt2img、seed値も送るから -1 に直し忘れると同じ絵が出てくるw >>440
TrinartとWaifuのちゃんぽんckpt。Waifu純粋だと、モロに洋物メンズしか出てこんから…… >>442
なるほどありがとう
それならtrinart単体でもイケメン生成できるのかな
やってみよ…まずは導入からだ 1111で4batch とかで生成すると結構な頻度でguiがバグる
絵はファイルとしては生成されてるんだけど右の画面に出てこず、generateボタンが反応しなくなる
colabだからかな >>444
オスカー賞w
>>447
colabはディスクの書き込みは遅いので、そこで止まるっぽい。
grid生成してると、高確率で返事返ってこなくなる。 うーん、年齢が安定せんな……
しかし、ランダムシードで回してる割には爺ぃはそっくりさん率高えなw
https://imgur.com/a/uyV60rs >>453
画面変わって、SD UPSCALEはIMG2IMGの一番下のスクリプトに収納されたよ。
俺も最初戸惑ったw Waifuで二次絵を出力したいのにドールみたいなリアル系の顔が出てくるのを簡単に抑える方法無いかな キチ消えたと思ったら日記帳になってんじゃん。書き込むならプロンプトも載せろよ
20yo man, wear paradin armor, chest up portrait shot, anime face, dark hair
insane detailed, highly detailed, [[greg rutkowski]], trend on artstation
Negative prompt: penis, helmet, mask,((poorly drawn face)), ((poorly drawn hands)), ((poorly drawn feet))
, (disfigured), ((out of frame)), (((long neck))), (big ears), ((((tiling)))), ((bad hands)), (bad art), legs
https://i.imgur.com/xvNdN8o.png
20yo man, → 20yo japanese man, loli face,
https://i.imgur.com/UT5lsVI.jpg >>454
ありがとう
よく使うから上のままでいいのに・・ >>456
参考になる
ネガティブの先頭でわろたわ、ネガティブ付けないと出ちゃうのか… >>455
portrait(肖像画)をネガティブに入れるのがお手軽
danbooruにはportraitというタグはほとんど付いていないのでSDで学習してたリアルな顔の描き方だけ忘れてくれる
dollとかphoto faceとかも効く グレッグさんはさすがに最大級の被害者
プロンプト入力してる人たちの大半がグレッグさん本人のことや作品を知らないだろうなというのもやばい
右にならえでみんな入れてるし
スレチなのは分かるけどすまんw TGSVRでGrzegorz Rutkowski(別名義)の作品みたよ 1111の連続出力しようとすると高確率で無反応になるなあ 1111の出力上限16枚がうざすぎる・・・
寝てる時にもっと出力したいよ とりんさまが同じ顔ばっかり出すのを利用すると
同じ子に制服着せたり裸にしたりが割と簡単にできるんだな
何なら人間が描くより作画安定してるわ >>466
テンプレから
>webui.batと同じディレクトリにある「ui-config.json」をテキストエディタで開く。9行目の「"txt2img/Batch count/maximum": 16,」の数値を増やして保存しStable Diffusionを再起動する 割と汎用性の高いpromptがそこそこ仕上がったと思うんで共有してみる。
beautiful <塗りの種類> 8k wallpaper kawaii anime (<主な人物の簡単な情報>) with <動きを想像出来る場面>,(((intricate human hands fingers))), (navels), wearing <着ている服>,beautiful face,<主たる人物の髪とか>
ネガティブは崩れないお呪い一択で変更無し
Negative prompt: ((((mutated hands and fingers)))),((poorly_drawn_face)), ((poorly drawn hands)), ((poorly drawn feet)), fat, (disfigured), ((out of frame)), (((long neck))), (big ears), ((((tiling)))), ((bad hands)), (bad art), (((text title signature)))
ガチャ必須で収率は正直よろしく無いが、ほぼどんなシーンでも使い回しが効くと思う。
ポイントは<動きを想像出来る場面>で、ここに動きを入れることでAIさんが勝手に妄想エンジン全開で動きをつけてくれる。
では、具体例をば。
beautiful CG painting 8k wallpaper kawaii anime (kawaii 1girl soldier) with fierce training grounds under the hot sun,(((intricate human hands fingers))), (navels), wearing uniform for infantrymen,beautiful face
ネガ略
https://imgur.com/E8RanYx
正直、動きの情報が複雑すぎて大暴れw
beautiful CG painting 8k wallpaper kawaii anime (kawaii 1girl student) withHoliday Underground Mall,(((intricate human hands fingers))), (navels), wearing Cute personal clothes,beautiful face,long hair
ネガ略
https://imgur.com/Mpc8YAQ
Trin系大活躍w
beautiful CG painting 8k wallpaper kawaii anime (fantasic 1girl ) with Dungeon where monsters lurk,(((intricate human hands fingers))), (navels), wearing Fantastic knight's armor,beautiful face,golden
ネガ略
https://imgur.com/oM4MuoM
鎧なんかのディテールはWaifuが強い気がする
こんな感じで、ポーズや構図を全部AIに任せるので数は回さなきゃダメだけどほぼほぼどんなシーンでも使える。
あと、引きで顔が崩れたらinペインティングで修正って感じ。数が勝負だからSTEPは30で十分。20でもおk ブラウザ翻訳すれば使い方なんてバカでもわかるのにちゃんと公式読まねぇ奴多すぎるわ
あとテンプレの内容もだいぶ古いな
Automatic1111版はだいぶ前からckptの名前変更も必要無くなってるし サブディレクトリのカスタマイズが出来るのはいいんだけど既存の出力を整理するのが苦痛… >>459
>>460
ありがとー
>dollとかphoto faceとか
がよく効きました img2imgでアップスケーラーを多用してる自分としては下部のスクリプトに組み込まれてしまったのは不便だな…
戻す予定ないんだろうか… gyaru, detailed face, beautiful face, by <人物画家>, screentone
普通のSDでもそこそこの確率で漫画風の美女が出る
ルイ・イカールとかだと昭和の少女漫画風になる
うまくいく人といかない人がいるので実験で
gyaru, detailed face, beautiful face, by Alphonse Mucha, screentone
Steps: 20, Sampler: Euler a, CFG scale: 7.5, Seed: 0, Size: 512x512, Model hash: 4af45990
https://i.imgur.com/zJrW8Ch.jpg 360度HDRI背景ってどうすれば良いでしょう
頭に
A panoramic 360 seamless hdri,
て入れてみてるのですが、継ぎ目がスムーズにいきません >>480
SD完結は無理だと思うよ
フォトショ使ってつなぎ目が一枚に入るようにしてマスクつかってblur大きめでその間をペイント
ただし微妙にスムーズにならないからつなぎ目をフォトショで修正
そうやってけば縦横上下パノラマにまではなるけどHDRには・・・ >>480
シームレスにするだけなら、Automatic11111でseamlessにチェックするだけでいい気がする。
ただ、普通の背景のような画像は生成されないかもしれない
試してないけどこういうのも最近出たみたい
テキストからHDRIを生成
Text2Light: Zero-Shot Text-Driven HDR Panorama Generation
https://github.com/FrozenBurning/Text2Light
CLIP使ってるのはSDと同じだけど画像生成はオリジナル?背景に強い学習してる?
普通のGeforceとかで動くものなのか、生成可能な画像のバリエーションがどの程度かとか全然分からないけど High Dynamic Rangeは光のダイナックレンジが広いフォーマットだから加工だと撮影段階で複数の露出で何枚か撮るかHDR(10bit以上のRawも含め)で撮らないと無理っぽいけれどAIに描かせればHDRにも出来るハズということか 1111の設定にあるこれてなにですか?
あと出力サブホルダをプロンプトのハッシュ値によって自動で集合させるという凄いテクノロジー話もあった気がしたのですが、
そんなことも可能なのですか?
>VRAM usage polls per second during generation. Set to 0 to disable.
>デホルト設定値8 最大40
>生成中の 1 秒あたりの VRAM 使用量ポーリング。無効にするには 0 に設定します。
>Always print all generation info to standard output
>すべての世代情報を常に標準出力に出力します >>479のscreentoneをanimation celに変えればカラー漫画になるのでお試しあれ >>484
>VRAM usage polls per second during generation.
画像生成が終わった後で下に使ったプロンプト等が表示されて、一番下に
Time taken: 91.75s Torch active/reserved: 6346/7960 MiB, Sys VRAM: 10550/12288 MiB (85.86%)
とか出るやつじゃね?
>Always print all generation info to standard output
これは上の情報をwebuiを実行している端末の画面に出す設定かの?
>出力サブホルダをプロンプトのハッシュ値によって自動で集合
>>420のことなら、settingsで Save images to a subdirectory にチェックを入れて Directory name pattern に [model_hash] と入れれば、settingsで現在選択中のmodelのハッシュ値が付いたサブディレクトリに画像が出力されるヨ! >>484
>すべての世代情報を常に標準出力に出力します
ではなくて、
「すべての生成情報を」だと思う。 VRAM usage polls per second during generation
の方はデフォルト8 per secだし、特にどこにも毎秒8回もメモリ使用量表示されてるとこないから、内部処理の設定だと思うよ
VRAMが十分あるなら0、VRAM普通ならいじらない、4GBとか少ないなら増やした方がよさげ
Always print all generation info to standard output
こっちはコンソール画面(背景真っ黒ウインドウ)への表示。ブラウザ表示しか見てないなら無効化していい >>488
> 内部処理の設定
頼むから出鱈目言うのはやめてくれ
pollっていうのは集計って意味
よってVRAM使用状況の集計を秒毎に何回行うかという設定
8GBだと常に100%近くて特に参考にならないので自分は無効にしてる >>486
それら情報表示設定だったのですね…
VRAM使用量の制御系かと思い低RAMグラボ用に最適化出来るのかと思いました…
ハッシュは「model_hash」だと思って入力したら単純にmodel_hashというフォルダが出来て焦りました!
「[model_hash]」だったのですね! ありがとうございます!! >>489
毎秒何回取得してどうすんのって話よ。表示してるなら表示用の設定かもしれない
でも表示されてないんだから、VRAM値をなんらかのチェックをする内部処理用の設定でしょ
100%に張り付いてるならそのチェックできず異常起きる可能性あるから無効にはしない方がいいと思うよ キャッシュ君の再来?
その設定はVRAM使用量の状況を何秒ごとに取得するかの設定でしかないぞ
それで取得されたピーク値が処理後に表示されてあとどれぐらい余裕があるかの目安に使えるってだけ
短いと処理速度に影響出そうだし長いとピークを取り逃すしで暫定で8秒にされてるが変えたければ変えられるというだけ >>479
単にいつも使うプロンプトにscreentone付けただけじゃダメで、いろいろ削っていったらなんか切り絵風のカラーイラストになったw
https://imgur.com/p8yIrKy.png
https://imgur.com/I8bpp5k.png
もう少し試行錯誤してみよう……。 colabで1111版使おうとしたら、
ユーザーねーネームとパスワード求められて使えなかったわ
前まで必要なかったのに モデルによるハッシュ値フォルダへの保存てプロンプトのハッシュ値ではなく
model.ckptのハッシュ値による保存だつたのですね…
プロンプト変えても同じフォルダに保存されるから焦つた…
前スレでプロンプトのハッシュ値で保存してる人がいたような気がしたけど、
あれは1111機能ではなく自分で算出して保存してたんですね… プロンプトのハッシュって何?
モデルハッシュ/サンプラ/プロンプト
みたいなフォルダ構造にすればいいだけだよね? たしかプロンプト文字列をMD5ハッシュ値にして、その値で画像をフィルタリング出来るようにしたとか、
そんなことを書いてた人がいて、最近1111のデフォルト機能でそのハッシュ値保存が可能になったのか~と思って… プロンプトそのままファイル名にした方が使いやすそう >>473
そもそもMJとDALLE2用のスレだったので
有料サブスクとかSDには合ってないから変えた方がいいかもね、いまやメインだし >>482
面白いけどだめっぽいな
SDののりで「sunset beach, sea, cinematic light, sharp focus」で生成されたHDR(これはLDR)画像がこれ
https://i.imgur.com/graQ9HE.png
一見まともに出力されてるようだけどプロジェクトページにあるサンプル画像とまったく同じのだった
https://i.imgur.com/tcO2Nk6.jpg
https://frozenburning.github.io/projects/text2light/
「tokyo street」みたいなの試しても東京どころか道にもならないしまったく学習できてない
使うには自分で学習させてモデル作らないといけないみたいだし、そうやって作ったところできちんと生成できる保証もなし >>502
検証あり
HDRI画像学習させるのは大変だね
今後VRニーズが増えるなら環境テクスチャの自動生成も重要になると思うのでどっかが頑張って学習済みモデル提供して欲しい パソコンで絵が描けるようになった頃も似たようなことは言われてたし、すぐ順応すると思うな
アンドゥや左右反転もアナログ描きからは邪道扱いされてたし、レイヤーや3Dになるとフザケンナって感じだった
その前の時代にはスクリーントーンも似たようなことを言われてた いるよなこういう歴史を捏造する奴
俺はPC黎明期から絵描いてるけどそんなこと一切全く誰も言ってなかったぞ
むしろデジタル最初期の段階で既にイラストレーターはPCで描くのが常識で
線画だけはアナログか線画含めてフルデジタルかという程度の違いしかなかった 水彩画もパソコンで描いてたの?
それとも水彩画はイラストではない? いつの時代をもってCGの黎明期って言ってるんだって感じではある。
PC9801の16時代からCG触ってるが、流石にこの時代でCGに手を出してたプロのイラストレーターは超希少。
都築とかぐらいじゃないかな。
当時のスキャナは白黒オンリーだったのでそもそも線画しか取り込めないw
ラップスキャンと言ってサランラップに油性ペンで線画を描いてモニタに貼ると言う荒技を使ってた人も多いw
ニフティなんかでは今のpixivみたいなフォーラムがあって、そこでCGを共有してた。ちなエロは7割ぐらいw
もうちょっと時代が進んで256色使えるようになるとマカー漫画家がCGに手を出すようになってきた。
ノーラの漫画家が多かったな。こやま基夫とか。
この頃からゲームのイラストレーター はみんなCGで描くようになってきた。
正直、アナログ画家はそもそもPC使えない方が普通だったのでコピペとかアンドゥとか何それって感じで邪道もへったくれもなかったし、色の表現力とか線の繊細さなんかは当時はアナログがダントツだったので文句言うヤツなんか当然いない。
CGといえばガジェオタのオモチャと大差なかったし、ペンタブなんかも普及してなかったからむしろ変人扱いだった記憶がある。
フォトショの4ぐらいからかな。いろいろ使いやすくなったのって。 >>512
おっさんスレチだし自分語りうぜーよ
って言われるけど語りたくなる気持ちはとてもわかる
98のマルチペイントは革新的ツールだったな
オレもやったよ、サランラップ
CGはいつになっても進化し続けてて面白いわ その頃まだ生まれてないからマグロペイントとか知らんわ…… この世代のおっさんが一番CGを楽しめてるかもな
都筑和彦氏がマウスやタブレットのパソコンお絵描きをCGと呼ぶのはどうなんだろうと呟いてたことがあったが(キラキラ筆を作る少し前)、その意味ではAI画像生成の方が「コンピューター・グラフィックス」に近い PNG Infoからtxt2imgへのプロンプト送信、Highres. fixの設定は飛ばない。
全然違う絵が出て困惑しちまったよ……w >>512
生まれてないから知らんわw
なんか、昭和な絵を描いてそうw >>517
歴史の視点は大事だぞ
AIも50年以上の積み重ねで今になってる >>517
平成も34年まで続いて令和産まれがもう4歳だもんなw
まあ機会があったら昭和の2次絵を色々見てみるのも面白いもんだよ >>426
こいつがIDコロコロして荒らしてるのか Emad氏は時間帯が欧州なのか米国なのかどっちなんだろ 本家のアプデとか即フォークにも適応されるものなのか?
今だと自動1111ありきになってしまったわ 1.5ベースの再学習いるだろうし派生モデルはそれをベースにするかどうか個別判断になるんじゃない?
1.4ベースで行く人もいたりいなかったり SD1.5よりwaifu1.3のほうが進歩が大きそうだしなぁ 可愛いのは今でも十分良い感じなんで、とにかく五体をキチンとかけるモデルが欲しい…… >>525
じゃあそろそろ1.出てきてもいい気もするが 途中登校になった
そろそろ出てきてもいいがまだなんじゃろか
はよはよ(全裸大気) k_euler_a と euler_a は違うものなんでしょうか?
Automatic1111版はk_がついていないせいか、同じプロンプト・シードでも
NMKDのk_euler_aと出てくる画像が違います。k_euler_aはAutomatic版では使えないとか? AUTOMATIC1111版で違う画像が出てくるのはsplit attentionが既定で有効だから ネガィブにピカソと入れたら絵が改善するとかいうテクニックが発見されてて笑う すいません総合スレに技術的な質問はこちらと書かれてたのでいいですか?
多分初歩的な事だろうと思うのですが、この画像をアップスケールすると( https://i.imgur.com/nIVPBe5.png )
こうなって( https://i.imgur.com/0GOGOws.jpg )全体的にボヤけてデティールが無くなるんですが、その場合ってimg2imgタブにあるSD Upscaleを使えばいいんですよね?
ただそうすると( https://i.imgur.com/gZBf6rC.jpg )こうなって色々とおかしい画像になってしまいます
これを直すにはどうしたらいいんでしょうか…? >>535
upscaleだけならExtrasで適当なUpscalerを選んでやる。
SD upscaleは言うなれば拡大して描き直すので、Denoising strengthを0にすれば拡大しただけの絵になる……はず? >>536
なるほど!
いま少しPC触れないので後で試してみます しかし、>>535 の絵をSD upscaleすると漢詩みたいなのが追加されてるのワロタw >>534
グロ系のアーティストをネガティブに入れてる人はだいぶ前から4chanにいたよ detailed face, beautiful face, by <アーティスト>
のテンプレで綺麗な顔が出てこないアーティストをネガティブに入れておくと綺麗になるとか言ってるやつね 本体のアプデよりも学習方法の方が影響力高そう
余計なイラストまで学習されるとネガで弾いてもキリが無いわ
理想を求めると自分でTI回すしかないという矛盾 オリジナルのWaifu Diffusion1.2って8GBギリギリまで使うんじゃなかったっけ
1.3で追加学習して8GBのグラボで動くのかな? フルじゃなくて削除版にするんじゃね? 4GBのやつに追加って感じで。 うわああああガイジすぎて
WaifuDiffusion=SDで自分好みの女の子生成しまくること
だと思ってた
一日中ツイッターを参考にしてSDいじってたの無駄だったんか
うんこもれそう EMAのことなら削れば4GBになるし
VRAMの消費量はSD1.4とWD1.2では変わらないしEMAの有無でも変わらない(メインメモリに一旦展開するのでそこは増える)
EMAは学習の途中経過を示すもので、あるとそこから学習を再開できるが無くても画像は作れる
use_emaをtrueにするとEMAを使用してモデルを最新の学習から巻き戻して先祖帰りすることもできるが、別にそれが良いとも限らない
追加学習だけであればサイズは増えないのでWD1.3も7GBでEMA無しは4GBのはず
ネットワークの構造変えるぐらいの手入れると増大するけど
そうでないなら何かを忘れて新しく覚えるだけ ttp://twitter.com/novelaiofficial/status/1573834053031280641
waifuはこれと戦う気らしいけど、頑張ってほしい
https://twitter.com/5chan_nel (5ch newer account) fallout4のmodでこういう顔の3dモデル見たぞ >>551
乗り遅れてるかもしれないけど、このNovelAIというのは新しいSDのモデル、であってるのかな?
そのリンクのキャラの一貫性確保とかモデルでなんとかなるものなのか・・・
このエヴァとまどマギのミックスとかもかなりの完成度でどういうものか気になる
https://twitter.com/novelaiofficial/status/1572758950897917952
https://twitter.com/5chan_nel (5ch newer account) novel AIってtrinartの大元のとこじゃなかったっけ? >>553
SDが世界中の写真から絵画までジャンル問わない画像という画像を入れてるキャパシティに
danbooruの二次元画像だけ食わせながら深く学習を進めるとプロンプトと出力の結びつきが強固になって安定性が増すんだろうね
seedで変動するのはプロンプトに指定されてない部分だけと
もちろんその画像たちも大量に生成したのをチェリーピックしてる可能性も多大にあるが 無限に風景画が吐き出されてきて楽しい……
https://imgur.com/am5SwZC.jpg
プロンプトはいつものを少し改変。風景画なのでクロード・ロラン先生にもご参加いただいた。
bird view of a <主題>, modern style, by greg rutkowski and [alphonse mucha] and claude lorrain, gradient <色1> to <色2>, in front of <背景> background, digital painting, concept art, smooth, sharp focus illustration, artstation hq
Negative prompt: ((((mutated hands and fingers)))), ((portrait))
ネガは正直いるのかって気はするがw >>559
情報が古すぎる。何周遅れだ・・・(´・ω・`) 普通のSDでもここまでいけるよっていう例
gyaru, detailed face, beautiful face, by Sophie Anderson, animation cel
Steps: 20, Sampler: Euler a, CFG scale: 7.5, Seed: 2, Size: 512x512, Model hash: 4af45990
https://i.imgur.com/u2OBOkn.png v1.5来るのかな
ロンドンの今の時間は16時
v1.4は日本時間深夜3時だったからそれくらいに何か発表あるのか?
https://i.imgur.com/3BHiCuY.jpg ↙って
こことか4chanで貼られてる生成情報をプロンプト欄にペーストすると
ステップ、サンプラ、CFGスケール、シード、サイズ
を全部埋めてくれるっていうボタンだったのか キャラ固定できないから絵師の仕事奪わないと言われていたのに
早くもキャラ固定まで出来るようになるのか
どこまで進化するんだ プロンプト変形の有効活用法に今更気が付いた
前半に美人画アーティスト後半に写真アーティストって感じにプロンプトを組むと美人の写真が出てくる
girl, detailed face, beautiful face, by [Albert Lynch:Just Jared:0.5]
Steps: 20, Sampler: Euler a, CFG scale: 7.5, Seed: 0, Size: 512x512, Model hash: 4af45990
https://i.imgur.com/O9N6lu8.jpg
後半をフィギュアのブランドにすると美少女フィギュアが出てくる
girl, detailed face, beautiful face, by [Albert Lynch:Hot Toys:0.5]
Steps: 20, Sampler: Euler a, CFG scale: 7.5, Seed: 0, Size: 512x512, Model hash: 4af45990
https://i.imgur.com/7CrqJ4n.jpg 公式とかのCUI版でネガティブプロンプトってどうやるんだ…?
色々試してるけどちゃんと効いてるのかよくわからん
AUTOMATIC1111の人はどうやって的確に効くネガティブプロンプトを実装したんだろう… 公式が先月予告したものって結局まだ一個も出てないんだっけ 公式アニメ特化はSoonのままスーンってなっbス
あれWaifuのことでは無いよね プログレスバーが残り数%で遅くなるのはよくある事だしな
世界10位のスパコンでそれならもう待つしかないわ >>567
これ自分も知りたい
プロンプトで「ネガティブワード::-0.25」みたいな書き方したら重み付けできるって書いてるところも見たことあるけど、プロンプトに入れてみても効いてる感じはしないし
「--prompt-correction 'ネガティブワード::-0.2'」というので指定したらいいってのも見たことあるけど、こういうコマンドみたいなのって自分のColab上だとどこにどう書いたらいいのかわからんし >>567
数字で重み付けできる GUI の場合はマイナス指定でできないのかな。
「ネガティブウェイト指定できないのはバグか?」みたいな英文をだいぶ前に見たような >>576
リロードしてなかった…
実装は、1111版も数字での重み付けも、文字列から matrix みたいなの作るあたりで、negative prompt だけ matrix 作って引き算してるとかなのかも?
1111さんが、数字で指定できる機能を入れるにはプロンプト分割が必要になるので入れたくない、みたいな返信してたので >>569
Waifuが出たから
Waifuに負けるようなものは出せませんわ
となったのでは? >>571
日時みたいに変わってるやん(´・ω・`) >>571
日時未定に変わってるやん(´・ω・`) >>578
CompVis/stable-diffusion-v1-4そのまま持ってきてる限り使えないってこと? waifuの進化が早すぎるから下手なもの出せないのか >>583
CompVis版のtxt2img.pyをそのまま使ってるなら、ネガティブは使えない(たぶん) >>585
うーんなるほどありがとう
コマンドライン上とかColab上でネガティブプロンプト使えてる人は、その辺から違うことをしてるのか
よくわかってないけど何かできる方法ありそうな感じだし、お勉強頑張ってみるわ 遅延理由が倫理とか下らない問題じゃないといいな
自主規制なんかやり出したら終わりだよ 英語圏は日本人よりロリコンが多いのが学習元画像にも反映されてるっぽくて
現実的なシチュでかつ西洋風のワードほど女の子がロリに傾いてしまうのが困りもの
例えば入浴させるにしてもonsenとbathだと後者はかなりはっきりロリ寄りに傾いてしまう waifuは10/10延期か
現状より可愛くなるのは難しいんじゃね 可愛いのは今のままでいいので、とにかく複数の人間をちゃんと書けるようになって欲しい… >>592
1.2で作った絵とプロンプト貯めてて
1.3でこんなに変わったぞいってやるつもりだった(´・ω・`) SD1.5もアニメモデルもWaifu1.3も一斉に延期って何が起こってるんだ
アメリカ最大手のNovelAIが堂々とエヴァの版権パクリ始めてるくらいだから
権利問題なんて外人は全力で無視だろうけど、てか流石にあれは訴えろよって思うけどな >>590
複数人はマスクして再出力か手直ししかないと思うぞ
一括で出そうとするとどうしても混ざってしまうわ SDはともかくWDの延期って前から言われてなかったっけ? 影響が大きすぎて AI による画像生成そのものを規制する流れが出来てきてるからそのせいかも まあ規制出来るわけないから気にする必要は無いだろうけど SDはともかくWDがそれに倣う必要性はなんも無いから単に質の問題じゃね SDはすでに1.5のベータが動いてるから、規制とかではないと思うな。
規制関係だったら、ベータから1.5が真っ先に消えるはず。
WDもそうだけど、たぶんSDもここが気合の入れどころじゃあってモデルセットを馬鹿みたいに増やしてるんだと思う。
中華が本気出して来たら、権利ガン無視物量勝負大得意の連中に押し負ける可能性高いし。
それまでにスタンダードの地位を確立したいんじゃね? 学習する画像枚数を300万枚に増やすと公開が2週間ほど延びるから意見募集してなかったっけ。きっちり2週間延期だからそっちに舵をきったという理解だったが。 下手に規制すると中華神絵師モデルが出兼ねないと思うとAI規制派に回るのも一考かも知れない アメリカ企業のがよっぽど規制も著作権も無視してて中華のERNIEはむしろ規制厳しいんだけど 知りもしない事情を妄想でつらつらと語る奴の頭の中を知りたい
まあ>>1もまともに読めないあたり大概なんだろうが 馬鹿リスト
ID:nHtvnMUh
ID:GANM1QzC
ID:Ftec7SVM
ID:4BtezwDp
死ぬか他スレにいくかどっちか選べ CPU版Dreambooth動いた
学習速度が10倍かかるがそこそこのCPUでメモリ30GBもあれば大丈夫
ただしmain.pyがバグっているので1個前のコミットの物に入れ替え必須
少し工夫がいるがColab Proのハイメモリランタイムでも動作確認済
https://github.com/andreae293/Dreambooth-Stable-Diffusion-cpu 学習速度が10倍かかる、ってのが全然大丈夫じゃない気が… >>614
>>1すら読めてないバカなんてこのスレに必要無いからな このスレは自治中がうざくてな
あっちの方が技術交換もおおいしw メモリ30Gてのも地味にきついなと思ったけど2万で済むからグラボ積むよりは安いか GPU版は24GBでも足りないんでしょ?
CPUで動かせるようになるだけでも十分だと思うけど >>615
有能
3900xでこの速度だとワイの12400ちゃんでは厳しそうだな ryzen 3900xで約6-7時間だからPCで出来る人はいいと思う
Colab ProのCPUがどれくらい速いのかが気になるな
確か遅かった記憶がある 今後技術が進歩したらもうフェイクか分からなくなるから
デマ飛ばし放題になってしまうんだよな >>628
AIが作成した画像を見分けるAIが出来るから大丈夫だ
って言うか既にあるよな、そういうの SD1.4で吐いたリアル系の絵をtrinartに何回か食わせたらバッチリ2次系にコンバート出来たので、1.5である程度人体に強くなってたら、この方法で2次にもってくのも十分アリだな。 関連モデルの話してるのにスレチ言われても困る(´・ω・`)これだから厨は >>615
CompVis (本家)と合わせて使うローカルの学習環境か
GPUの代わりにメモリ30GBとかゲーミングPCで全スロ使わないと届かなそう
colabで3時間ならCPUローカルで丸1日+か・・・しかもPCは使用不能
多分、仮想通貨のマイニングとかと大差ない感じになりそう waifu1.3の延期はただでさえ大きな進歩があるところ学習データを追加で増やしたってことなんだから
10/10の1.3で相当なジャンプアップがあるんだろうな waifuモデルってもしかして今までに何回か更新されてる? 限定配布されたWD1.0とかあるけど別にいいもんじゃないよ
学習が浅いんで中途半端だし
同じことしたいならSDとWD1.2混ぜればいいと思う dreamboothなら3090で動くようになった若干省メモリ版ってのがある
22GBちょいで回るらしい
https://github.com/gammagec/Dreambooth-SD-optimized
まあ一度試してみたいって話でRAMなら64GBとかあるって環境ならCPU版も有用か dreamboothのregularization imagesって恣意的に選んでもいいのかな なんか、ファンタジーっぽい画像がワチャワチャでるprompt
beautiful CG 8k wallpaper cool anime,five::5 (fantasy characters) with Danger awaits in the deepdungeon ,(((intricate human hands fingers))), (navels), mature goodlooking face
ネガティブ
pablo picasso,((((mutated hands and fingers)))),((poorly_drawn_face)), ((poorly drawn hands)), ((poorly drawn feet)), fat, (disfigured), ((out of frame)), (((long neck))), (big ears), ((((tiling)))), ((bad hands)), (bad art), (((text title signature))),((light effect))
ネガティブからピカソさんを外すと奇形率が跳ね上がるが、ワチャワチャ度も高くなるのでゴチャキャラが好きな人はお勧め。
収率はかなり悪し。CFGは7から12ぐらいがお勧め。
ピカソ有
https://imgur.com/VuTltzF
ピカソ無
https://imgur.com/ULU802B Soon we will be able to make a house on chicken legs 🦵 🐓
…なんだかよく分からんが、もうちょっとなのか? 英国流は分かりづらい。 Emadは、「なんでいつもそんな暗号みたいなツイートすんの?」ってレスされてんねw 単にツリーハウス画像のツイートにバーバ・ヤガーのネタで返しただけじゃないの
意味は特にないと思う 1111版のtxt2imgで、Seed欄の右にある「Extra」はどう使うものなんでしょうか? Variation Seedは通常のSeedを固定して少しだけ変化を与えるのに使える。Strength0.1〜0.2くらいなら元絵と大きく変わらないからうまく使えばバリエーション出せるぞ、的なやつ。
ResizeSeedfrom〜は、WidthHeightで指定したサイズをもとにせず、こっちで指定した解像度のSeedでスタートするって感じのやつ。
低解像度で乱数でいい感じの出るまで生成して当たりを見つけたらそのシード値で固定してResizeSeedのサイズに低解像度の時の値を入れて
元のWidthHeightを上げるといい感じのがそのままでる・・・こともある、って感じ。
より正確にはマニュアル読んでな
https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Features#seed-resize
https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Features#variations バリエーションはインペイントで指とか腕とかを修正して、もうちょっとって時に凄く使いやすい。
そう言う些細な違いを呼び出す感じ。 >>642
自己防衛本能の一種だろう
意味不明なのを適当に混ぜ込んどくと、細かい揚げ足を取りにくくなる Emadみたいのは外人の経営者には凄くよくあること
英語圏の会社だとプレスリリースの内容が曖昧だったりポエムみたいだったりして
発表後にredditで内容の解釈で議論になることがよくある ドコモとかkddiのホームページ見てみろよ
明るい未来だの次世代通信だの抽象的なことしか書いてないぞ
どこの国も同じ 実際に開発作業してるエンジニアの人の垢はないのかな 今更だけど、1111のwebuiってすでに画像がある場所にD&Dでちゃんと認識してくれるんだね
前は新しい窓で画像が開くだけだったので、今の今までいちいち×で既存画像を消してた 最近PNG infoのページが色々改修されて使いやすくなった時に併せて変わったんじゃなかったかなD&D
地味に便利になっていって大変嬉しい ドローマスクもレスポンス上がってたりマスクカラーが半透明じゃなくなったりでちょっとづつ使い勝手よくなってる。
細かいところの修正がほんと助かる。 あの細かいところまで改善してくれる意欲には頭が下がる。新機能の実装ペースも早いが、気張りすぎてある日突然やる気がぷっつり切れてしまわないか不安になる。 >>651
むしろ、別窓で開いてそこは上書きしてくれないんかい!て突っ込んた
スクリプトの追加改修とか多すぎて全ての機能を使いこなす自信が無くなりつつある ありゃ? 1111なんか触ってるのかな。
pullしたら、png infoが画像サイズ認識しなくなってどのサイズ読んでも512x512になる。 画像生成の主な使用用途が2次絵の背景や小物生成と3次元のエロ画像生成なので
sdとwaifu両方使いたいんですがこれって使い分ける場合model.cpktを逐一上書きコピーしないといけないんですか?
automatic1111を使ってます artroom版0.3.17をArtroom-Setup-0.3.17.exeとArtroom-Setup-0.3.17.exe.blockmapをダウンロードしてインストールしようとした所、
インストール中のプロンプトでTraceback (most recent call last): File "model_downloader.py", line 106, in <module> shutil.copy(f"{userprofile}/artroom/model_weights/upscalers/{model_name}", model_dest)
~~~ERROR conda.cli.main_run:execute(49): `conda run python model_downloader.py` failed. (See above for error)
等とインストール中にエラーが出てそのままインストール完了になって画像生成にうつれないんですが、何が悪いんでしょうか
ちなみにグラボはgtx1660です インターネットから必要なファイルダウンロードできないんじゃね 1111にモデル合体きたの?
あとdreamboothの必要メモリ17.7GBまで減らせれたってSD-Dreambooth公式に報告上がってた なんやかんやしてP100の16GBで動くようになればだいぶ敷居が下がるんじゃがのう >>666
1111のメニューにCheckpoint Merger てのが増えてた。混ぜられる 昨日のdream booth on cpuをcolab proで動かそうとしたが無理だったな
TPUハイメモリで35GB ramあるはずなんだが
ローカルでは動いた 1エポック8時間かかりそうだが ファインチューニングで作成した.ptって1111
でどうやって使うの? しばらく上位SDはrtx3090専用になるわけか…電源買い替えるか… 1024*1024になったらまた常人には学習できなくなるよな あ、しまった。5chはページ内アンカーのリンクが無効になるんだよな。
github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Features#textual-inversion >>674
.ptファイルにリネームと言う記事が多いが.binファイルのままでもいける 1111のTI(お手軽fine tuning)はできたptファイル(もしくはbin)をembeddingフォルダに入れて
実際プロンプトで呼び出す時はファイル名部分をプロンプトに記載する
うんこ.pt なら image of うんこ とか 1111の保存ファイル名にDenoising strengthの値だけ追加出来ないの不便だなぁ
CFGとかステップ数とかその他色々追加出来るのに、なんでDenoising strengthだけ filename patternに追加してってリクエスト投げたら対応してくれそうだけどな 絵が変化する設定要素が増え過ぎて少し昔の絵はもう同じの出せないようになってきた
最適化の有無でも変わってしまうし SDでShunya YamashitaとかHyung-tae Kimみたいな
ちょっと微妙(失礼)なアーティストは効いてないね
単に名前でアジア系って認知されて、目の細い女が出てくる
https://docs.google.com/document/d/1SaQx1uJ9LBRS7c6OsZIaeanJGkUdsUBjk9X4dC59BaA/edit#heading=h.q2c1w2qhj0fj
ここに載ってるのはどれも間違いなく効いてる感じだが StableDiffusion始めたいと思ってpc見てますけどWindows10とWindows11で何か不都合ってありますか?
StableDiffusion動かせるのは知ってるけど設定面とか機能面で遅い速いなど… >>685
なるほど…11で検討してみます、ありがとうございました 初心者は金かける前にある機材で試して何が足りないか見たほうがいい
普通の去年の20万前後のゲーム機レベルじゃとにかくGPUメモリが欲しくなるわな AUTOMATIC1111って複数画像を連続でimg2imgできたりする?
feature showcase見たけどそれらしいのは無かったんだよね
具体的に何をしたいかというと動画を一括でimg2imgしたい
ユーザースクリプト組まないといけないかね NMKD SDGUIの学習モデルをWDに変えるだけで使えるようになる? >>691
SD1.2-8GB → WD1.2-8GBで使えるようになったけど
後にWD1.2-4GBに入れ替えても使用メモリーは減らなかった
今はAUTOMATIC1111にWD1.2-4GBをコピーしたら使用メモリーが4GBに減ったわ full-emaは生成に必要じゃないデータも乗ってるから大きいだけで、実行時にGPUメモリに乗る分は関係ない(メインメモリにロードされる部分は影響あるらしい?)
なのでfull-ema-pruned版使ってもGPUメモリの上の使用率は変わらない、ってのを何処かでみた。
AUTOMATIC1111版でメモリ使用率が低くなったのは別の仕組みのはず
それはそれとして、NMKDでWDを含む別のモデルが使えるかどうか?は使える。
Data\models にモデルデータ入れて起動して右上のSettingから使いたいモデルファイルを選べば良い なんか過疎ってるな
ttps://github.com/ShivamShrirao/diffusers/tree/main/examples/dreambooth
12.5gbでcolab proでも動作するdreamboothあるからみんな試してよ もう試したぞ
TIより目や髪型、服装は再現される
だけど同じ構図ばかりや場所の指定が上手く出来なかったから
いろんなポーズの教師データでやってみるわ
使えそうな機能は全身で学習させたら全身を描くようになるっぽい
あとはgregスタイルやネンドロイド化ができるとかか
同じキャラなら漫画とか使いやすくなるはず >>695
使い方分からないけど学習はさせれた
やり方ミスって奇形しか出ないけど学習された服がでてくれて感動した
どういうサイズと形なら奇形になりにくい学習をさせれるのか学習させたデータをどうやって他で使うのか保存させれるのか誰か教えて >>696
引数とかコンフィグっていじった?
俺何度やっても生成でノイズまみれになるんだけど >>698
設定いじらず1000ステップでguyのまま
ずんだもんでやったんだけど
ノイズだらけだぞ
anime illustration, a sks
でようやくずんだもんが出力された
というかPCから5chに書けなくて
画像あとで貼るわ 教師データの画像は5枚しか使ってない
SDとguyでもなんとかなるんだな
guyはおっさんの画像からずんだもんを学習してるのか?
T4で一時間半もかからなかったとおもうわ
保存方法はグーグルドライブに/content/models/sksだっけ?を保存すればいいけど
ckptで保存できるようになるまで待ったほうがいいよ >>695
自分の絵柄でオリジナルキャラを持ってる人は少ないし
それをここで発表すると特定されてしまう罠 すみませんdramboothで学習させたデータを他で使う方法が書かれているサイトはありますでしょうか? >>702
SD>DBはできるが
DB>SDはまだ無理らしい >>699
やっぱノイズでるか
省メモリだとやっぱ厳しいのかな >>703
学習を保管して置いたりできないのかな
ちょっと多めにやってるから残したいんだけど意味無いかな このペースだとckpt本体の追加学習?もVRAM16GBで収まるだろうな
あとはdreamboothで学習したあとにさらにdreamboothで学習できるのか気になるな
今のdiffusers版は学習済データが5GBもあるからキャラごとにいくつも保存するより場所取らなくなる >>705
output_dirごと保存しとけば間違いないんじゃね エロスレでdreambooth試してる人いるわ
https://mercury.bbspink.com/test/read.cgi/erocg/1664246635/158
ポーズが固定されがちで現実の背景指定すると
リアルになったりそのまま使うのは難しい
プロンプトで補正してあげると良くなる
もっと試してみないとね 1111のsetingについた、 DDIM etaて、何? てかふと思いついたんだけどさ
良いプロンプトのベクトルを取り出して数方向に微妙に変化させたベクトルを直でジェネレータに入れたらネットワークの傾向わかるんじゃない?
プロンプト変えて粘るのでもエンコーダのベクトルを一緒に見ると言葉から離れて好きな画像作れそうじゃん >>692
そうなんだ
うまく行かなくて対応してないのかと思ったが違うみたいや
もう少しいじってみる 機械学習でのベクトルは次元数が膨大な一本で〜というか
簡単に言うと大量の数字の羅列だ
プロンプトに書けうる英単語の組み合わせのデータがあまり損失なくしまえるくらいのデカさはありそう
で、そのベクトルを直接適当にいじるってのはキーボードを出鱈目に叩いて意味が通る文字列を出さなきゃみたいなことになりかねないわけで >>711
バリエーションとかネガプロンプトがそんな考えに基づいてる トークンはたったの77トークンだけど、CLIP通した後は77x768の約6万次元ベクトルだからね
これはいわばプロンプトの文章を読んだAIさんのお気持ちベクトルで、これを元に他のデコードにつなげば、質問に答えたり翻訳したり画像作ったりできる情報が込められてる(ついでにCLIPの場合は画像の情報も入っている。diffusion,VAEが学習してない言語ー画像も伝えられる)
2つのプロンプトから生成された2つのお気持ちベクトルをミックスするのは簡単だけど、素で操作するのは難しそうだ
ちょっとずつずらすにしても6万次元のどれを?ってなる
お気持ちベクトルってのは俺が言ってるだけでembedding vectorだけどw dockerのautomatic1111でbatch countの最大値増やす方法わかる人いない?
ui-config.jsonは見当たらない DALL-Eが順番待ちなしでサインアップできるようになったらしい
DALL·E Now Available Without Waitlist
https://openai.com/blog/dall-e-now-available-without-waitlist/ でもエラーが出てログインできない
殺到してるのが原因かな >>717
dockerの使い方わかってるんだったらvolume割り当てればいいんじゃないの >>720
これのために入れたから全然わかってない…
簡単にできる? >>320
ドット絵をドット絵として読み込ませたらダメでしたが
ドット絵を256*256に拡大し、普通の絵として扱い学習させれば前に進ました
ありがとうございます
https://i.imgur.com/jRjoZQr.png RTX3080 12GBから3090に変えてみたら、今までAUTOMATIC1111でいっぺんに8枚のバッチサイズで出力できていたのが7枚しかできなくなってしまった
512x512から画像サイズ変えてるわけでもないのに、なぜかメモリ不足と言われる
16枚ぐらいいっぺんに出せるようになると思っていたのに逆になるとは、何が原因なのか分かる方いるでしょうか
起動時の引数は--opt-split-attentionと--listen付けてます 中古のRAMが何枚か焼けてるうんこ掴まされたんじゃない? >>714-716
今はベクトルの次元がとんでもねぇことになってるんだな
数年前のword to vecの感覚だったわ
そして調べたら当然のように入力のサブツールが作られてるのに恐怖してる
やっぱAI界隈すげぇわ 1111アップデートしたらリアルタイムトークン計算機能ついて便利だわ~ >>717
このリポジトリのDockerなら
https://github.com/AbdBarho/stable-diffusion-webui-docker
docker-compose.yml の以下の2行の間にui-config.jsonを入れればマウントできる。
(ローカルディレクトリ:Docker内のディレクトリという書式)
- ./services/AUTOMATIC1111/config.json:/stable-diffusion-webui/config.json
- ./embeddings:/stable-diffusion-webui/embeddings
↓
- ./services/AUTOMATIC1111/config.json:/stable-diffusion-webui/config.json
- ./services/AUTOMATIC1111/ui-config.json:/stable-diffusion-webui/ui-config.json
- ./embeddings:/stable-diffusion-webui/embeddings
てか、AbdBarhoっていつの間にか、hlky、automatic1111、automatic1111(cpu)、lsteinがコマンドラインで
docker compose up hlky
みたいに切り替えられるようになってたんだね。これは便利
○蛇足
最初のui-config.jsonは他から持ってくる必要があります。以下の手順でDokcerコンテナからコピー出来ます。
1 docker-compose.yamlを変更しない素の状態で、docker compose up automatic1111 で起動
2 他のコマンドプロンプトから、docker ps
CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES
a21dd0bdd3f3 webui-docker-automatic1111 "/bin/bash -ceuxo pi…" About a minute ago Up About a minute 0.0.0.0:7860->7860/tcp webui-docker-automatic1111-1
3 docker cp <CONTAINER ID>:/stable-diffusion-webui/ui-config.json .
例 docker cp a21dd0bdd3f3:/stable-diffusion-webui/ui-config.json . 1111にDreambooth機能とckpt機能つけてくださいお願いします! >>724
新品なのと3DMark等では特にエラー出ないので、問題はない気がします じゃあCUDAかドライバが古いかVRAMサイズが前のより小さいじゃじゃね?
ハード絡むと問題条件広いから情報少ないとなんとも言えない ・ドライバが古くて3090のメモリの取り扱いが変
・前のGPUの環境でコンパイルされたPyTorchのキャッシュが残って使われていてVRAMを非効率に食い散らかしている
この二つが主な要因らしい cmdからnvidia-smiして具体的に何が食ってるか確認するとか お、1111にリアルタイムトークン表記きた。
ほんと、便利な物はガンガン突っ込んでくるな。 >>721
シェルとかよく分からないならvscode入れるといいよ DALLEが登録からの順番待ちではなく誰でもすぐ使えるようになったそうな・・もはやどうでもいいな
DALLEなのかDALLE2なのかもよくわからない 最新版の1111を解凍して中身を丸ごと今使ってる1111フォルダに上書きしたのではダメですか?
それやると動かなくなるので、いつも最新版を最初からインストールし直してます >>738
上書きで大丈夫な時とそうじゃない時がある
更新履歴読んでもわからなかったら再インストールでも間違いではない >>739
そうなんですね。ありがとうございます。 そうなるから、面倒でもgitを入れてgut cloneから始めておくといいよね
ときどきgit pullすれば最新になるし全部ダウンロードして解凍して…という手間がない Git推奨は間違いないんだけど置き換えで動かない修正入ったときはGitでもだめじゃないか? gitなら特定のところまで巻き戻しもできるし平気(平気ではない) dockerとかsingularityとかでちゃんと動いていた時のイメージを保存しておくといいゾ
ローカルのconfigファイルとかは新しいの使えなくて作り直しになるかもだけど。 結局colabでBANされたって話全然出てこないな
新開拓分野ということでGoogle様も色々と慎重になっているのだろうか >>745
そもそもcolabのBANがどういう感じなのか良く解らん
登録したアカウントごと抹殺されるのかそれともcolabに限っては「使わせねーぞオメー」なのか ColabでBANというより、GoogleDriveにエロ画像保存してBANみたいな話でしょ
海外だと医者に見せるために自分の子供の裸撮ったらそれがドライブに保存されてGoogleアカウントがBANされた、
みたいなのたまに聞くし
ただ見聞きした限り、NSFW画像をColab上で作ってGoogleドライブに保管してた結果アカウント削除、みたいなのは聞かんな 都市伝説だと思うけど一応やばいのはローカルでやってtiのログ画像とかもすぐ消してるわ 児童ポルノのことで頭パンパンの奴が今夜もでてきてんのか
どうでもいいっての・・・ 1111、アップデート上書きしたら急に使えんくなった・・・
再インストールしてもなぜか初回のみ使える・・・ >>747
グーグルはAIようぽは被害者がいるわけじゃないからグレーになって保留されてるけど
韓国は持ってるだけで2000人くらい捕まったって話じゃん、交換コミュニティー参加者全員家宅捜査で何かあれば別件逮捕も辞さないっていう
そりゃ末端捜査官からすれば、AIも写真も小児性愛者に変わりないわけで現場で詳細なんて比較しないもんな
そこに著作権違反だなんだかんだとごっそりやられたわけで
ここの5chの運営は日本にないわけだし、AI-ARTのようぽも情報交換とかで不特定多数に見える場で表に出す奴が出たら
炎上話題作り大好きな奴が通報なり幼児性愛者の被害にあった親族や団体たきつけたりで動く時はササっと芋づる式にやられちゃうだろうね
安倍テロ以降関係者の威信はがた落ちなわけだし 児童ポルノの話は少なくとも技術スレではないと思う
AIの話でもない。どっかの児童ポルノスレにでもいったらどう? Waifuは10月10日と一応次の日付は出てるけどSD1.5ってなんか予定出たっけ? SD1.5に関しては匂わせめいたのばっかで名言されていないはず
Waifuの方はベータのBotも出てるし10/10から更に伸びることは無さそう スレチかもしれんけどstabilityAIは10月には音楽生成AIもオープンソース化するとか言ってたような気がするからそれも楽しみ 1.5は正直そんな楽しみでもないな・・・。まあ出れば試して遊ぶとは思うけど大きく改善という感じじゃないから。
Emadさんが「Audioモデルを来月出す」といったのは8月だから、発言時点では9月予定だったんだろうけど、
まあこちらもそこまで早く見たいって感じじゃない。
予定より遅いとは言え、フォークがすごい速度で改善されてるし、他のAIも色々出てるから待ってる感じがあんまりしない novel AIのツィートの作例が身体全然破綻してなくて、めっさ気になる。アレはdream boothみたいなことをキャラ特化でやってるんだろうか。 1.5見た感じwaifu1.3の衝撃を超えられる気はしない 1.5自体はまあまあ楽しみくらいだけど、それをベースにWaifu他が更に発展してくれるんじゃないかって期待がある NovelAIは、SDのモデルと書いてるのだけ読んだけど、モデルだけで一貫性が保てるようになるものなの?とか仕組みがちょっと気になる
https://twitter.com/novelaiofficial/status/1573441073267245057
なにかしらうまくいく仕組みを追加してるとかなら他にも使えるのかなって
https://twitter.com/5chan_nel (5ch newer account) SDのマイナーバージョンアップのたびにWDを作り直しとか非効率すぎるでしょ
SD2.0になるまでそのままだと思う >>751
もしもそれがnoteのやつなのだとしたら
スタート用のバッチファイルを更新したのでDLし直してください Text2Video
https://mobile.twitter.com/hardmaru/status/1575476224880934913
"A teddy bear painting a portrait"
実力はわからないけど、テディベアが絵を描いてるこのツイートの例は出来がいい
ちょっとだけしか読んでないけど、
・言語ー画像生成モデルベース
・ビデオに言語キャプションは不要。 言語説明がなくてどれがどういう風に動くかビデオ自体で学習できる
と書いてる。
以下は推測(妄想)だけど、
(1)静止画の説明の時点で paintingという動きの説明が入っていて静止画がその動きのある時点の画像になっている
(2)動画で学習でそのシーンの動きを補完する
みたいな感じ? (2)なんて膨大なバリエーションがありそうで、デモ用のワードが動くモデルは作れても、汎用的なものは作れないのでは・・・
また多分静止画+アルファ程度の動きしか無理な気がする
https://twitter.com/5chan_nel (5ch newer account) >>764
個人が自腹でやってるみたいだしな
クラファンでモデル先行配布とかすればいいのに >>766
さっそくEmadさんがこれに対して、ツイートしてるね
・StablityAIで作ってるものはこれよりいいし人々が実際に使うことができる
・多くの作業がるが日々改善している
・いつかは決まってないけどそれほど長くは待たない 1111でJPGにもプロンプト情報完全記載きたぁ
PNGだとデータサイズでかすぎるからJPGにしてたけど情報なくて不便だったから待望のアップデート
でもトークン計算の仕組みが変わったのかバグなのか何故かアップデート前と比べて増してる >>771
これ知らんかった…
今まで意図しないプロンプトになってた…
>従来の方法では文字列を完全には渡すことができず、文字が消えてしまうことがあった為です。
>例えば "a (((farm))), daytime" を入力したとき、コンマ無しの "a farm daytime" として解釈されていました。 >- データ量を30万画像から60万画像に増やしました。現在、データセットを単純に200万画像にしようかとも考えていますが、モデルが学習を終えるまでにあと2週間ほどかかることが唯一の問題点です。何か問題があれば教えてください。
>- 学習時には、変分解像度が使用されます。これにより、モデルは、誰かの手足がぐらついたスパゲティーのように見えることなく、様々なアスペクト比の画像を生成できるようになりますし、512x512でない画像にも大いに役立ちます。
WD1.3のこれなんだけど、データ量増えたら単純に画像の精度も上がるってこと?
変分解像度ってのよくわからんけど手足の精度も上がってるってことかな
もとになってるSD以上の手足の描画が可能になるってこと?すごくね? waifu1.2は古い東方絵に学習元画像偏ってる割にあの出来だったんだよな
1.3ではそのへん見直すんだっけ? >>773
ワクワクが止まらない
後は自己学習させたckptをグーグルコラボで出せる方法を教えてもらえたら完璧 >>770
> 1111でJPGにもプロンプト情報完全記載きたぁ
settingsが
> Save text information about generation parameters as chunks to png files
のままなのがなんとも
png, jpg, jpeg, webpって書かないとなぁ
もしかしてチェック無しでもjpgなら勝手に全部に入るのかと一度実験させられた 新機能としてjpgコメントに生成情報記載しましたとあるけど
大昔からコメントに生成情報記載されてることに今気付いた
なぜ今頃発表したのかわからんけど昔から便利だったわ
jpgの場合はtxtに記録して照合するという地道なことしてたから助かる >>777
細かくてサーセンw
>>771
エロスレこっちより勢い上なんでプロンプト研究の本場かと見に行ったら
純粋にエロプロンプトしか研究してなかった・・情熱 jpgへの記載は9月中旬くらいには実装されてて便利になったと思ってたが、更新履歴に載ってなかったのか。 3Dプリンター買ったら実質文字が実物になって出てくるのか・・ colabのアプデ来たけど金払っても制限キツい
GPU回しっぱなしだと1000円で50時間も回せないように見える >>766
すごいと思うけど、やっぱり手がキモいな 欲しいキャラクターが出てくれないから、追加学習つくれるcolabのUI版が出るよういのっとこ… 3060tiが5万切ってたのか。
これからの季節、ストーブ替わりに欲しかった ここってMEGAのurl貼れたっけ?
テンプレに追加するだけでいいか? >>789
まだエポック数すくな過ぎでクオリティ低いけど
よりアニメ寄りになったりエロ方向が強化されたり手が消えにくくなっているのは分かるな テンプレにTextual Inversion関連リンク追加しといた >>781
そろそろ3Dモデル生成のスレも建てたほうがよさそう TIやDBに顔を学習させるときって、背景があったほうがいいのかね?
全て白背景で統一させて学習させるとなんかうまくいかない気がする Emadフォローする意味ないと気付くのに1カ月かかった 超初心者ですみません
NMKD Stable Diffusion GUIをインストールしたのですが、グラボを認識してくれません
https://i.imgur.com/SpCTgZZ.png
当方RTX3060を使用しており、CUDAとcudnnもインストールしました 誰も使ってないソフト使っても
誰も助けてくれないから
みんなが使ってるAUTOMATIC1111版を使ったほうがいいよ 「CUDAとcudnnをインストールした」ってなんだろう?
ドライバは普通のnvidiaのドライバーインストールすれば必要なものは一緒に入るはず
nvidia-smi を実行すればなにか分かるかも NMKDは別途pythonをインストールしてると環境変数のせいでパスが通らなくてエラー吐いたりしてたわ 同じく超初心者なので何言ってるのか自分でもわからないけどNMKDのフォルダーを他のフォルダーの中に入れたままにしとくとエラー吐くらしい、とredditで見た
ので、自分の場合はデスクトップに直接フォルダーを移動したら正常に動くようになったよ トラブってる人って高確率で公式の説明書に書いてないCUDAToolkitとかCUDNN入れてるよな
どこ見てるんだろう 俺もcudaドライバーは別に入れたはずだけどそれでグラボ認識しなくなるとか無いだろ 一番最初の頃参考にしたページにCUDAtoolkitがいるとか書いてあった覚えがある。まだwebuiもないころだけど toolkitのフォルダを捨ててNMKDのフォルダをデスクトップに移したらいけました!
ありがとうございます むしろデスクトップにあんなデカいもの置いちゃらめえええええええ>< エロスレ35にあったスタンドアローン版のSD1111を使おうと思ったのですが画像生成後にエラーがでて止まってしまいます
GPUが1050tiなのでそれが原因なのかと思ったのですが調べて見ると1050tiiでもなんとか使えている記事や書き込みもあるのでよくわかりません
メモリ不足で落ちてるんだとは思うんですが、原因わかる人いたら教えてください
https://i.imgur.com/SzlWnca.png
https://i.imgur.com/HUfgNEt.png >>810
webui-user.batをテキストエディタで開いて、COMMANDLINE_ARGS=--medvramへ変更してみて
あとは古いバージョンを使うとか >>810
エロい35です(違
NOTEの最後に低VRAM時の対応方法を追記しました
動作を保証するものではありませんが試してみてください medにしたらエラーこそ出ませんでしたが生成された画像が真っ黒になってしまいました
lowvramに変えても変わらず
古いバージョンの探してみてだめだったら諦めます
ありがとうございました 自分の1050tiの環境では最新版1111で問題なく動いてるよ
GPUドライバ更新してみるのも手かも?
あとは裏でGPU占領してるアプリないか確認するとか Colab実質値上げか
3090Ti買っておいてよかった 1660Tiでいつまで戦えるんだろ
VRAMは増設出来ないのが痛いな
メインメモリで代用出来たら良いのに >>815
補足
スタンドアロンじゃなくて本家の方法でインストールして使ってる >>814 >>815
ドライバを更新したり、画像サイズを64x64や320x320にしても真っ黒なままでした
本家をgitでいれて起動しようとすると9009ってエラーが出て止まります
https://i.imgur.com/Kgup0RI.png >>819
PATH環境変数にpythonのパスが登録されてないと9009が出るらしいで。 >>819
1111版はセーフフィルタにひっかかったら黒画だった気が。
デフォルト設定忘れたけど。 webui-user.batにPythonのパスをフルパスで入れてみたけど駄目だった
値の取得自体できなかったし根本的に間違えた気がする
set PYTHON=C:\Users\unknown\AppData\Local\Programs\Python\Python310
https://i.imgur.com/anTACBh.png >>822
バッチファイル内のPYTHONは実行ファイルそのもののパスだから、python.exeまで書かないとだめだと思う Pythonのパスをちゃんと指定して本家起動成功しました
しかしこちらでも黒塗りの生成画像になりました
lowvram 64x84 セーフフィルタにひっかからなさそうなワードでやってみても駄目だったのでなんか無理そうです
https://i.imgur.com/K45w5fm.png >>824
GFPGANをインストールすると一緒にVRAMに読み込まれるからメモリ不足になると言うけどそれは? GFPGANv1.3.pthを削除してみましたが変わりませんでした 自分が昔なったのは、980tiで
windowsがやたら古くて、nvidiaのドライバも最新にできなくてのoomだったなぁ
CUDAがあるのに反応してない感じ
コマンドプロンプトでnvidia-smiが直で動かないレベルの古さだった
デフォでパスが通ってなくて
C:\Program Files\NVIDIA Corporation\NVSMI
から起動とか colab料金体制変わったみたいだけどなんかcolab離れを宣言してる人も多いな
これ課金勢が離れて逆に無課金でも使いやすくなったりしてな AI画像よりやっぱ人が描いてる方がいい絵ができると思うわ。体型や輪郭とか苦手すぎる
https://i.imgur.com/wdpyGCx.png colabは異常に安すぎたから仕方がない
月1000円でT4を24時間×30日ぶん回そうとするとか一部のユーザーも悪質過ぎたわ
善意を前提にした共有財の仕組みは必ず崩壊するという経済学の教科書みたいな現象 >>830
モデルかえればいいじゃん。好みの絵を学習させて追加してもいい
どのモデルを使ってどうプロンプト入れたのか書かなきゃ、AIが悪いのか操作しているお前がポンコツなのかわからんだろ?
まだ公開されて一ヶ月だぞ、ここで脳死判定で切り捨てるのは勝手だとは思うが、ここまでの学習量よりもこれからの学習量の方が圧倒的に大きい分野なのにせっかちというか未来を見る気がないというか視野が狭すぎる
入社一ヶ月で今年の新人使えねーとか言ってる出来ない人間の言い訳見てる気分だ
やっべー今日徹夜で仕事がはかどらんわ~とか言ってないか?会議で主題けなすだけの自己主張してないか?気を付けたほうがいい
主軸になる次のモデルの公開は10/10以降の予定だし、気長に待ってまた来いよ。 waifu1.3の学習が今のペースだと10/8くらいには終わりそうな感じだから
これ以上の延期はなさそうだな本家SDはどうなってんだろ
waifuなんて東方オタの個人がやってるだけなのに何で本家のアニメモデルが遅れ取ってるんだ A100 : 1時間あたり15.04ユニット
新コラボの制限エグいな、こんなの一瞬でなくなるじゃん 本家は写真と絵を一緒にしてるから学習遅れてそう
waifuは絵特化…だよな? Colabなんか制限きつくなったのか…大丈夫かな
と思って調べたけど自分は無課金だから関係なかった
これからもゆるくお世話になります 俺も特化学習させてみたいんだけど時間はどれくらいかかるもんなんだ?RTX4090でどれくらい早く学習させれるんだろ >>834
阿鼻叫喚の理由が解ったw
ヘビーユーザーはローカルでやれってことやな Google Colab無料ユーザーは使いやすくなりそう 本家はもうサイトでベータテストしてるからモデルはほとんど出来上がってるはず。
なので、v2とかv3がもう見えているのであんまり1.5はオープンでやる気ないのかも。 Colab無課金ユーザーだけど今普通に使用量上限で止められてるので普段通りです
ところでStable Diffusion UI(webUIではない)がアプデでだいぶ使いやすくなってる
ちゃんとしたGPU持ってる勢は知らんけど、ローカルCPUで生成に10分以上かけてもいいゆるふわ勢には朗報なんじゃないか
Waifuにも対応したらしい そのcolabももう半月以上「使用上限に達した」って出っぱなしで接続出来ねーわ
課金しようかと思ったが手持ちのクレカは対応してねえしやってらんね Stable Diffusion UIはシード値が変で微妙だった
公開されてるシードとプロンプトを入れても同じ絵にならなかったし
他のと処理方法が違う気がする colab1日半で40ユニット消えた
もう画像AIには使うなってこったな またポリコレ&ヨウポあたりか
その努力でプーチンを跪かせれば人の命も助かるだろうに プラスのイメージの単語だと白人しか出てこない
アジアを連想させる単語を使うと一気に顔がブサイク化するとかまあそっち方面も露骨だしな
有名になるにつれてどんどん面倒くさくなっていくわな コンプライアンスって、ポリコレとかそういう方面なのかな?
それなら既に1.5でサービスしてるDreamStudioはどうなんだよ、って気がするけど しかし言うならこんなリプ先じゃなくてちゃんとツイートで言ってくれないかな
ポエム書かれても困るんじゃ >>849
> プラスのイメージの単語だと白人しか出てこない
8枚だけだけど、性犯罪者描かせたら全員白人男だったな
まあネガティブなワードでどの人種だと思う?って試すのは厳しい
人間に描かせたってバイアスはある。多分日本人に描かせたら日本人を描くだろうし。 >>850
普通にエロ関連じゃね?DSはぼかしになるし 本人はそんな気さらさら無さそうだし自主(依頼)規制あるかもな…
頑張って持ちこたえてくれ フィルタリングする部分がモデル組み込みになる可能性があるかもなぁ ものすごい圧力かかってるのかな
もしstability aiがだめなら個人開発者が頑張っていくしかない gregもそうだろ
エロ、ポリこれ、固有名詞
はやくもオープンモデルはだめになりそうだな そろそろ次スレだからIPは無理でもワッチョイは入れてくれ ワッチョイなんていらんでしょ、現状上手く回ってるがな
んなもん入れたら速攻過疎るぞw
今でもう総合の1/3の勢いなのに 個人オタがやってるwaifuはSDをファインチューニングしてるだけだから
SDの進化が停滞すると影響が大きいな Emadくん実はもう用済みなんよな
1.5も所詮は画像の選別に力をいれて再トレーニングしてるだけ
いいヤツだったよ >>865
モデルサイズを100MBまで圧縮してスマホでも動くようにするというのは
SDベースで改良してる人には無理なのでは? >>866
それはクソデカデータセットからどうやって軽いモデルを作成するかの部分だからポリコレとか関係ないよ
たとえば今色んなアルゴリズムを使って省メモリ&高速化や機能追加されていってるがそれと同じ範囲
StableDiffusionというオープンソースのプログラム本体と
StableDiffusionで問題視されてるモデルの中身や出力結果の話は別やで SDは汎用でモデル作ってるけど例えば女の子イラスト専用にしたら単純にサイズ小さくなるのか? PNG Infoの内容や、txt2imgを終えてSaveボタンの下に表示される情報をクリップボードに入れるボタンがほしくなってきた
あとBatch Countを1に戻すボタン
ワッチョイ不要に一票 ワッチョイうるさいのがいるから作って隔離スレにしてけばいい モデルは公開せずAPIやWEBでの提供限定の方向へ向かっていくんだろうけど
Ver2くらいまでは規制前に配布されるものかと思っていた でもそれをし始めると当初の目的であったモデルがクローズドであることへの対抗って話に反するから、
公開しなくなった瞬間にそれなら資本投入しまくってる大手企業が出してるモデルでいいやってなってく気もする まあ規制はいるのは納得
児ポ生み出せてしまうのは駄目だわ 写真とかも学習してるから生々しくリアルなのが生み出されてしまうからな… 今だって3DCGを駆使すればリアルな児ポ画像ぐらい作れる
結局はどう使うか次第だと何度言えば 実際に被害にあった人が生成されてるわけでもなく、
作られた絵なわけだけど、本当の児ポと比べて何が問題であるか?
というのはあんまちゃんと考えられずに言われてるように思う(現実のリアルな児ポ画像が学習に使われてるってんならそれはまずいようにも思うが)
が、この話このスレで続けんの??AI画像生成技術のネタとしてはだいぶ外れてってない?? 倫理だ論理だ著作権だの話がしたい連中はこちらへどうぞ
【Midjourney】AI関連総合5【StableDiffusion】
https://mevius.5ch.net/test/read.cgi/cg/1664257227/ 古いグラボで出せるからって粘ってたけど3060に換えたわ
めっちゃ快適でポンポン画像が出てきて助かる
VRAMに余裕があって裏でブラウザ開いたり画像整理できるようになったのもいい >>883
おめでとう
こういうのは下手に時期を待つよりも、旬な時期、そして欲しい時に買ったほうが楽しめるものだよね >>845
https://zenn.dev/o_ob/articles/stable-diffusion-dream-studio-guide
この記事にある生成画像と同じように
シード=1457915964 ステップ数=50 Cfg Scale(Guidance Scaleのことらしい?)=20にして
Stable Diffusion UIでCPU処理した結果がこれ
A dream of a distant galaxy, by Caspar David Friedrich, matte painting trending on artstation HQ
https://i.imgur.com/fLw6QXD.png
Dancing Hatsune Miku in Minecraft Trending on pixiv HQ
https://i.imgur.com/EnSkdXb.png サンプラー合わせてる?
webUIのデフォルトはeuler aで絶対に他の環境とは合わない類いのサンプラーだけど サンプラーが違うんだろ。そのURL見るとK-LMSだけど、このスレにあがってるのはほとんどがEuler a
サンプラーや画像サイズ、場合によってはバッチサイズも生成画像に影響する 初期の頃に、シードからノイズ生成するのにtorch使ってるから
CPU版ではシードが同じでも生成されるノイズが違うんで絵が変わりますって話があった気が なるほどねえ
将来的にはGPU版に乗り換えることを考えると、CPU版を使うのはやめた方がよさそう >>615
しばらく見れてなかったから今知ったが
CPUで学習できるようになってたんか
ピンポイントでたまに学習するだけなら、無理に最高級GPUなんか買う必要はないな GPUはNVIDIAが調子乗ってる状況どうにかならんもんか
CPUみたいにバチバチに競争してくれ メインメモリとGPUメモリを統合して動作してくれる夢の環境が欲しいわ
リサイズバーとか何とか駆使して国家的事業規模でやってほしい これやっぱ本格的にやるなら1111版入れた方が良いんかな? >>894
大して環境構築大変でもないし絶対入れるべき 1111の独自機能が優秀すぎる。開発者でもない限り、pythonの仮想化とかしてもほとんど意味ないんだから普通にgitとpython を入れてgit installが1番無難。 1111が強力過ぎて他が更新する気なくしてるのがやや不安要素な気もする
もっと競争が働くかと思ってたら1強状態になってしまった UIなんか統一されてたほうが情報共有しやすくて良くないか >>896
開発に無縁な人間こそpythonやgitなんかいれないほうがいい
余計なゴミが山ほど増えるし AUTOMATIC1111版
まったく同じ設定のはずなのに丁度1週間前に出したのと出力が違うわ
()とか使ってない2語のみのプロンプトなのに
opt split attentionがデフォで有効になったのは19日で
これとは関係ないはずだから最適化とかで色々変わってるのかな >>890
最初に生成されるノイズが違うってことなら、つまりシードの互換性がないってだけかと思ったけど違うの?
今後全く同じ絵を再生成しないとだめだとしても、プロンプトの研究とかには普通に使えるのでは >>901
草
中世キャラを教えたはずなのになのにsks guy hunting in the forest って指定してるのに悉く銃を持参してくる理由がわかったわ
どうりでregurarization画像に弓兵突っ込んでも解決せんわけだ どういうプレースホルダーにするのが正解なんだろうな
オリジナルで接頭語みたいのつければいいのか? >>885
AUTOMATIC1111版のことだよね?前に同じこと思ってgithubの掲示板で聞いてみたことがあって、その時の返事はプロンプト解析の実装が他と違うのでトークンの重み付けが微妙に違うとかなんとか言う話だった TIの話だけどなんか変だと思ったら混じってる単語の要素が混入してたことがある
上の例に合わせると、sksholderってプレースホルダーにしたらsks銃も出てくる的な
結構デリケートかもね >>902
体感でしかないけど、Google Colabで生成したのと比べるとなんとなく絵が微妙な気がする
CPUでクッソ時間かかる割に失敗か…みたいのが多くて研究する気になれない
絵の傾向が変わるなら、CPU版で研究したノウハウをGPU版で流用できるかも微妙
>>906
俺が言ってるのはcmdr2版のStable Diffusion UIの話 Textual Inversionでナニを学習させたとき、<Chimpo>で学習させたらチンパンジーの画像が混ざりまくるようになったのを思い出した 今のプロンプトのノウハウなんてすぐゴミになるよ
もちろんローカルプログラムだから環境保存しとけば10年後でも今のSDやプロンプトは使えるけど
どんどん改良されて便利なのが出るはずだから使う気になれないはず
そんな細かいレベルで試行錯誤してたら、バージョンアップで今の作業の不毛さに気付かされたとき首吊りたくなるぞw Colab版1111ですべての再生ボタンを押してトークンも打ち込んだのにUIが立ち上がりません
なにかミスしてるんでしょうか
https://i.imgur.com/WRU9uCZ.jpg >>910
そんなことわかったうえで楽しんでるんじゃあないか
今話題のテレビやアニメやゲームと同じようなものさ
何も残らないけど、きっと思い出は残るのさ >>911
上の方で色々エラー出てるぞ。ログインに失敗してるからモデルをダウンロードできてない >>911
ログインしてトークンを取得した後にもっかい許可するってのがあるから、モデルページでそこをクリック。 WDでTI作るときはgirlじゃなくて1girlにすればよかったのか?
colabで3時間かけて作ったけど
あそこら辺の設定は4chanのガイドになにも書いてなかったから
よくわからないでやったんだよね 不意に思ったんだけど、元々自然言語解析がベースなんだから
「,」より「\n」の方が前後関係断ち切る力が強いんじゃないかと思ってテスト
モデルデータは素のSD1.4
上が「a girl, a cat」5トークン
ランダムシードで20枚、少女と猫が融合したのは9枚
下が「a girl \n a cat」5トークン(嬉しい誤算で改行コードも1トークンだった)
上と同じシードで20枚、融合した9枚中8枚の分離に成功 右下だけ失敗
https://imgur.com/a/0LigiXV
使い道は限定されそうだけど効果はあるかも >>917
面白いな。もしかしたら大発見かもしれない
andや短縮形 'n' とも比較してみたい ,はノイズを足すだけで言うほど区切りになってないらしいよ >>914
>>915
許可されたのか学習もデルのダウンロードはされたみたいですがまたエラーで止まりました
できたと勘違いしてるだけで実際は許可を取れていないんでしょうか
modelsページみてもpermissionって文字が見つからなかった
https://i.imgur.com/I5uiFB6.png 単語並べるのに慣れすぎて、本来はclipに伝わるよう文章的に表現するもので
女の子と猫ならそもそもa girl and a catとするべきところ
カンマで置いたら「女の子、猫」だからそりゃ混ざる率が高いのも当然だと思うんだが ¥rは用途選ぶけど、結構効果あったよ。
a girl with red hair and a boy with blue hair
ってやると、ほぼ確実にどっちかは無視されて赤色か青色一色になる。
けど
¥r a girl with red hair ¥r and ¥r a boy with blue hair
ってやると、ちゃんと塗り分けてくれる。 苦手とされてたオブジェクト切り分けがそれで本当にできるなら面白いな
スタイル指定のかかりはどうなるんだろう? ただ、 2要素混ざると片方は切り分けなかった。
¥r a girl with red hair green eye ¥r and ¥r a boy with blue hair black eyeだと、髪か目のどっちかが無視される。 エロスレではトークン単位で分けられてるから前後の意味を見てない的な話になってたけど
実はちゃんと意味のある文章の方が正しく伝わるのけ? 伝わるのと伝わらないのがある。
動きを伴う場合は文章の方が圧倒的に理解してる。理解しすぎてwaifuやtrinartの範疇から外れてリアル画像吐く。
そうじゃない付随要素は文章関係ない。
エロスレは特性上、付随要素が圧倒的に多いからそっちの進化が凄すぎるだけだよ。 922のColeb
This share link expires in 72 hours. For free permanent hosting, check out Spaces: https://huggingface.co/spaces
のところで読み込み中のまま一時間くらいたっても何も変わらないんだけど何か失敗してる?
その上のRunning on local URL: http://127.0.0.1:7860のリンクも当然つながらない あーもーインペイント全然いい感じにならん
インペイント上手く出来てる人は設定とかどうしとんやろ
マスクをphotoshopとかで細部までやってんのかな Coleb版、モデル見てみたら
本家のモデルとOldmodel\oldmodelってのしかないんですが
waifuとかtrinart2みたいな二次元特化モデルは使えない? でぃすこにWaifu1.3について正式アナウンスがきてたので抜粋してコピペ(deepL翻訳)
これを緩和するために、私たちはある組織と提携し、オープンソースAIを前進させ続けることを支援します。Unstable Diffusionとのパートナーシップを発表することに興奮しています。
私たちは、AIをトレーニングし、一般向けにリリースするための研究とリソースを共同で提供します。
Unstable DiffusionのDiscordはこちらです:
ttps://discord.gg/unstablediffusion
彼らは、@Cafe - かふぇとともに、Waifu Diffusion 1.3 を完成させるために、私たちの計算コストに多大な貢献をしてくれています。
私、そして私たちのチームのすべての開発者は、彼らの多大な支援なしには、現在の Finetune の完成はあり得なかったので、彼らへの惜しみない感謝を捧げます。
(いやマジで、Finetuneは3.5kドルもするので、彼らなしでは全く不可能だったでしょう)
ttps://twitter.com/cafeai_labs/status/1576299756376457216
HuggingFaceにアップロードされたプレビューのチェックポイントはこちらです
(トレーニングが完全に終了していないため、エポックが終了次第アップロードされることにご注意ください): ttps://huggingface.co/hakurei/waifu-diffusion-v1-3
https://twitter.com/5chan_nel (5ch newer account) >>922
使えるようになりました
ありがとうございました \nとか\rってそのまま入れるの?
上手くいってるように見えないんだけど ん・・?違うな
3回くらい連続でうまく出てきてよっしゃーって思って次3回やると全然出なくなったりする
見せようとgridでバッチだとseed+1ずつだから覿面というか 自然言語自体が元々極めて曖昧である以上細かい指示を出すのは無理だろうな
a girl and a boy with black hair.でgirとboy両方黒髪だってのが文法的には正しい解釈だし
(日本語でも黒い髪の少女と少年で両方黒髪だよね) 自然言語でも指示自体はできるんだよ。書き方しだいで曖昧にも細かくもできるんだから人間側の問題でしかない
機械翻訳だとこうかけばきちんと区別してくれるんだけど、今のSDだと区別してくれないってだけ
a girl with black hair and a boy with red hair
a black haired girl and a red haired boy >>932
ファインチューンって50万もかかるのか
それ+労力もあるし個人ではやっぱ大変だな >>732
ありがとうございました。PyTorchのキャッシュだけ消す方法がよく分からなかったので、22H2にするついでにクリーンインストールしたら12まではバッチサイズ増やせるようになりました。(ついでにHyper-V+GPU-Pで仮想化したら色々便利にできました。)
>>733
nvidia-smiはもともとPython.exeとかのメモリ量が全てN/Aになってて今ひとつ当てにならんようでした… 733だけど、何がメモリ使ってるか具体的な名前を確認してみたら?って意味だった(量ではなく)
メモリカツカツなら立ち上げっぱなしのブラウザとか影響するし
N/Aはnvidia-smiのusage部分がwindowsのWDDMに対応してないかららしい
ちな自分はブラウザのハードウェアアクセラレーターやら全部殺して
explorer・python・shellexperiencehost
の3つしか載せないようにしてる 昨夜チェックしたらdwm.exeだけで1GB、chromeが500、edgeコントロールが500
この三つで合計2GBだった。おまえらVRAM食いすぎだろ・・・ chromeはこんな情報があるね
https://www.teradas.net/archives/36820/
自分はfirefoxとchrome併用してるけどアクセラ潰してるのでdwmもでない 嘘嘘
nvidia-smiに出ないだけでタスクマネージャーの詳細に列追加してみたら245M使ってたわ・・
(デスクトップ描画してるんだから当たり前じゃ) 絶対にやり方あってるのに1111が導入できずに2日くらい苦しんでたけどNMKD起動しながらだと出来ないだけだったわ。1111が早くやりたすぎてNMKD回してたのがあだになってた ttps://i.imgur.com/lzCUfh4.png
こいつ買えば全部解決じゃない? 次の動向がはっきりするまでは3060-12GBを買って様子見が正解 しばらくはゲーミング用にとGPU自慢してるネット喫茶で欲しいエロ画像がっつり回すよ 漫画読みながらdreamboothできたらいいなと思ったが3090積んでるネカフェなんて日本にはなさそうだな >>949
なるほどなあ、いいこと聞いた
ネットカフェってそういう使い方ができるのか
その場合って環境構築どうやってるの?
毎回色々ダウンロードとかインストールとかしてると時間かかりそうな気がするけど
外付けのSSDとかに必要なファイルとか入れとけば、わりとすぐに使えたりするのかな? waifu1.3は5人くらいのキャラを同時に出せるようになってるな
髪と目の色を個別に指定できないのは当然そのままだが >>951
モデルファイルだけSSDに入れて、現地でNMKDをインストールして運用するのがおそらくベター DreamBoothをVRAM10GBで学習できる奴が出たらしいぞ >>953
なるほどありがとう!
おうちで環境構築できない勢だから前向きに検討してみる
近所のネットカフェのGPU調べないと
>>954
立て乙だけど、KOROKOROなしでIPありのワッチョイとは斬新な
これ使うの? 次スレうんこマン湧いてこないようならワッチョイ継続で
ワッチョイ関係なくうんこマン湧いてくるようなら次次スレはワッチョイ無くせばええんや内 >>956
単純にミスっただけなのだスマヌ
総合スレや愚痴賛美スレに行くべき書き込みが増え過ぎた
立て直すにしてもワッチョイ付きで頼む いうほど増えすぎてるか?
平時はほとんど書き込みないしそういう話題になったとしても10レスも続かんうちに軌道修正できてんのに神経質過ぎない
まともな技術話題が流されてるってんなら分かるけども。 自治気取りとそれに便乗したA・RA・SHIが暴れてるイメージ
10レスも20レスもスレチの続くようならだめだけど まずはワッチョイで様子見てみたらいいのになんでIPも付けるんだろ 自分もNGしたくなったときにNGしやすいからワッチョイは賛成
IPはともかくKOROKOROのせいで書き込みにくくは別にならないだろうし >>900
週末にカンマ解釈の変更時にトークン解釈周りの修正の入ったから影響はあるかもしれんな
設定ページも先週初めと今じゃ項目がだいぶ変わってるし別物だと思った方がいい
まぁ当たり前のことだがAUTOMATIC1111版に限らず、残したいトークン設定と環境は一緒にしておかないとだめだよ
幸いgit関連のアップデートだけなら戻すか再構築すればまだ間に合う
今後モデルを変えたりもするだろうし、アップデート内容もわからずおかしいとかいうような環境管理は自業自得と言われるようになる 介錯方法新旧選択できるようにしてもらうリクエスト出すのが無難かしら 【StableDiffusion】AI画像生成技術7【Midjourney】
https://mevius.5ch.net/test/read.cgi/cg/1664695948/
カウンターで立てたよ、IDのみ
話題メインのSDを先にした、ワナビ臭いって言われた文言変更、間違ってるリンクも変更
954とかでいきなり先行して立ててくる時点で荒らしなんで
んなやつ一人に同意もなしに6スレもやってきた方針勝手に決められたらたまらんわ スレ乱立するんじゃないよおじさん生えてくるから無能 >>966
さんきゅ
冒頭の文書まじきらいだったから有能たすかる StableDiffusionUI-Voldemort V1.2.ipynb - AUTOMATIC1111版が昼くらいから502badになってつながらなくなったんですがセルがどこかおかしくなってるんでしょうか
その前にwaifuモデルを使おうとgoogleドライブから読み込めるようにしようと触っていたのでそれでどこかおかしくなったのかもしれません
https://i.imgur.com/Vulz1nI.png waifu1.3学習が進むにつれて面白みのないアニメ絵になっていくんだな
手足の改善は確かに見られるけどこれではな。。。 >>974
アホなこと言ってないでとりあえずどっちメインスレにするか埋まるまでに決めなさいな >>966でいいでしょ
特に荒れてないのにワッチョイにする意味がない
・・・というかワッチョイになってないwあまりにアホすぎるよアンタ>>975 >>976
>>954のスレにも書き込んだけど>>954じゃないがね
とりあえず次スレ>>966でいいの?様子見? ワッチョイ入れるのはどっちでもいいけど(本格的に荒れるまでいらん気もする)
IPは流石に無駄に勢い削ぐだけやろ。エロスレが本スレになってしまう
今回は>>966でええ 完全に自己満足だけど特定の作家の画風を指定せずかわいい2次絵描くには
どういうのがいいか研究してる。
でもCGとかillustrationと指定した時点で誰かの絵を模倣しているから意味ないよね 次スレは>>966でいいだろうけど>>976みたいなのが
隙あらば自演が荒らしするからちょいちょい雰囲気悪くなるわね つかワッチョイないIPオンリーとか意味不明なゴミスレどうすんだよ
意味ないスレなんだから削除依頼して、ワッチョイで立てるとかなんか動けよ
cg:CG[スレッド削除]
https://qb5.5ch.net/test/read.cgi/saku/1031073549/
ID:FE7mH/3h
もう一度出てきてお前がなんか言えや、出てこれるなら、ね 怪しい雰囲気になったら次はワッチョイも検討みたいな感じでいいと思う
IPは平気な人は平気でも
せっかく素晴らしい知識がある人がIPだから来なくなったらスレの損失だと思うので明確に反対 ああ、なるほど、こうやって雰囲気悪くするのか
勝手にワッチョイで立てて、IDで立て返されたら分裂荒らし呼ばわり
とっても勉強になったわ、こいつみたいなの
ID:/atAZsX2
5 :名無しさん@お腹いっぱい。[sage] :2022/10/02(日) 20:36:31.34 ID:/atAZsX2
こっちにも書いとくけど荒らしか知らんがスレ分裂させるんじゃないよ
どっちメインかささっと決めてどっちか落としなはれ 5chのスレ削除って今ちゃんと稼働してるの?
もう10年くらい機能不全になってるイメージだが
あと1000ならSD 1.5くる ID:FE7mH/3h = ID:/atAZsX2
虎視眈々と狙ってたんだなぁ
早漏しちゃったみたいだが ID:/atAZsX2とID:tDQ31oJaは半世紀ほどROMろうか もうエロスレが本スレみたいになってるしCG板は盾でいいと思う かなり前の話だけど液タブスレとかツイッタースレとかもこんな感じだったから同じ人かも ほっといてもこのスレいずれ無くなるんで荒さないでください
技術力ある人いなくてただの初心者質問スレになってるし 次スレも質問多いようならテンプレにQA追加するかすごい勢いで質問に答えるスレ立てるか相談かね 勢いそんなないからここで質問兼ねたらいいよ
これ以上過疎らせてどうするw 過去わりと技術的に内容があることや、検証した結果とかを何度か書いてきたけど、
何日か前の3Dとかオーディオとか新しい技術が出てきて、とどめにテスラのロボットが出てきたから
追うのに忙しくてここに書くどころじゃない感じw このスレッドは1000を超えました。
新しいスレッドを立ててください。
life time: 13日 8時間 10分 23秒 5ちゃんねるの運営はプレミアム会員の皆さまに支えられています。
運営にご協力お願いいたします。
───────────────────
《プレミアム会員の主な特典》
★ 5ちゃんねる専用ブラウザからの広告除去
★ 5ちゃんねるの過去ログを取得
★ 書き込み規制の緩和
───────────────────
会員登録には個人情報は一切必要ありません。
月300円から匿名でご購入いただけます。
▼ プレミアム会員登録はこちら ▼
https://premium.5ch.net/
▼ 浪人ログインはこちら ▼
https://login.5ch.net/login.php レス数が1000を超えています。これ以上書き込みはできません。