Midjourney】AI画像生成技術交換3【StableDiffusion
■ このスレッドは過去ログ倉庫に格納されています
英語の文章が画像に! 背景に使うか?イラストのアイデア出しはもちろん、 与える英文を捏ね捏ねして思いがけず生成される秀逸画像ガチャで遊ぶのも楽しい 有料サブスクで商用利用まで可能なAI画像生成サービス ★★★ 注意 ★★★ ここは既存のAI画像生成サービスの”””具体的な”””技術や動向について語り合うスレです 漠然としたAI画像生成の未来や、イラストレーターの職権侵害等の一般的な話題は明確に【禁止】します (以下のスレッドへ移動してください) AIイラスト 愚痴、アンチ、賛美スレ https://mevius.5ch.net/test/read.cgi/illustrator/1661305344/ 前スレ Midjourney】AI画像生成技術交換2【StableDiffusion https://mevius.5ch.net/test/read.cgi/cg/1661146705/ StableDiffusionの人の他社製品比較 https://twitter.com/EMostaque/status/1561349836980584455 ・StableDiffusion、DALLE2、midjourneyは全て異なるものだ ・この分野は、去年(2021年1月)にOpenAIがCLIPを公開したことで始まった これにより画像生成のガイドが可能になった ●DALLE2 ・モデルかつサービス。インペインティングは最高の機能だが、ランダムなのでアイデア出しやより企業的な用途に最も適している。 ・来年にはコストが10分の1以下になりAPIも公開されると思われる ・トレーニングデータは著作権のあるイメージなので、オープンソースにはならないと思だろう ●MidJorney ・VCの資金提供を受けたベンチャー、ではなく研究所 ・非常に独特な絵画のようなスタイルを持っている ・一貫性に膨大な労力が必要。ランダム性が強いがある程度コントロールは可能 ・オープンソースとそうでない部分がある。 ●StableDiffusion ・アートからプロダクトまで、あらゆるタイプのイメージに対応する一般的な基礎モデルでもうすぐリリースされる ・まもなくDreamStudioプロシューマーサービスを発表する ・今まで皆さんが見ていたものベータ版のモデルテストから得られた生の出力で、前処理も後処理も行っていない これらを使うことで格段に良くなり、きめ細かいコントロールに力を入れた ・オープンソースのモデルなので、誰でも使うことができる。コードもデータセットもすでに公開されている そのため、誰もがこのモデルを改良し、構築することができる https://twitter.com/5chan_nel (5ch newer account) テンプレはとりあえずそのままにしました 「これ入れて」がいろいろあると思うので>1へ提案しておいてください >>1 乙! hlky&980ti(6GB)で念願の512x512いけたー! webui.py他更新してるの気付いてなかった、頻度が凄すぎる、教えてくれた人ありがとう --optimized-turboで速度3割増し、面積で8割増し、えらいこっちゃ! --optimizedだけならなんと640x640までOKだったよ、速度めっちゃ落ちるけど これ上位GPU持ってる人はかなり解像度上げられるんじゃ・・ たて乙 現時点で、最もよい導入方法(ローカル)やcolabとかもまとめてあったら便利だろうけど、 最適な方法が流動的すぎて無理だよなぁ まとめ情報書き込みたいけどNGワードで書き込めない。なにが引っかかってるんだろう? とりあえずファインチューニング(textual inversion)メモ 追加で自分のペット画像などを学習させて登場させることができる ・流れとしては画像を学習させembedding.ptを作る → それを--embedding_pathで指定する → プロンプトで指定する ・利用時はptファイルを --embedding_pathを指定すればOK。 (ldm) ~/stable-diffusion$ python3 ./scripts/dream.py --embedding_path /path/to/embedding.pt --full_precision ・追加学習させたものはそれぞれ、トークンプレースホルダーを割り当てる必要がある(*、@、・・・など) 利用時は例えば"In the style of * , <other text>"となる。 これは使い勝手が悪いので hlkyは、分かりやすい単語とプレースホルダーのマッピング設定を検討中 https://github.com/hlky/sd-embeddings ここにはアーニャ、tomokoの学習データがある。 ・他にも既に学習データをテスト公開している人がいる。 Usada Pekora 5枚の学習に3090で1時間 https://sd-textual-inversion-models.tumblr.com/ ・学習方法 https://github.com/hlky/sd-enable-textual-inversion Stable Diffusionをいらすとやでファインチューニングする まだ情報がまとまっていないのでハードル高そう。full_precisionじゃないとダメなのかな? >>9 書きたいけどNGワード連発されすぎて心が折れたw とりあえずcolabで動かしたい人はここがおすすめかも コマンドは公式のリンクと同じ。hugging face とかの部分が最初わかりにくいかも https://zenn.dev/k41531/articles/2459bbbe8e5cf3 NGワードはすぐわかっちゃうと荒らしが対応するから秘密らしく、条件はよくわからない 「5ch ngワード サンプル集」で検索してみて、日本語アドレス酷いから貼らないけど 微妙に変えたり、2レスに分割するしかない Stable Diffusionの人、Crypto界隈をめっちゃ煽っててワロタ。 ・SDのように分配強化されたインテリジェントなインターネットが真のWeb3/メタバースと言える ・最初から価値があれば(トークンのような)経済的インセンティブは不要 ・ETHマージ後は不要になった全てのGPUで美しい画像や音を作るだろう https://twitter.com/blog_uki/status/1564122819151032320?s=21&t=4aFlC0UNkMiRV64jPxMGjw https://twitter.com/5chan_nel (5ch newer account) NGワードは単純にリンクURLが引っかかってたりとかではなく? ●StableDiffusionの情報ソース等 ・Discord https://discord.gg/stablediffusion ・中の人のtwitter https://twitter.com/EMostaque ・海外情報reddit https://www.reddit.com/r/StableDiffusion/ ・https://rentry.org/GUItard 環境構築情報は hlkyの方が早すぎて追いついてないので>>18 を見たほうが良いが、その他TIPSは有用情報あり ・今後 ・モデル v1.5の公式ツイートあり。8月29日時点で6日後(=9月4日予定)。100MBになる!? ・アニメ用モデルの公式ツイートあり(8/24のツイート ”すぐ") ・来月(=9月)は”audio"モデル、その後3D、ビデオ予定(時期不明) https://twitter.com/5chan_nel (5ch newer account) StableDiffusion TIPS ●性能など ・画像生成時間は、解像度、step数、サンプラで違う。他のパラメータは多分あまり影響はない サンプラの差は大きい。k_euler_aとk_heunでは2倍差 k_euler_a 、k_euler、DDIM、PLMS > l_lms > k_dpm_2_a、k_dpm2、k_heun ●ハード ・ローカル動作性能 https://i.ibb.co/yd7SZ32/chartthin.png 出典:https://rentry.org/GUItard ・K80(24GB)めっちゃ安いんだけどあり? → 古いからStableDiffusionが使ってるPytorch動かない ・複数GPUにすれば高解像度にできる? → 多分無理。複数GPU並行実行すればその分高速にはできる ・高解像度にしたい → 3090(24GB)でも1024x1024無理。RealESRGANで高解像度化したほうがよさそう MJはもう別スレがいい?ここじゃあまり語られないし >>22 > サンプラの差は大きい。k_euler_aとk_heunでは2倍差 > k_euler_a 、k_euler、DDIM、PLMS > l_lms > k_dpm_2_a、k_dpm2、k_heun し、知らなかった・・ 「生成時間は」で不等号だから、当然k_euler_aが長くて、k_heunが短いんだろうけど 一応(遅)←・・・・→(早)みたいなのあったほうがわかりやすいかと >>23 一緒でよくね スレの流れが早いわけでもないから下手に分散させたら過疎るだけかと >>24 「時間」じゃなくて、速度でした・・・ hlkyで、it/s = コンソールでのit/s表示. sec per image = ブラウザ上での生成時間情報。2080Ti k_euler_a 7.76 it/s 6.84s per image k_euler 7.68 it/s 6.87s per image DDIM 7.59 it/s 6.9s per image PLMS 7.50 it/s 6.95s per image l_lms 5.89 it/s 10.08s per image k_dpm_2_a 3.95 it/s 13.0s per image k_dpm_2 3.91 it/s 13.16s per image k_heun 3.91 it/s 13.12s per image 進歩が速いのであくまで現時点。ただ結構違う可能性がありますよ、ぐらいですね k_euler_aはSampling Step 20くらいでいい感じになるのでなお早くできる --turboの効果凄いな、ちゃんとメモリ節約出来てるのにオリジナル版並の速度が出る img2img、バリエーション起こすのにいいわこれ この用途だとscaleとstrength中間でスタートで様子見して、下手に大量にワード入れるより数ワードに絞った方が暴走せずいい感じになる 法律、権利関係の議論は熱くなりそうで別でやって欲しいんだけど、このサービス、技術的にどのぐらいのレベルなのか気になる https://illustmimic.com/en/ 本日、イラストレーターさんの絵の特徴を学んでイラストを生成するAI サービス mimic(ミミック)をリリースいたしました! 2回までイラストメーカー(イラスト生成AI)を無料で作成できますので、ご自分のイラストを学習させたい方は是非ご利用ください! mimic(ミミック)では15枚?30枚程度のキャラクターイラストをアップロードすると、自動で顔部分を切り取り、 AIが特徴を学んでイラストを生成します。規約によりご自身が描いた画像のみアップロード可能ですのでご注意ください。 img2imgは構図維持するよりstrengthを大きくして 元画像は言葉で表現できない細かな情報伝えるのに使ったほうが面白いな 例えば手前のオブジェクトはくっきりで遠景だけぼかすみたいな指示も簡単にできる >>34 Loopbackはやってる? Strengthを0.2~0.3ぐらいにしてLoopback Batchを5回とか10回かけると構図維持したまま細部だけ変形していくよ >>26 ちな980tiの「a dog 512x512 cfg 7.5 step50 k_euler」で hlkyの--optimized-turboで1枚=1分32秒(0.54it/s=1.84s/it)だったよ・・14倍差て、2080tiってそんな早いのか AI画像は結構数撃ちゃ勝負みたいなところあるので、やっぱ高性能GPUは強いなぁ >>32 今挑戦しようとしたら(もちろん自分が描いたやつね)処理に9000人待ちで生成どころじゃないのでなんとも言えない >>32 waifulabsとかThis Anime Does Not ExistとかCreative AIとか あの辺と同じ技術なんじゃね? こいつらは雑多に食わせたモデル使ってるが学習データを特化すればできそう >>26 >>26 RTX2080でoptimized版に--turboでddim 50step 512×512 1枚あたり7.5秒だな 2080Tiと殆ど変わらないとは思えないんだが --turboで何か処理を間引いてるのか? >>38 9000人はすごw mimicの運営の会社、前からAI画像生成サービス色々やってる会社みたいだけど、 Midjourney、SDブームで注目度が高いところに発表したからプチブレイク(ちょい炎上気味)してる感じ 学習めっちゃ時間かかるのにオンラインサービスでやって採算大丈夫なのかな? と思ったらまだ有料版の料金は書いてなかった >>42 1割差ならそんなもんかも? ディープラーニング性能どれがどのぐらい差があるのかよく分からないので、 ちゃんとしたベンチマークが欲しい 2080Ti → 3090Ti で性能2倍、今後出る4090は、更に2倍(予想)。速いGPU欲しくなる StableDiffusionもバージョンアップで性能上がっていきそうですが 初音ミクは前スレのこれがめっちゃ良かった turquoise colored twintail、とGreg Rutkowski みたいなキラーワードを見つけると高品質が担保されて、追加ワード微調整できる感じ https://i.4cdn.org/g/1661704624784564.jpg digital concept art of anime cute girl in summer dress, detailed eyes, gorgeous face, ((turquoise colored twintail)), smooth details, digital cg art by Greg Rutkowski k_euler_a, cfg 10, steps 50, seed 721628136 1段目 turquoise -> green -> red 色違い 2段目 twintail -> ponytail -> bun 髪型違い 3段目 summer -> cocktail -> maid 夏ドレス、カクテルドレス、メイドドレ SDは既存アニメキャラは意図的に出ないようにしてるみたいでそういう用途ならdalle miniのほうがええね 前スレの > でも3090TI(24GB)でも960x640、もしくは896x896が限界、らしい これ--optimizedだったら1024x1024行けるかな? Craiyonのanimeエンハンスモデルが3090のシングルで数時間学習しただけで あの性能なの見るとSD公式のアニメモデルが来ると凄いことになるのかもな >>45 そこだけ妙に節操があるのはなんでなんだろうな 著作権なんて便所の糞と一緒に流しちまえとしか思ってない連中なのに どのみちSDでは縦横両方が512を超えると途端に破綻しやすくなるから後から超解像度したほうがマシ MJの高解像度出力ってどういう仕組みでやってるんだろう? あれがSDに降りてくれば凄いんだが 512x512で作ってから 同じプロンプトでimg2imgの1024x1024低Strengthかけるなんていうやり方もあるらしい 逆に絵から「このテキストで作る絵に近いですー」って出してくれれば 好みの絵つっこみまくったら共通ワード出せるのか >>46 3090持ってないけど、11GB VRAMで --optimized-turbo 1024x640がいける。この時VRAM 10570 MB(95%)でほぼ限界。 オプションなしだとクラッシュする。 turboなしの--optimizedだと、VRAM 10774MBで変わらない(何故か若干多い)→ 遅いし現時点turboなしは意味がなさそう。 VRAM消費量が解像度比例なら、24GBあれば1024x1280いけそうな気がする >>36 勘違い、実験中で-turbo入れ忘れ 0.78it/s=1.27it/s、約10倍差だった (どうでもいい情報ごめん) >>51 今それ試してるんだけど、ボケちゃって詳細が生成されるわけでもなくいまいち ESRGanと変わらないというか・・strを0とか0.01、0.05、0.1とかいろいろやってみたけど MDでいうlightでないupscaleみたいなのが欲しかったんだけど 大元の生成時の画像とseedと呪文等全部ちゃんと記録しといて、-turbo外して大きいのを作り直しとかがいいんじゃないだろうか >>48 むしろ逆だよ 「なんかカッコいいアニメのポスター」で既存のアニメの絵が出てきたら使いにくいじゃん フォトストックみたいに気軽に使えるものが欲しいんだろう >>53 最初から12GBとか大きいのには効果低いってことなんだろうか あくまで小メモリ雑魚GPUへの救済 > VRAM消費量が解像度比例なら、24GBあれば1024x1280いけそうな気がする ぐへへへ・・3090tiいっちゃうか?BTOで60万とかするけどw 解像度比例と思って面積範囲内で1:2くらいの縦長にしたらOut of memoryだったりしたのでよくわからない まぁあんま正方形から外しちゃうとAI的に意味ないのでアレだけど やっとGoogle ColabでGPUつかめた。 Google Colabで hlky同等。つまりNotebookで使うのではなくGradIO WebUIが起動するノート https://colab.research.google.com/drive/1cd35l21ewU0fwWEnPjY_th5YORmMfZCd 事前に自分のGooglde Driveにmodel.ckptを配置しておく前提だけど、それ以外は上から順番に実行するだけでOK 起動がかなり遅いのがデメリットだけどWeb UIはやはり便利 こちらも同じくhlkyのGoogle Colab版。試してないので違いは分からない(動くかも未確認) https://github.com/altryne/sd-webui-colab 例の炎上サイト、Tesla P100×1台分程度のリソースしか用意してないな 逆に言うと殆ど個人の趣味レベルの会社でもあんなサービス作れる時代なのか 貧弱なローカルPCでやってたらMJって凄いことしてるよなぁってヒシヒシと・・ ①呪文を受けて512x512を4枚作って、半分のサムネにしてgrid表示 ②upscale依頼を受けて1枚を1024x1024に同seedで「作り直し」で情報増加 ③さらにupscaleで2048x2048化、これも作り直しで情報増加 ②や③を同じ画像に対して繰り返すと内容が微妙に変わってたのが何なのかよくわからないけど >>56 凡人の考えなんて3周遅れなんやね……、情報サンクス AI勉強するか、と思ってサイト検索して、Python基礎、微分、線形代数、この辺まではまあ高校数学だから、そういうのあったなーでいいけど 行列偏微分のあたりでんんん???となって確率統計で時間かかってる。道は遠い 俺どうやって大学卒業したんだろう・・・。やっぱ勉強大事 >>58 ちらっと中身見ただけだけど2個目の方はアクセスするためのパスワードかけられるっぽいね 別にアクセスされたからってそんなに困ることもないだろうけど気になる人はそっち使うといいかもしれない >>60 かなり運用コスト高そうよな 微妙に変化するのはSDで言うところのi2iしてCFGを弄るイメージ anatomical chart(人体解剖図)という 入れると人体が正確になる代わりにやけに生々しくなる劇薬みたいなワードを発見した あと真正面向く >>60 MJは従業員10人の零細企業だけど有料プランの料金体系はawsオンデマンドの料金を超えないように設定されてて 既に利益は出ていると、そして常時エクサスケールのリソースが消費されている 地球シミュレータの数十倍となる計算量だけどawsなら金さえ払えばいくらでもリソース使えるから零細企業が いきなりこんなマシンパワ―使えてしまうという凄い時代 >>62 AIの何やってるか知らんけど深層学習の原理は普遍近似定理 フーリエ解析や関数解析を勉強してないと定理の証明は理解できんぞ AI、最初はおもろかったけどミミックだっけか、あそこまで露骨なの出てくると完全に無法地帯と化してきて引くわ イラストレーターは今後自分の絵に転載禁止の他にAIへの出力及び学習禁止みたいな項目も書く必要が出てくるねぇ あんなありがちな顔だけ生成マシンがここまで荒れるとは hlkyにDokcerファイル、docker-compose.yml他が追加されて、Windowsでもdocker compose updだけで使えるぽい https://github.com/hlky/stable-diffusion/discussions/93 WindowsのDocker Desktop って NVIDIA GPUの準仮想化に対応してんのね。知らなかった。 便利そうではあるけど、なんかトラブりそうで誰か人柱が欲しいw >>74 規約だと生成マシンのために用意する画像は自筆のものだけってことになってるけど 絶対他人の書いた画像をぶちこむ奴らが湧くから絵描きは普通に警戒すると思う どのみちファインチューニングしたファイルがどんどん配られるようになるから反対しても無意味だよな 配布されてたぺこらの奴はまだまだ…って感じだけど品質の向上はどんどん進むだろうしな >>64 って書いたけど実際動かしてみたらなぜかパスワード機能しなかった webui.py書き換えて直接パスワード指定したらできたから結局どっちでもいいかも この板にもAI愚痴スレ立てた方がいいの? 物申したいだけなら余所でやってほしいんだけど 賛美を抜いた愚痴アンチだけのスレが欲しい または賛美スレもこの板に立てるとか >>50 > どのみちSDでは縦横両方が512を超えると途端に破綻しやすくなるから後から超解像度したほうがマシ > MJの高解像度出力ってどういう仕組みでやってるんだろう? あの1024化は謎すぎる 前に縦長1:2で全身出そうとしたら最初の4枚の時点で破綻してたから、そんな凄いことはやってないとは思うけど 賛美がCG板で 愚痴アンチが向こう完走次第イラストレーター板 でいいんじゃないかな 板の特性的にその方が住み分けできる気がする midjourneyが期間限定で--test,--testp,--creativeオプションを実装してるね ID:l6B+4duJ >>1 ★★★ 注意 ★★★ ここは既存のAI画像生成サービスの”””具体的な”””技術や動向について語り合うスレです 漠然としたAI画像生成の未来や、イラストレーターの職権侵害等の一般的な話題は明確に【禁止】します (以下のスレッドへ移動してください) AIイラスト 愚痴、アンチ、賛美スレ https://mevius.5ch.net/test/read.cgi/illustrator/1661305344/ >>83 また定期的に期間限定やりやがってくやしい・・でも > 1) A general purpose artistic mode you can use by typing --test > 2) A photo-realism mode you can use by typing --testp > If you want it to be more creative type --creative after your prompt https://twitter.com/ro1was/status/1564256480701730816 マジかって感じ https://twitter.com/5chan_nel (5ch newer account) >>86 ほくろ 鎖骨にも見える服のシワ? えっち! 手軽なAIで生き残れるでしょ スマホでも出力できるし Google Colabで現在のサンプラーを確認したりサンプラーを指定したりするのはどうやればいいのかしら MDのtest、girlって入ってても結構な確率でオッサンとか出るな midjourneyて適当に単語入れてもなんかいい感じ(雑!)になるけどあれってどの段階でどんな感じに調整してんだろ(あやふや!) MJの勝手にいい感じになるのが面白いし、本来の創作からはかけ離れてるなとも思う たまたまこんなの出たぞ!って自慢する遊びって感じ 「俺が考えて台を選んだからパチンコで勝ったぞ」みたいなレベルの 作成した画像だけで指定したプロンプトってわかったりする? --testで久々に入ってみたけどMJのrelaxモード遅っせぇ! つか動きだしたらまぁ早いんだけど、(Waiting to start...)で数分、下手したら10分くらい止まる ある時間内に受け付けられるfastモードの上限数があって、それ以下の場合に初めて受け付けてもらってるとかじゃないかな ようはすべての有料キューの後回しにされてる デコーダーもあるから一見出来そうに思えてやっぱり出力→入力への逆変換は不可能なんだよな 逆にそれが出来たら既存画像から髪の長さだけ変更とか構図だけちょっと変更とか服だけ脱がすとか自由自在に改変できてやばい まあそれ用のAI学習すれば出来てしまうんだろうけど ちなソースの中身見ると最初から各自で自由に改変・拡張できるように 滅茶苦茶親切に色んな機能があらかじめ用意されてるのな 短期間に機能追加が進むわけだ >>99 seedが違うんで完璧に逆は無理だね なおSDでseedまでわかる検索サイト https://lexica.art/ 日付が8月上旬に集中してるので、その頃のDiscordのβ情報だと思われる ■ このスレッドは過去ログ倉庫に格納されています
read.cgi ver 07.5.5 2024/06/08 Walang Kapalit ★ | Donguri System Team 5ちゃんねる