Midjourney】AI画像生成技術交換2【StableDiffusion
レス数が950を超えています。1000を超えると書き込みができなくなります。
英語の文章が画像に!
背景に使うか?イラストのアイデア出しはもちろん、
与える英文を捏ね捏ねして思いがけず生成される秀逸画像ガチャで遊ぶのも楽しい
有料サブスクで商用利用まで可能なAI画像生成サービス
★★★ 注意 ★★★
ここは既存のAI画像生成サービスの”””具体的な”””技術や動向について語り合うスレです
漠然としたAI画像生成の未来や、イラストレーターの職権侵害等の一般的な話題は明確に【禁止】します
(他のスレがありますのでそちらに移動してください)
前スレ
【Midjourney】 AI画像生成 【DALLE】
https://mevius.5ch.net/test/read.cgi/cg/1659786388/ >>831
食べ合わせが悪いものを混ぜると作画が大崩壊するね
俺もいい感じのリアルタッチ人物画を出せる呪文にたどり着いたけど
もう少しおっとりした目にしたいなって思って橋本環奈先生を混ぜたらその瞬間世界が崩壊したw 拡散モデルってAVのモザイク消しを超大規模にやるみたいなもんって思っていい? >>847
すまん確かに
https://i.imgur.com/uGM2qPY.gif
緑色で[Code]となってる所クリックするとメニューが開く→ Download ZIP で保管
とりあえず練習兼ねてインストールしてみたら? >>850
>>853
ありがとうございました!
これでローカル版用のパソコンに備えることができそうです! >>825
レスが遅くなってすみません
詳細に書いていただきありがとうございます、参考にします! AI画像にやっきになっている人の男女比が知りたい
あとSD発表されてからのgoogle colaboの使用率の変化 けっこう公式が中身の解説を出してくれているのが遊びがいあるなこれ
Pythonの勉強兼ねて遊んでるけど変に盛り上がると大手が買収飼い殺しが多いからマイナー文化でいて欲しいわ 今更DALLの招待が来たけど、Stableまわりの勢いと進化が凄すぎて全然ワクワクしないな これから100社単位で提携して各国語対応その他モデル構築する予定らしい
基盤モデルなんてこれからのど真ん中の技術だから、SDが主流かほかが巻き返すか知らないけどマイナーな訳はないと思う Dalle、技術的には同じようなもんなんだろうけど、SDはオープンソースでみんなUI改造したりローカルで動かせるから勢いがいいよね 初音ミク抜きミクさん試してみたけど、何回やってもくそでかツインテ描いてくれませんわ
つーかどっとうpって貼れないのね 2862938 DALL-Eはプロンプトに強制的に黒人を出現させるノイズが混入されたりするので使い物にならない 大きめ画像はどっとうpをarchive.todayに通せば貼れる AI君テクスチャとか繰り返しパターン弱すぎんか?
単調な模様がほしいんじゃ〜〜 img2img使えそうなcolab漁ってるけど全部setupが上手くいかねぇ
多分俺のやり方が悪いんだろうけど
なんかウェブサイト上とかで簡単に出来るの待つしかねーか >>862
> つーかどっとうpって貼れないのね 2862938
今時どっとうpて・・削除する予定がないのなら普通にimgur使いなはれ Midjourneyで女体がサランラップにぐるぐる巻きにされてテカテカしてる画像ばっかり生成してる人見つけちゃった……
あれも性癖なのだろうか そら性癖よ
4chanだとアーマードコア風ロボットメイドさん量産してる人居たし >>865
単調な模様ならプロシージャルテクスチャで作ったほうがいい気がする
文字生成とかもできないし、その辺使い分けはどうしてもいると思う >>872
>>342で既出で、それが単調な模様作りにくいって話だと思う 自分で固有名詞を追加学習させられたらいいのに。どのぐらい計算コストかかるもんなんだろ google colabで「GPU使えませんよ」が解除されるのは時間経過ですか? それとも時刻到達でしょうか クソ遅グラボだしほぼ毎日のアップデートに対応するのもしんどいからローカル環境は見送ってるけど
今は色んな人が改造版を作ってるぽくて、どれがどう優れてるとか一番良いとか全然わからんなぁ… >>874
追加学習は数枚~でもいけるらしい。Google Colabで3時間程度だとか。
※リンクが貼れないので検索ワード: Stable Diffusionをいらすとやでファインチューニングする
上の日本語のものはいらすとやを学習させてるけど、元ネタの方が自分のペットを学習させて登場させてるので
多分固有名詞を追加できそう
dreambooth.github.io/
試してないから多分こんな感じ?レベルのボンヤリ理解(間違ってるかも) ミクさんチャレンジ
"portrait of anime girl, ((turquoise colored twintail)), digital cg art by Greg Rutkowski"
https://i.imgur.com/mcRMLsT.png >>878
これは完成度高い
Greg Rutkowskiすごいなw
いくつかランダムシードでやってみたけどどれも綺麗に出力された。いい呪文だ >>878
左上すげえ
先頭に主語入れるだけでそこそこの絵を出せるテンプレをひたすら回すだけになってしまった
もう自動でやってほしい 脱がせるとみんな胸がでかいんだけど、小さくするワードってある?slenderとか入れてもバインバイン。 >>883
slimとか低年齢に設定して身長を高くする。 >>883
”爆乳”が使えるから"貧乳"も行けるんじゃないか?試してないから知らんけど >>878
色々やって気が付いたんだけど、意外と短文の方が強いんだよね
呪文は長ければ長い方がいいです的な説明が導入マニュアルに書いてあった気がするんだけど
意外と混ざることで良い要素が打ち消し合う力が強い >>884-885
>>888
それぞれ最初の方に入れて試してみたけど、やっぱりどうにもバインバインですね…… >>886
多分最初触ったときは自分が出したい画を端的に一文書いて終わりにする奴が多いだろうから
そういう奴へのメッセージなんじゃないかな
効きもしない言葉を数個並べてもそれこそどうしようもないものが生まれるだけだし
>>890
flat chestとでも入れたらどうよ >>892
一個一個見ていったら三回ぐらい出てくる奴が何人かいて、よくわからんが笑ってしまった >>891
確かに
経験不足の間は、AIに対する説明不足もしくは説明不備のミスが多いやろうしな
多少理解が進んでくると、説明呪文の過剰の害が分かってくると >>892
いいね
digital concept art of anime cute girl in summer dress, detailed eyes, gorgeous face, ((turquoise colored twintail)), smooth details, digital cg art by Greg Rutkowski
k_euler_a, cfg 10, steps 50, seed 721628136
4枚一組で、左端はオリジナル(同じのが3段ある) Original image on the left.
1段目 turquoise -> green -> red 色違い
2段目 twintail -> ponytail -> bun 髪型違い
3段目 summer -> cocktail -> maid 夏ドレス、カクテルドレス、メイドドレス 考えてみると、AIという箱に文字列を打ち込むと絵を出力し、逆に絵をAIという箱に打ち込むと文字列を出力する、というのは、人間の知性の本質を突いてるよな
つまり対象を個別の要素に分解して、それを文字列なりイメージなりで認識するという抽象化能力が人間の認識的知性の本質
絵や文章というのはその個別の要素の組み合わせだということ
統合失調症患者がデティールが奇妙に歪んだ絵を書くのは、彼らが認識的知性において重要な統語能力=抽象化能力を脳機能の障害によって失っているからだろう
また同様に「言葉のサラダ」と言われる全体の繋がりを欠いた意味不明な文字列を口走ったり、他人の思考が流れてくると糖質患者が訴えるのも、同様に抽象化能力に障害があって、適切な言語化やイメージ化ができないからだとおもう
AIに例えるならば、アルゴリズムに奇妙な歪みがあって、APIを通して物体を絵や文字に変換しようとしても、適切に変換できないのが糖質患者なのかもしれない
だらだらと書いたけど、つまり何がいいたいかというとAIすげえな、ということ もしかしてと思って試したけど5本指の手できなすぎワロタ
苦手ってそういう事じゃないんだよAIちゃん
https://i.imgur.com/pltGnjj.jpg
close up of anime girl hand, ((Five fingers)), digital cg art by Greg Rutkowski
Steps: 20, Sampler: k_euler_a, CFG scale: 7.5, Seed: 1842527531 手ほんと苦手だなしかもグロくなりやすい
義手連想させる単語入れたらすごいことになった >>897
迫真の ((Five fingers))にワロタ あんまり分かってないけど、画像を学習する時に、例えばこれは
https://i.imgur.com/RZr0oGw.jpg
「白と黒のぶち猫が座ってこっちを見ている」で、「顔が一つ、目が2つ、前足が2本の猫」とはならず、「指が5本」とか効かないのではって気もする そろそろ3DCG版出て欲しいな
予定とかあんのかな? 条件わからないけど生ゴミとか生首?画像出力されてビビることある >>901
両手の画像も込みで「なんか肌色の細いやつが数本」みたいな認識されてたらお手上げだなw
じゃんけんをしている、とか効くんかな
あとCFGテストしたから置いとくわ
https://i.imgur.com/c2VknDZ.jpg >>43の「今後」のところに書いてるレベルなので、具体的には描いてないけど、3Dも予定あり、ですね
それはそうと今Google Colab混雑でGPU接続できないわ。まいった 普段使わないと思ってた人達までgpu使い始めたらgoogle悲鳴あげそう
いきなり規約改定が入る事を覚悟してゲーミングPCの準備をしておこう GUItardというか、https://github.com/hlky/stable-diffusionと同等のノートブックが公開されてる
https://colab.research.google.com/drive/1cd35l21ewU0fwWEnPjY_th5YORmMfZCd
ノートブックのUIじゃなくて、WEBサーバーを立ち上げるので、ローカルと全く同じUIになる
*現在バグで、PROGRESSBARSにチェックを入れないと起動できない
*モデルは事前にダウンロードして自分のGoogleドライブに入れる前提
構築にかなり時間がかかるのが欠点だけど、使い勝手的にはこれが一番いいはず。構築も上から順に実行するだけでシンプル。
・・・のはずだけどGPU接続できないから確認できないw rock, paper, scissors game ちょっと期待できそうなのワロタ
あとなんか可愛くなってる気がするわ
https://i.imgur.com/TuRO5aC.jpg ファインチューニングやばくね?特定の作家の作風パクリ放題でしょ 3 animals って入れるとすごいキメラが出てくるぞ
普通にキモいので閲覧注意 ファインチューニングしたモデルは簡単に配布できるから
そのうち各作家や作品毎のモデルもアングラで配布されるようになるんだろうな
予想より進化の速度やばいわマジでパンドラの箱が開いた >>875
>671に「12時間だっけ」とはあるが確証なし animeって単語は入れたらだめだと思ったがGreg先生と組み合わせると割と綺麗に出るんだな いい解説ページがあった
GPUにいつ制限がかかるかや回復する条件は非公開とのこと
Google Colabの制限と対策|npaka
https://note.com/npaka/n/n1aa6f8c973d0 あんまり分かってないけどファインチューニングって、例えばだけど「tanaka mamimi」の画像を数枚追加学習させると、
waterpaint, tanaka mamimi みたいな生成ができる、「reiji matsumoto」を学習させると、authored by reiji matsumotoが
できるになる、みたいなことかな?
既に、hlkyにtextual inversionとしてコードある。これもわからないけど、学習自体はhttps://github.com/rinongal/textual_inversion でやって
他でやると書いててできたembedding.ptを hlky版で使えるようにするみたいな機能なのかな?
https://github.com/hlky/sd-enable-textual-inversion
後別の話でhlkyはDocker関連ファイルも8時間前に用意された。
hlky勢いすごい ぶっちゃけ全く触ってこなかった分野なのでこれから色々学習していかないとなんだけど、スクリプト言語はPythonを勉強すればいいのかな?
ネットで他人が書いてるノートをコピーして実行は出来ても、自分でこういうことを追加したい、と思ってもうまくいかなくて >>916
大体そうっぽい
SDが学習できてない要素をピンポイントで補う自作モデル みたいな
ちょっとやったくらいじゃ要素の一部を学習する程度だから今すぐどうこうってもんでもないと思うけど Emadさんのツイート
100MBってモデル(ckpt)がってこと???? 使用メモリはどうなんだろう
---
@EMostaque
#StableDiffusionは最終的に100メガバイトになり、最適化が進むと信じています。
今週は楽しい発表があります??。
あと6日...
For what it’s worth I believe #StableDiffusion will eventually get down to 100 megabytes, loads of optimisation to come.
We have some fun announcements this week coming ??
Already amazing to see what everyone is creating, we are going to accelerate that.
6 days in… >>917
言語はPythonだね
「やりたいこと」がなにかで、追加で色々勉強しないとだめだったりすると思うけどまずはPythonはいる >>916
新しい機能を取り入れるスピードが速いから
hlky版に参加する開発者も増えてるね hlky版の完成度と更新頻度高すぎてPython知ってても手を入れる余地なかった ちょうどEmad氏が手足の問題に今週末あたり何かしら答えを出すみたいなこと言ってるな。 img2imgは少し複雑な構図や服装になるとAIが全然理解できなくて
滅茶苦茶な絵を出力してくるからまだまだ限界があるのは感じるな これは久しぶりに伽藍とバザールの対比が炸裂したソリューションだな
象牙の塔で研究されてたものがOSSにされた途端ものすごい勢いで進化していく https://zenn.dev/hidetoshi/articles/20220731_pytorch-m1-macbook-gpu
MacBook Pro M1 Max のディープラーニング性能
※StableDiffusionじゃないけど同じPytorchの性能
CPU: 訓練時間 2148秒 テスト時間 90秒
GPU(MPS) 訓練時間 286秒 テスト時間 45秒 → 訓練4.6倍、テスト時間2倍高速化
Geforce 1080Ti:
訓練時間 55秒 テスト時間 1.3秒 → M1 Maxより訓練5倍、テスト35倍高速
2世代前、もうすぐ3世代目になる1080Tiよりも、M1 Maxは桁違いに遅い。意外だった ディスクリートGeForce搭載ノートと言うのもある >>928
コスパ段違いやな
MAX搭載Macとか糞高いし >>919
ckptが100mbになるらしい
iPhoneで動くようになるんだと
ヤバすぎワロタ 自作詳しくないから知らんけど1080TiのPCとか下手したらディスプレイ込みで10万以内で作れるんちゃうの? >>932
キッズに悪用されまくるのが目に見えてるわw
今はまだ最低限のリテラシーある層しか利用できないから大きな問題になってないけどさ
これから一般層に降りてくるとやばいよな イラストサイトにAIイラスト爆撃までカウントダウン始まったな 確かに1080tiってそんなに高額でもないな
メモリが多ければいいって話だし まあ今後最適化でまた違ってくるんだろうけど RTXからTensorコアが乗ってPytorchが加速されてるから
RTX2060でも1080Tiのさらに倍の推論性能
今コスパで行くなら2060 12GBがいい感じ
とはいえモデルの精度変更や刈り取りや圧縮が進んでいるので
今のVRAMこそ正義な状況がいつまで続くかという話だけれども 内部の計算速度に比べてメモリの入出力は極端に遅いから
今後もVRAM容量の節約と速度はずっとトレードオフの関係だろうけどね
出来るだけメモリに詰め込んで読み書き減らすのが正義なのは変わらない 早く1024や2048サイズがメモリ4GBくらいの古代グラボでも数秒で出力出来る時代になりますように… >>928
M1はニューラルエンジン積んでるけどそれに最適化したらまた変わってくるんじゃない?しらんけど
ゆうて単体GPUはやっぱ強いよな
今はmacだけど結局ゲーム用にWinも併用してるわ 拡散モデルがアニメ絵やデフォルメ絵が苦手なのは確かだけど
それでもサンプルが豊富なドラゴンボールやポケモンはある程度学習出来ているから
萌え系が上手くいかないのはサンプル不足の影響もかなりありそう
AIは抽象的な男とか女とかは学習できなくて○○さんの描く女の子やドラゴンボールの孫悟空みたいに
具体的に指定しないと駄目だから萌え系は作品のサンプル数が圧倒的に足りていないんじゃない? ドラゴンボールやポケモンは比較的画風が統一されてるけど、美少女イラストは人によって目鼻口のバランスが違う上に下手なのも混ざってるからな ロボポン乳を許容する人もいれば許せない人もいるからそこら辺のバランスは顔に限らず難しい問題 適当に要素足してもRutkowskiがなんとかしてくれる安心感がある >>936
AIの描いた絵をAIが学習して
どんどん奇形化していきそう Rutkowski居なかったらStableDiffusionの評判が一段下がってるまである
Rutkowskiに足向けて寝られないわ hlky版をVRAM4GBで動かせた
省メモリ版basujindalのturbo設定も実装されたから高速実行できる
方法は >>825 に加えて
scripts\relauncher.py をテキストエディタで開いてこのように追記する
python scripts/webui.py
↓
python scripts/webui.py --optimized-turbo >>942
> ポケモンはある程度学習出来ている
いや俺の経験じゃポケモンダメダメなんだけどどうやってる? レス数が950を超えています。1000を超えると書き込みができなくなります。