共感で繋がるSNS
人気
帯椀 稀能毘

帯椀 稀能毘

発進前のハンガーっぽくと指定したんですが、研究所っぽくなった。
Copilotにベースプロンプトを作ってもらって、長文プロンプトになったんで、再現性の高いHiDreamで生成してみた。
2枚生成して、もう一方はもっとガンダムっぽかったんで没に(笑)

#画像生成AI
#HiDreamI1
お題 Robot
お題 Robot
参加
AI絵師の星AI絵師の星
GRAVITY
GRAVITY36
帯椀 稀能毘

帯椀 稀能毘

ということでHiDreamの生成テストPart2です。
今回は物撮りの実力をテスト。

モチーフはいつものように
「海辺のパーキングに停まっている青いWRXと黒いGT-R」
「ステージ上に置かれた黒いフェンダー・ストラトキャスターと大きなマーシャルアンプ」
です。

今回はチェックポイントをDevのGGUF蒸留版(Q3、だいたい8GB)に替え、チェックポイントが軽くなったのでノーマルVRAM設定にして生成してます。

結果はご覧のとおり。
2台のクルマを混ぜずに一発回答しましたが、FLUXと比べるとややのっぺりした仕上がりです。アニメ塗りに近い感じの仕上がり。
また、ギターはバッチ2ショット生成してますが、1枚は多弦化しました。

また生成時間は、いずれもざっくり300秒弱かかっています。

正直なところ、物撮りの実力はFLUXほどではない感じです。

#画像生成AI
#HiDreamI1
AI技師の星AI技師の星
GRAVITY
GRAVITY36
帯椀 稀能毘

帯椀 稀能毘

と言うことで、最新画像生成AI同士の比較ショットを公開しておきます。
それぞれHiDreamI1 (dev)、FLUX1(dev)、StableDiffusion3.5mediumです。

<生成環境>
HiDream:ComfyUI、GGUF蒸留モデル、28ステップ、1024×1024
FLUX:forge、NF4軽量化モデル、20ステップ、1152×896
SD3.5:ComfyUI、純正モデル、30ステップ、1152×896

画像の出来映えはご覧の通りで、いずれ劣らぬと言う感じです。モノのスケール感が微妙なのはどれも同じ。ギターの多弦化はHiDreamとSD3.5で発生してます。

生成処理の軽さはSD3.5が最軽量でFLUX、HiDreamの順。ただFLUXには8ステップ生成のターボLORAがあり、Web投稿やテスト生成であればこれで十分なので、実用上FLUXが優位です。

プロンプトへの追従性はHiDream>FLUX>SD3.5の順。HiDreamはテキストエンコーダにLLAMAを使ってるので一応日本語プロンプトが通るらしいのですが未テストです。一方、プロンプト追従性の為にクリップデータを4つも読み込むので処理は激重です。(クリップデータ4つのうち3つはFLUXやSD3.5と同じ)

またHiDreamはデータが巨大過ぎて、カスタムチェックポイントの開発も困難とのことなので、チェックポイントの差し替えで絵柄を変化させることも難しく、現状の純正チェックポイントの絵柄が好みか?と言う問題もあります。個人的にはもうちょっと階調表現を頑張って欲しい感じです。アニメ塗りに近いのっぺり感があります。

処理の重さも考えると、実用的にはFLUXに取って代わるほどではないかなと。ハイエンドグラボ保有かつComfyUIの操作に習熟していれば、たまに目先を変える用途には使えそうですよ@煮込み餃子 さん?(笑)

#画像生成AI
#HiDreamI1
#FLUX1
#StableDiffusion
AI技師の星AI技師の星
GRAVITY
GRAVITY33