画像生成では自分でプロンプトを考えない

例えば次の画像だ。自分は『ONE PIECE』の悪魔の実図鑑を作りたかった。

そこでGeminiにこう伝える。「あなたは『ONE PIECE』のトップクラスのUIデザイナーです。今からルフィ、ハンコック、黒ひげ、エース、ペローナ、カイドウの悪魔の実図鑑をデザインしてください。」

プロンプト内の「トップクラスのUIデザイナー」という言葉はとても重要で、必ず入れる。主な目的は企画の審美性を引き上げることだ。するとGeminiはテキストだけの企画案を返してくる。

このテキスト企画だけでも問題点は見える。自分のこの画像でも、初版の企画を見た時点で人物アイコンがないと分かり、追加してもらった。

ワークフロー

テキスト企画にOKを出したら、Geminiにそのままプロンプトを生成させる。このとき必ず「Gemini画像生成モデル専用」という文言を入れる。

するとGeminiがプロンプトを返すので、新しいチャットを開いて画像生成結果を確認する。初版はたいてい満足のいく仕上がりではない。

例えばこの作例でも、初版では「両手で悪魔の実を支えるポーズ」が入っていなかった。結果を見て物足りなかったので、元のチャットで会話を続けて、悪魔の実を手で支える表現を追加してもらった。さらにプロンプトを再生成して、もう一度画像を試す。この流れを何度も繰り返す。

自分は最初から細かく「どんな絵にしたいか」を指定することはあまりしない。画像内に必ず入れたい要素だけを伝える。

最初に「あなたはトップクラスのUIデザイナーだ」とモデルに役割設定しているので、必要な要素をどう配置するかはモデル側が自分で設計してくれる。しかも多くの場合、自分でやるより出来がいい。

この悪魔の実図鑑の例でも、自分が求めたのは「悪魔の実の名前」と「能力者の名前」を入れることだった。

すると各キャラクターに光の輪のようなショルダーバンドを配置する、気の利いた工夫をしてくれた。バンドの左には悪魔の実名、右にはキャラクター名が入る。自分で設計していたら、この発想にはたぶん到達できなかった。そもそも自分はデザイナー出身ではないからだ。

だから同じような画像の仕上がりでも、自分のプロンプトは多くの発信者よりずっと短く、それでいて一貫性が高い。

なぜなら、Geminiに生成させているプロンプト自体が Gemini専用 だからだ。

この図例の画像は、Geminiへの修正依頼を3回しただけで完成した。

悪魔の実図鑑の例