Google DeepMindは11月20日、最新の画像生成・編集モデル「Nano Banana Pro(Gemini 3 Pro Image)」の機能を最大限に活用するためのガイドラインを公開した。
理想的な画像を生成するためには、プロンプト(指示文)に「被写体」「構図」「アクション」「場所」「スタイル」という以下の5つを具体的に含めることが重要とされている。
1. 誰、または何が写っているか(例:小さな魔法使いの帽子をかぶったふわふわのキャリコ猫)
2. どんなフレーミングで撮られているか(例:クローズアップ、ワイドショット、ローアングル)
3. 何が起こっているか(例:コーヒーを淹れる、魔法の呪文を唱える)
4. どんな場面か(例:火星の未来的なカフェ、散らかった錬金術師の図書館)
5. どんなスタイルか(例:3Dアニメ、水彩画、フォトリアリスティック)
さらに、同モデルの主な特徴や活用テクニックとして、以下の7点が挙げられている。
1. 高度なテキストレンダリング:ポスターや製品モックアップなどで、クリアーで読みやすい文字を生成する
2. 世界知識の活用:「Gemini 3 Pro」を基盤とし、物理法則や現実世界の知識を反映した精密な画像を生成する
3. 翻訳やローカリゼーション:画像内のテキストを翻訳し、多言語対応のクリエイティブを作成する
4. スタジオ品質の編集機能:照明、アングル、フォーカス、カラーグレーディングなどを制御し、プロ仕様の写真編集をする
5. 精密なリサイズ:1K、2K、4K解像度に対応し、様々なアスペクト比でクリアーな画像を生成する
6. 画像のブレンドとキャラクターの一貫性:最大14枚の画像を入力し、キャラクターの一貫性を保ちつつ新しい構成を作成する
7. ブランドの一貫性維持:ロゴやパターンを3Dオブジェクトに自然に適用し、ブランドイメージを統一したデザインをする
なお、現時点の課題として以下の注意点を挙げている。開発チームはこれらについても改善を続けていく方針だ。
・微細なテキストや詳細の描画精度が完全ではない場合がある。
・図解やインフォグラフィックデータの事実はユーザー自身が確認する必要がある。
・複雑な編集や画像のブレンドにおいて、不自然なアーティファクトが発生する場合がある。







