【ITニュース解説】From 49 to 95: How Prompt Engineering Boosted Gemini MCP Image Generation
2025年09月08日に「Dev.to」が公開したITニュース「From 49 to 95: How Prompt Engineering Boosted Gemini MCP Image Generation」について初心者にもわかりやすく解説しています。
ITニュース概要
Googleの画像生成AI「Gemini」において、簡単な指示文(プロンプト)をAIが自動で詳細なものに変換する仕組みが開発された。これにより、生成画像の品質スコアが49点から95点へと大幅に向上した。
ITニュース解説
画像生成AIの技術は日々進化しているが、高性能なモデルを使っても、ユーザーが思い描いた通りの画像を生成するのは容易ではない。その品質を大きく左右するのが、AIへの指示文である「プロンプト」だ。単純なプロンプトでは、AIが意図を正確に汲み取れず、不自然な結果になることが多い。この課題に対し、プロンプトを自動的に最適化することで、Googleの画像生成AI「Gemini 2.5 Flash Image」の性能を劇的に引き上げる試みが報告された。
この試みでは、画像生成の品質スコアを100点満点中49点から95点へと大幅に向上させることに成功した。その中核をなすのが「インテリジェントなオーケストレーションレイヤー」と呼ばれる仕組みである。これは、ユーザーが入力した簡単な指示を、AIが解釈しやすい詳細で高品質なプロンプトへと自動的に変換するシステムだ。いわば、人間と画像生成AIの間に立つ、賢い通訳のような役割を果たす。具体的には、ユーザーが「笑顔で道を走るアニメ風の少女」といった簡単なプロンプトを入力すると、このシステムが介在し、それをより豊かな表現を持つプロンプトへと作り変える。
このプロンプト変換処理自体も、別のAIモデル(Gemini 2.0 Flash)が担っている。この変換用AIには、優れたプロンプトを作成するための7つのベストプラクティスが、あらかじめシステムプロンプトとして組み込まれている。例えば、「可能な限り具体的に表現する」という原則に基づき、「金髪の少女」という曖昧な表現を「特徴的な一本のアホ毛があり、短い金髪のボブヘア」のように詳細化する。また、「存在しないものではなく、存在するものを記述する」という原則に従い、「車も雨もない」という否定的な指示を、「太陽の光が降り注ぐ誰もいない道と、晴れ渡った青空」といった肯定的な表現に変換する。さらに、前景・中景・背景といった空間的な関係性や、光の当たり方、構図、カメラのアングルといった写真技術に関する専門用語も自動で付与する。これにより、元のプロンプトが持つ意図を保ちつつ、芸術的で論理的な一貫性のある、精緻な指示文が生成される。
開発過程では、テキストから新規に画像を生成するだけでなく、既存の画像を編集する際の課題にも直面した。当初、プロンプトの最適化はテキスト情報のみを扱っていたため、例えばアニメ調の画像を編集しようとすると、AIが元の画風を無視して写実的な画像を出力してしまう問題が発生した。これは、プロンプトを最適化するAIが、編集対象の画像を見ていなかったために起こった。この問題を解決するため、プロンプトを変換するAIに、ユーザーの指示テキストと同時に編集対象の元画像データも渡すように改良された。これにより、AIは元の画像のスタイルや雰囲気を理解した上で、それに沿った編集用のプロンプトを生成できるようになった。これは、テキストと画像といった複数の種類のデータ(モダリティ)を同時に扱う「マルチモーダル」というAIの能力を応用した重要な工夫である。
また、実装においては、AIの特性を考慮した細やかな調整が施されている。AIへの指示文には「トークン数」と呼ばれる実質的な長さの制限があり、長すぎるとかえって性能が低下することがある。そのため、このシステムではプロンプトが約500トークンを超えないように調整しつつ、最大限の詳細さを盛り込むというバランスを取っている。さらに、プロンプトを最適化する処理には高速な「Gemini 2.0 Flash」を、最終的な画像生成には高品質な「Gemini 2.5 Flash Image」を、というように役割に応じて2種類のAIモデルを使い分けることで、処理速度と生成品質の両立を実現している。
これらの工夫の結果、生成される画像の品質は劇的に向上した。特に、プロンプトの指示にどれだけ忠実かを示す「プロンプト忠実度」、画像の構成に矛盾がないかを示す「空間的論理」、そして場面全体の一貫性を示す「シーン一貫性」の項目でスコアが大幅に改善された。この事例は、AIモデル自体の性能向上だけでなく、AIといかに効果的にコミュニケーションを取るかという「プロンプトエンジニアリング」の重要性を示している。そして、その専門的で手間のかかる作業を自動化するシステムを構築することで、誰もがAIの能力を最大限に引き出し、高品質な成果物を得られるようになるという、システム開発の価値を明確に示している。