Webエンジニア向けプログラミング解説動画をYouTubeで配信中!
▶ チャンネル登録はこちら

【ITニュース解説】Prompt-to-Puzzle: Generating Infinite 'Spot the Difference' Games with Gemini

2025年09月13日に「Dev.to」が公開したITニュース「Prompt-to-Puzzle: Generating Infinite 'Spot the Difference' Games with Gemini」について初心者にもわかりやすく解説しています。

作成日: 更新日:

ITニュース概要

「Prompt-to-Puzzle」は、ユーザーのテキスト指示に基づきAIが自動で「間違い探しゲーム」を生成するウェブアプリだ。Imagen 4が元画像を、Gemini 2.5 Flash Imageがその画像を改変して違いを作り出す。Google AI Studioで開発され、AIとコンピュータービジョンの連携で無限のパズルを生み出す。

ITニュース解説

Prompt-to-PuzzleというWebアプリケーションは、ユーザーの想像力を「間違い探し」ゲームに変える画期的なシステムである。このアプリを使えば、あらかじめ用意されたパズルの中から選ぶのではなく、自分で考えたどんな風景でも間違い探しゲームとして生成できる。例えば、「夕焼け空に空飛ぶ車が浮かぶ未来都市」や「雨の日の居心地の良い猫カフェ」といったテキストを入力するだけで、瞬時に新しいゲームボードが作成されるのだ。これは、AIを創造的なパートナーとして活用し、真に「生成的な」体験を提供するという核心的なアイデアに基づいている。

このアプリケーションの裏側には、強力なマルチモーダルAIのパイプラインが組み込まれている。具体的には、2段階のAI処理が行われる。まず、ユーザーが入力したテキストプロンプト(指示文)から、高品質な基本となる画像を生成するのがImagen 4というAIモデルの役割である。これは、言葉の情報を基に絵を作り出す、いわば「テキストから画像への変換」である。次に、この生成された基本画像と、別のテキストプロンプトをGemini 2.5 Flash Imageという別のAIモデルに渡す。Gemini 2.5 Flash Imageは、その基本画像を「間違い」となるように、賢く、かつ繊細に変化させ、2枚目の画像を作り出すのである。この2枚の画像が並べられて、ユーザーは間違いを探すことになる。

AIが生成したアートを実際のゲームとして機能させるためには、さらに別の技術が使われている。最終的に、このアプリはクライアントサイド、つまりユーザーがWebブラウザを使っているパソコン側で、JavaScriptというプログラミング言語とCanvas APIという描画技術、そして古典的なコンピュータービジョン(画像解析技術)を用いる。これにより、AIが作り出した2枚の画像間の数学的な差異を検出し、それが「間違い」としてクリック可能なインタラクティブなゲームへと変換される。もしアルゴリズムによる検出が完璧でなくても、ユーザーは手動エディターを使って、クリックできる「間違い」の領域を細かく調整できる機能も備わっている。

このシステムを開発する上で、Google AI Studioという開発環境が中心的な役割を果たした。特に重要だったのは、AIモデルへの指示文である「プロンプト」を試行錯誤する「プロンプトエンジニアリング」という作業である。アプリケーションのコードを一行も書く前に、AI StudioのプレイグラウンドでImagen 4に対して、どのようにすれば鮮明で詳細な基本画像を生成できるか、さまざまなプロンプトを試した。さらに時間をかけたのは、Gemini 2.5 Flash Imageのためのプロンプト作成である。AIに「画像エディター」として機能させ、3〜5つの構造的な変更(例えば、オブジェクトの追加や削除)を指示し、単なる色や明るさの変化では良い間違い探しゲームにならないため、そうした変更は避けるように明確に指示する必要があった。AI Studioの迅速なフィードバック機能は、このようなプロンプトの調整作業において不可欠なツールとなった。プロンプトが期待通りの結果を出すようになったら、AI Studioの「Get Code」機能を使って、そのプロンプトを呼び出すためのAPIコードを自動生成でき、ReactというWebアプリケーション開発のフレームワークにスムーズに組み込むことができた。また、AI Studioは最適なAIモデルを選び出すのにも役立った。テキストから画像生成には高品質な「imagen-4.0-generate-001」を、画像とテキストを理解し高速に処理できる「gemini-2.5-flash-image-preview」を「間違い」生成に選んだのである。

このPrompt-to-Puzzleは、創造的な2段階のマルチモーダルパイプラインによって成り立っている。マルチモーダルとは、テキストや画像、音声など、複数の種類の情報を組み合わせて処理することを指す。最初のステップでは、ユーザーのテキストプロンプトがImagen 4モデルに送られ、言語による概念(例えば、「浮遊する本がある幻想的な図書館」)を、豊かな視覚的な表現に変換する。これがゲームの「キャンバス」となり、基盤を形成する。

そして、このアプリケーションの「魔法」の核心となるのが、Gemini 2.5 Flash Imageによる知的な間違いの生成である。ここでは、Gemini 2.5 Flash Imageに2つの異なる入力が与えられる。一つはImagen 4が生成した基本画像、もう一つは画像を特定の仕方で修正するように指示するテキストプロンプトである。このテキストプロンプトが「秘密のソース」であり、「ここに画像があります。3〜5つの重要で微妙な変更を加えてください。新しいオブジェクトを追加する、既存のオブジェクトを削除する、または何かの構造を変更してください。色や質感の変更だけは避けてください」とモデルに伝えている。この「画像とテキスト」を組み合わせた推論こそが、このアプリを可能にしているのである。Geminiは単にピクセルを認識するだけでなく、画像の内容を理解し、自然言語による複雑な編集コマンドを実行できる。この能力によって、ユーザーは常に新しく驚きのあるパズルを無限に体験でき、まるで手作業で作られたかのような感覚を得られる。シンプルなテキストのアイデアが、完全なインタラクティブ体験へと昇華されるのである。このように、Prompt-to-PuzzleはAIが単なるツールを超え、クリエイティブなパートナーとして機能する可能性を示している。

関連コンテンツ