Webエンジニア向けプログラミング解説動画をYouTubeで配信中!
▶ チャンネル登録はこちら

【ITニュース解説】SpiritDex: An Explorer's Journal

2025年09月14日に「Dev.to」が公開したITニュース「SpiritDex: An Explorer's Journal」について初心者にもわかりやすく解説しています。

作成日: 更新日:

ITニュース概要

SpiritDexは、現実世界を舞台にAIが生成する「スピリット」を収集するWebアプリだ。Google Gemini APIを活用し、選んだ場所の歴史や伝承に基づき、スピリットの名前、物語、見た目、能力を生成。ユーザーは自身の写真にAIスピリットを合成し、パーソナルな体験を共有できる。AIによる情報検索、テキスト・画像生成、画像編集などマルチモーダルな機能が特徴だ。

出典: SpiritDex: An Explorer's Journal | Dev.to公開日:

ITニュース解説

SpiritDexは、現実世界を探検の舞台に変えるユニークなWebアプリケーションだ。ユーザーは地図上で実在の場所を選び、そこに宿る架空の「スピリット」を発見し、収集できる。このアプリの最大の特徴は、各スピリットがGoogleのAIであるGemini APIによって生成される点にある。スピリットの名前、背景にある物語(伝承)、見た目、そして能力値は、ユーザーが選んだ場所の実際の歴史、民話、神話から着想を得て自動的に作られる。これにより、単なるキャラクター収集ゲームではなく、その土地の隠された物語をAIが形と命を与えて「発見」するという、奥深く個人的な体験が提供される。

従来の収集ゲームでは、しばしばコンテンツが画一的になりがちだが、SpiritDexはこの問題を解決する。すべてのスピリットは、実世界の認証可能な伝承に基づいて生成されるため、それぞれの発見がプレイヤーにとって意味深く、唯一無二の体験となるのだ。

このアプリの基本的な使い方はシンプルだ。まず、ユーザーはマップ上でロンドン塔のような現実の場所を見つけ、そこでスピリットのスキャンを開始する。スキャンが完了すると、謎めいた手がかりとぼやけた画像が現れ、出現するスピリットのレアリティが示唆される。ユーザーはアプリ内の「エネルギー」を消費してスピリットを完全に顕現させることができ、するとGeminiがそのスピリットの詳しい伝承、能力値、そして特徴的な肖像画を生成する。スピリットを発見した後、ユーザーは「Create Encounter(遭遇を作成)」機能を使って自分の写真をアップロードし、AIがその写真にスピリットをシームレスに合成して、まるで現実に超常現象に遭遇したかのような、個人的で共有可能な思い出を作り出すことができる。収集されたすべてのスピリットはユーザーのジャーナルとデッキに追加され、ユーザーはそれぞれの歴史を読んだり、個人的なメモを追加したり、さらにはスピリットとチャットしたりすることも可能だ。

SpiritDexの開発には、Google AI Studioが不可欠な役割を果たした。これは、複雑で多段階にわたるAIへの指示文(プロンプト)を試行錯誤し、精度の高いものへと磨き上げるためのツールとして活用された。アプリ全体はGoogle Gemini APIの機能に基づいて構築されている。

具体的には、複数のGeminiモデルがそれぞれの役割を担っている。 gemini-2.5-flashは、このアプリの中核をなす主力モデルだ。このモデルは、Google Searchツールを利用して、選択された場所の信頼できる歴史的および神話的な背景を調査する「Grounded Research(根拠のある調査)」を行う。また、厳しい要件に従って、スピリットの基本データを含むJSON形式のオブジェクトを生成する「Structured Data Generation(構造化データ生成)」を担当している。さらに、謎めいた手がかりやスピリットの伝承、ジャーナルへの動的な記事作成といった「Creative Writing(クリエイティブな文章作成)」も行う。そして、ユーザーがスピリットと対話できる「Commune(交信)」機能では、詳細なシステムプロンプトに従ってスピリットとして振る舞い、会話を行う「Conversational AI(会話型AI)」としても機能する。

imagen-4.0-generate-001は、スピリットに視覚的な形を与える責任を負っている。gemini-2.5-flashによって作成された詳細なテキスト記述に基づいて、主要なスピリットの肖像画や、芸術的な「ジャーナルイラスト」を生成する。

gemini-2.5-flash-image-previewは、「Create Encounter」機能の魔法を生み出す強力な画像編集モデルだ。これにより、高度な画像とテキストから画像への生成が可能となる。

SpiritDexは、複数のモデルと多様な入力情報を組み合わせる「多モーダル」なアプローチを基盤としており、没入感のある体験を生み出している。

一つ目の多モーダル機能は「Grounded Spirit Generation(根拠のあるスピリット生成)」で、これはアプリの核心部分だ。単にAIに「スピリットを作って」と指示するのではなく、品質と信頼性を確保するために二段階のプロセスを採用している。まず、gemini-2.5-flashはGoogle検索ツールを使って、場所に関する具体的で魅力的な伝承や歴史的情報を探し出す。次に、その検索結果を文脈として二つ目のプロンプトに投入する。このプロンプトは、モデルに対し、その文脈に基づいて直接スピリットを作成し、明確なJSONオブジェクトとして結果を出力するよう指示する。ウェブでの根拠付けと構造化されたデータ生成のこの組み合わせにより、すべてのスピリットが単なるランダムな創造物ではなく、実際に調査された伝説のように感じられるのだ。

二つ目の機能は「Visual Manifestation(視覚的顕現)」だ。スピリットのデータ(詳細な視覚的記述を含む)が生成されると、その記述がimagen-4.0-generate-001に渡される。プロンプトは、「粗いフラッシュ、高ISOノイズ、モーションブラー」といった「found footage(見つかった映像)」のような美学を生み出すように特別に設計されている。これにより、スピリットがアマチュアの探検家によって捉えられたかのように、より神秘的で地に足のついた存在として感じられる。これは、AIのテキストによるアイデアを魅力的なビジュアルに直接変換するプロセスだ。

三つ目の機能は、開発者のお気に入りでもある「Personal Encounters(個人的な遭遇)」だ。ユーザーが自分の写真をアップロードし、特定のスピリットを選択すると、アプリはユーザーの画像と詳細なテキストプロンプトをgemini-2.5-flash-image-previewに送信する。このプロンプトは、モデルに対し、スピリットをユーザーの環境に配置し、スピリットの伝承と場所に合わせてユーザーの新しい背景や服装を生成し、さらに全体的な画像に「found footage」スタイルを適用するよう指示する。これにより、超自然的な遭遇の本格的なスナップショットのように見える、全く新しい合成画像が作成され、ユーザーを自分の発見に直接結びつける深く個人的で共有可能なコンテンツが提供される。

四つ目の機能は「Location Scouting(場所の探索)」だ。探検の楽しさを高めるために、ユーザーはランドマークの写真をアップロードできる。アプリはgemini-2.5-flashの画像認識能力を利用して画像を分析し、場所を特定してその名前(例えば「エッフェル塔、パリ、フランス」)を提供する。このテキスト出力は、その後、その場所をマップ上で自動的に検索するために使用され、発見プロセスを開始する楽しくて代替的な方法を提供する。

このように、SpiritDexは最先端のAI技術と実世界の情報源を組み合わせることで、ユーザーが単なるゲームを超えた、深く個人的で探求心を刺激する体験を創造している。AIがどのようにデータを処理し、テキストと画像を融合させるかを示す好例であり、システムエンジニアを目指す者にとって、多岐にわたるAIモデルの連携と、それを活用したアプリケーション開発の可能性を理解するための素晴らしい事例と言えるだろう。

関連コンテンツ

【ITニュース解説】SpiritDex: An Explorer's Journal | いっしー@Webエンジニア