Webエンジニア向けプログラミング解説動画をYouTubeで配信中!
▶ チャンネル登録はこちら

【ITニュース解説】Turning Music Into Art — Building a Synesthesia Simulator with Gemini

2025年09月15日に「Dev.to」が公開したITニュース「Turning Music Into Art — Building a Synesthesia Simulator with Gemini」について初心者にもわかりやすく解説しています。

作成日: 更新日:

ITニュース概要

Geminiで、音楽を色、画像をメロディーで表現する「共感覚シミュレーター」が開発された。ユーザーが音声や画像をアップロードすると、AIが描写文、創作ヒント、生成画像を作成し、AIチャットで体験を深掘りできる。これはGemini 2.5 FlashとImagen 4.0を活用した多モーダルなシステムだ。

ITニュース解説

Google AI Studioのマルチモーダルチャレンジに投稿された「Synesthesia Simulator」は、音や画像を融合させ、あたかも共感覚を持つかのような芸術的な体験を生み出すAI駆動のアプリケーションだ。このアプリは、人が音を色として感じたり、絵をメロディーとして聞いたりする共感覚という脳の特性を、創造的にシミュレートすることを目的としている。

このシミュレーターを使うと、ユーザーは音声ファイル、画像ファイル、あるいはその両方をアップロードできる。するとAIが、それらの入力を基にいくつかのユニークなコンテンツを生成する。一つ目は、感覚が混じり合った体験を鮮やかに描写する「描写シーン」だ。例えば、音楽の感情的なトーンや画像の色合いがどのように融合し、一つの物語を紡ぎ出すかといった内容が示される。二つ目は、生成された体験からインスピレーションを得て、創作活動や思考を深めるための「クリエイティブプロンプト」である。これは、ユーザーがさらに詩を書いたり、絵を描いたり、あるいは自分自身の内面を探求したりするためのヒントとなる。三つ目は、「生成されたビジョン」で、AIが作り出した独特な画像が、アップロードされた音や視覚情報の融合を視覚的に表現する。そして四つ目には、「クリエイティブチャット」という機能がある。これは、生成された体験の文脈を理解したAIアシスタントと、ユーザーが対話できる機能で、アイデアをさらに深掘りしたり、質問を投げかけたりすることが可能だ。

このアプリの目標は、最先端のAI技術を示すだけでなく、特に創造的な思考を持つ人々や、生まれつき共感覚を持つような神経多様性のある人々にとって、インスピレーションの源となるツールを提供することにある。これは医療診断ツールではなく、あくまで想像力を刺激するためのキャンバスとして位置づけられている。

アプリのメインインターフェースでは、音声ファイルと画像を簡単にアップロードできるようになっている。ファイルをアップロードし、AIが処理を終えると、AIによる共感覚的な解釈と、それに合わせて新しく生成されたアート作品が表示される。さらに、このアプリには音楽に反応する内蔵のオーディオビジュアライザーも備わっており、色合いをカスタマイズして音楽に合わせて変化させることができる。また、前述のクリエイティブAIアシスタントも利用でき、生成された体験について深く掘り下げた対話を楽しむことができる。

このシンセシアシミュレーターの裏側では、Google AI StudioとGemini APIという技術が全体の体験を支えている。開発者は複数のAIモデルを組み合わせ、まるで工場で製品が流れ作業で作られるように、複雑なマルチモーダル(複数の種類のデータを扱う)タスクを処理するパイプラインを構築した。

その中心にあるのが「Gemini 2.5 Flash(マルチモーダル理解)」というモデルだ。これはシミュレーターの核心部分を担い、システムの指示、ユーザーの指示、そして音声ファイルのデータと画像ファイルのデータの全てを一度のリクエストで処理できる。その結果として、「描写シーン」や「クリエイティブプロンプト」、そして画像生成のための具体的な指示が含まれる構造化されたJSON(JavaScript Object Notation)形式のデータを出力する。このJSON形式のデータは、アプリのユーザーインターフェースに確実に組み込むための設計図のような役割を果たす。

次に、「Imagen 4.0(画像生成)」というモデルが活躍する。このモデルはGemini 2.5 Flashから受け取った画像生成指示を具体的なアートワークへと変換する役割を担う。音と視覚情報のクロスセンス的な解釈を、目に見える形で表現する画像を生成するのだ。

そして「Gemini 2.5 Flash(会話型AI)」が、「クリエイティブチャット」機能の原動力となっている。ユーザーがチャットを開始すると、生成された「描写シーン」と「クリエイティブプロンプト」が文脈としてこのモデルに与えられる。これによりAIアシスタントは、ユーザーの生成体験を深く理解し、その文脈に沿って創造的な対話のパートナーとなることができる。

Geminiのマルチモーダルな能力こそが、このアプリの実現を可能にしている。 一つ目は「クロスモーダル理解」だ。Geminiは単に音声を音声として、画像を画像として別々に分析するだけでなく、それらを横断的に関連付けて理解する。例えば、メロディーの感情的なトーンを理解し、リズムを特定の質感に結びつけたり、色合いのパレットと音楽のパターンを関連付けたりする。このような深い理解があるからこそ、共感覚的なシミュレーションを具体的に定義する「描写シーン」を生み出すことができる。

二つ目は「生成のための感覚ブレンド」だ。Geminiはクロスモーダルな洞察を利用して、Imagenへの画像生成プロンプト(指示)を作成する。例えば、「深いピアノのコードに合わせて流れる、抽象的な輝く紫と銀の波」といった具体的な指示を生成することで、音と視覚入力の真の融合を視覚的に表現する画像を生成できる。

三つ目は「文脈に応じた対話」だ。「クリエイティブチャット」機能は、ユーザーが体験をさらに広げることを可能にする。ユーザーは「この歌で赤色は何と聞こえますか?」といった具体的な質問や、「三つ目のクリエイティブプロンプトに基づいて物語を教えてください」といった要望を出すことができる。AIアシスタントは、生成された体験の文脈を理解し、想像力豊かな回答でユーザーの探求をサポートする。

このように、Synesthesia Simulatorは、Geminiのような先進的なAIモデルを複数組み合わせることで、音と視覚を融合させ、ユーザーに新しい創造的な体験を提供するアプリだ。システムエンジニアを目指す皆さんにとって、AIがどのように多様なデータを理解し、連携して動くかを知る良い事例となるだろう。

関連コンテンツ