Webエンジニア向けプログラミング解説動画をYouTubeで配信中!
▶ チャンネル登録はこちら

【ITニュース解説】Director's Cut AI: A Multimodal Storytelling Toolkit

2025年09月15日に「Dev.to」が公開したITニュース「Director's Cut AI: A Multimodal Storytelling Toolkit」について初心者にもわかりやすく解説しています。

作成日: 更新日:

ITニュース概要

「Director's Cut AI」は、GoogleのAIを活用し、ユーザーのアイデアから物語・画像・動画まで、映画のような映像制作プランを自動で作成するWebツールだ。画像を元に物語を生成し、詳細な絵コンテやスタイル画像を準備。最終的に動画クリップを生成し、映像コンテンツ制作をサポートする。

ITニュース解説

Director's Cut AIは、クリエイターが抱える「真っ白なページ」という悩みを解決し、たった一つのアイデアから本格的な映像制作の計画までをスムーズに進めることができる、画期的なウェブツールである。これは、ユーザーの創造的なひらめきを、完全な、多段階にわたる映画製作の計画へと変換するオールインワンのツールとして機能する。Googleの強力なマルチモーダルAIをあらゆるステップで活用することで、柔軟なワークフローを提供し、視覚的な物語を一から作り上げることを可能にする。

このツールは、以下の六つの段階を経て、ユーザーを支援する。まず「インスピレーション」の段階では、ユーザーはプロジェクトの雰囲気を示す三枚の画像をアップロードし、ジャンルと長さを選択する。次に「ナラティブ」の段階では、AIがこれらの画像とユーザーの指示を分析し、魅力的な短編小説を生成する。この短編小説は、続く「ストーリーボード」の段階で、詳細なシーンごとの絵コンテへと自動的に分解される。絵コンテは、各シーンでどのようなショットを撮るか、どのようなアクションが行われるかといった具体的な指示を含む。

「スタイルフレーム」の段階では、ユーザーは主要なショットを選び、「シネマティック」「アニメ」「フィルム・ノワール」といった視覚的なスタイルを選択する。これにより、プロジェクトの美的感覚を定義する高品質な静止画像が生成される。この静止画像は、後のビデオ生成に進む前に、ユーザーが視覚的な方向性を確認するための重要なプレビューとなる。そして「ブループリント」の段階では、これまでの全てのクリエイティブな決定が、コンピューターが理解し実行できる「機械可読なJSON設計図」へと統合される。JSONとは、データを整理して保存・送信するための形式で、この設計図はビデオ生成のための具体的な指示を構造化して含む。最後に「ビデオ」の段階で、このブループリントが使用され、物語の各シーンに対応する動的な8秒のビデオクリップが生成される。

Director's Cut AIの開発では、Google AI Studioがプロンプトの試作や改良に非常に重要な役割を果たした。Google AI Studioは、AIモデルに与える指示(プロンプト)を効率的にテストし、異なる種類のデータ(画像やテキストなど)がどのように相互作用するか、また期待する出力がどのような構造になるかを細かく調整するために広く使われた。

このツールには、いくつかのGoogle AIモデルが組み込まれている。主要な言語処理とデータ構造化のタスクを担当したのは、「Gemini 2.5 Flash」である。このモデルは、ユーザーがアップロードした画像とテキストの組み合わせから最初の物語を生成したり、生成された物語をJSON形式の構造化されたストーリーボードに解析したりするのに使われた。特に、GeminiのJSONモードと、出力の形式を厳密に定義する「responseSchema」を用いることで、信頼性の高いJSON出力を保証し、アプリ全体のパイプラインの安定性を確立した。また、ビデオ生成を駆動する最終的な機械可読なJSONブループリントを作成するのも、このGemini 2.5 Flashの重要な役割である。

映画のようなスタイルフレームを生成するためには、「Imagen 4」モデルが使用された。このモデルは、ストーリーボードのアクション記述と、ユーザーが選択した特定の芸術的なスタイルを組み合わせるプロンプトに基づいて、高品質な静止画像を生成する。さらに、プロンプトを工夫することで、テキストオーバーレイまでもレンダリングすることが可能となり、最終的な見た目を忠実にプレビューできるようになった。

そして、最終的に物語を動画として実現するステップでは、「Veo 2」モデルが使われている。このモデルは、JSONブループリントに含まれる詳細なプロンプトを受け取り、それに基づいて高品質で一貫性のあるビデオシーンを生成する。これにより、これまでの計画が具体的な映像として「命を吹き込まれる」ことになる。

Director's Cut AIは、その根幹において「マルチモーダル」なツールである。マルチモーダルとは、複数の種類のデータ(例えば、画像、テキスト、音声など)を組み合わせて処理する能力を指す。このツールは、あるメディアタイプから別のメディアタイプへと連続的に変換していくことで、創造的なプロセス全体を繋ぎ合わせる。

具体的には、まず「画像とテキストからテキスト」への変換が行われる。これは、アプリの開始点であり、ユーザーがアップロードした画像の視覚情報や雰囲気と、ジャンルや長さといったテキスト指示を組み合わせ、一貫性のある物語を生成する。これにより、AIの創造性はユーザーの具体的なビジョンに基づいて行われ、結果として生まれる物語はユーザーにとって個人的で関連性の高いものとなる。

次に、「テキストから画像」への変換がある。これは、ストーリーボードからの記述テキスト(ショットの種類、カメラアングル、アクションなど)と、ユーザーが選んだ美的センスを組み合わせて、豊かで詳細な静止画像を生成する機能である。これは、ユーザーがより時間のかかるビデオ生成ステップに進む前に、創造的な方向性を視覚的に確認できる重要なフィードバックループを提供する。想像の中のアイデアと具体的な視覚表現との間のギャップを埋める役割を果たす。

そして、ユーザーのクリエイティブな旅の集大成として、「テキストからビデオ」への変換機能がある。JSONブループリントに含まれる構造化されたテキストプロンプトが、動的なビデオクリップへと変換される。この強力な機能によって、作成された計画全体が具体的な映画製品へと姿を変え、クリエイティブプロセスが完成する。このようにDirector's Cut AIは、複数のAIモデルとマルチモーダルなアプローチを組み合わせることで、クリエイターが持つアイデアを現実の映像作品へと導く強力な支援ツールとなっている。

関連コンテンツ