Webエンジニア向けプログラミング解説動画をYouTubeで配信中!
▶ チャンネル登録はこちら

【ITニュース解説】VisionGen

2025年09月14日に「Dev.to」が公開したITニュース「VisionGen」について初心者にもわかりやすく解説しています。

作成日: 更新日:

ITニュース概要

VisionGenは、AIが元の動画を自動で分析し、登場する物体やシーンを認識するツールだ。その分析結果から、自動で最適な指示(JSONプロンプト)を作成し、高精度で一貫性のある新しい動画を生成する。これにより、効率よく高品質な動画を簡単に作れる。

出典: VisionGen | Dev.to公開日:

ITニュース解説

VisionGenは、既存の動画を元に新しい動画を自動生成する、いわゆる「Video-to-Video」の次世代ツールである。通常、AIに動画を作成させるには、非常に詳細な指示(プロンプト)を正確に与える必要があるが、これは時間と手間がかかる作業だ。VisionGenは、このプロンプト作成を自動化することで、ユーザーが望む動画を効率的に生成できるようにすることを目指している。具体的には、動画の内容をAIが精密に分析し、その分析結果から最適なJSON形式のプロンプトを自動的に作り出すことで、手動でのプロンプト作成の手間を大幅に削減する。

このツールは、動画のアノテーション(注釈付け)という、コンピュータビジョン分野で重要かつ時間のかかる作業を自動化する点でも画期的である。オブジェクト(モノ)の検出、その動きの追跡、そして動画内のシーンの切り替わり(シーン分割)といった作業をAIが正確に行う。これは通常、AIの学習データを用意する際に行われる作業だが、VisionGenは学習プロセスをスキップし、この分析結果をすぐに新しい動画生成に活用するという実用的な用途を提供している。これにより、AIが生成した動画が期待通りでなかった場合に再生成するコスト、つまり時間と費用の両方を削減し、最初から質の高い動画を得られる可能性を高めることが、VisionGenの重要な目的である。

VisionGenが提供する動画分析機能は多岐にわたる。まず、「一貫したオブジェクトトラッキング」では、動画内の特定のオブジェクトが一時的に他のものに隠れたり、一部しか見えなかったりしても、AIがその動きを継続して追跡し続けることができる。また、「バウンディングボックス」機能は、検出されたオブジェクトを四角い枠で囲み、「車」や「人」といったそのオブジェクトの種類(クラス)を識別する。さらに、動画の状況を言葉で説明する「コンテキスト記述」や、動画内の音声をテキストに変換し、発言のタイミングを示す「文字起こし」も可能だ。これらの情報は「タイムライン可視化」機能により視覚的に表示され、特定の瞬間に簡単に移動できる。動画の物語の構造を理解するために「シーン分割」が自動的に行われ、VisionGen独自の「スクリーンショット」機能は、動画の重要なフレームを静止画として抽出し、後続の生成プロセスに活用される。

これらの高度な機能は、Googleの強力なAIモデルであるGeminiを中心に実現されている。「マルチモーダル」とは、動画、音声、テキストといった複数の異なる種類の情報を同時に理解・処理できる能力を指す。VisionGenでは、Geminiが動画内の時間的な関係性やオブジェクトの動きを深く理解し、その物語に一貫性のある新しい動画を生成する。オブジェクトトラッキングにおいては、オブジェクトが画面から一時的に消えたり、部分的に隠れたりしても、AIがその前後の動きから位置を予測し、追跡を継続する。ユーザーは、分析の精度や速度を調整するための様々な設定もカスタマイズできる。例えば、AIがオブジェクトを検出した際の「信頼度しきい値」を調整して、より確実な検出結果のみを表示させたり、分析するフレームの「フレームレート」を変えて処理速度を最適化したりできる。特定の時間範囲のみを分析したり、音声の有無を選択したりすることも可能だ。

VisionGenは、Google AI Studioという開発環境を基盤として構築されている。特に、Gemini 2.5 FlashというAIモデルを統合し、アップロードされた動画ファイルをフレームごとに詳細に分析し、詳細な注釈(アノテーション)と動画の物語の骨子(ナラティブ)を作成する。動画の生成自体には、テキストプロンプトから動画を作成できるGoogleのVeoモデル(veo-2.0-generate-001やveo-3-fast-generate-previewといったエンドポイント)が利用されている。これらのAIモデルとの通信は、開発者向けのツールキットであるGoogleGenAI SDKを通じて行われる。また、VisionGenアプリケーションはGoogle Cloud Runにデプロイされており、これにより高いスケーラビリティとセキュリティが確保され、多くのユーザーが同時に利用しても安定したサービスを提供できる。このアプリケーションは、Webブラウザから直接GoogleのAIモデルと連携するよう設計されている。

VisionGenの核心は、このJSONプロンプトの自動生成と活用方法にある。AIが動画を分析して得られるデータは、「1.2秒で車が検出され、その位置はここ」「1.3秒で人が検出され、その位置はここ」といった、個々の事実の羅列に過ぎない。これらの「バラバラの事実」をそのままAIに与えても、期待通りの物語性のある動画を生成することは難しい。そこで、Geminiのテキストモデルが「スクリプトライター」のように機能し、これらの生データから「Jokerがフレームの右側から現れる」といった、意味のある、構造化された物語(ナラティブ)を生成する。この物語はJSON(JavaScript Object Notation)という、コンピュータがデータを効率的にやり取りするための標準的な形式で記述される。このJSONプロンプトには、使用するAIモデル、生成してほしい動画の具体的な指示(プロンプト)、含めたくない要素(ネガティブプロンプト)、動画の雰囲気や再現性を決定する「シード」、動画の主要な場面を示す「キーフレーム」(スクリーンショット)、そして「文字起こし」データなどが含まれる。このように構造化されたJSON配列は、AIにとってあたかも「ショットリスト」や「スクリプト」のように機能し、元の動画から得られる豊富な文脈情報を最大限に活用して、ユーザーの意図に沿った高品質な動画を生成するための指針となる。

高品質な動画生成を実現するための工夫として、「シード」と「チェイニング」という二つの重要な技術がある。まず「シード」とは、AIが動画を生成する際の「道のり」や「初期状態」を定める値である。同じプロンプトに対して同じシード値を使用すれば、常に同じ結果が再現される。これは、例えば「赤い車」という指示を追加したい場合でも、シード値があることで、車の種類や走行方向が意図せず変わってしまうことなく、予測可能な変更を加えられることを意味する。次に「チェイニング」は、AIモデルが一度に生成できる動画の長さが限られている(例えば、Veoモデルでは約8秒のセグメント)という課題を解決する。複数の短いセグメントをつなぎ合わせて長い動画を作成する際、セグメント間で文脈が途切れてしまうと、色合いやオブジェクトのスタイルに一貫性がなくなる問題が生じる。VisionGenでは、前のセグメントの最後のフレームをスクリーンショットとして抽出し、これをBase64という形式でエンコードして、次のセグメントの生成プロンプトに含める。これにより、AIは前のセグメントの色彩、照明、オブジェクトのスタイル、構図などを引き継いで連続した動画を生成することが可能となる。このプロセスは、必要な長さの動画が完成するまで無限に繰り返すことができ、AIに「今生成している動画は前の動画の続きである」と理解させることで、動画全体の一貫性を保つ上で最も重要な要素となっている。

VisionGenで分析されたデータや生成されたメタデータは、様々な形式で出力・活用できる。「YOLOフォーマット」は、オブジェクト検出モデルの訓練に適した形式であり、「COCO JSON」は多くのコンピュータビジョンフレームワークで広く使われる標準的なJSON形式だ。また、VisionGenが生成するスクリプトやキーフレームを含む詳細なJSONファイルは「ア・ラ・カルトJSON」として提供される。これらのメタデータはすべてローカルに永続的に保存されるため、ユーザーは過去のプロジェクトを読み込むことで、いつでも作業を中断した時点から再開できる。VisionGenの利用には、ユーザー自身がGoogleのAPIキーを準備し、アプリケーションの設定画面で入力する必要があるが、このAPIキーはユーザーのウェブブラウザのローカルストレージに安全に保存される仕組みである。VisionGenは、AIを活用した動画制作のプロセスを簡素化し、初心者でも高品質な動画生成を可能にする強力なツールである。

関連コンテンツ

関連IT用語