【ITニュース解説】I Built an AI Manga Creator with Next.js and Gemini's "Visual Memory"
2025年09月14日に「Dev.to」が公開したITニュース「I Built an AI Manga Creator with Next.js and Gemini's "Visual Memory"」について初心者にもわかりやすく解説しています。
ITニュース概要
Next.jsとGoogle GeminiでAIがマンガを自動生成するWebアプリが開発された。最大の特徴は、Geminiの「Visual Memory」機能により、前のページやキャラクター画像をAIに参照させ、ストーリーやキャラクターの一貫性を保ちながら高品質なマンガを連続生成できる点だ。
ITニュース解説
このニュース記事は、AI(人工知能)を使ってマンガを自動生成するウェブアプリ「NanoManga Studio」について解説している。開発者は、Googleが主催するハッカソンでこのアプリを制作した。このアプリの最大の目的は、AIが生成するマンガの画像が、ページをまたがってもキャラクターの見た目や服装などを一貫して維持できるようにすることだ。
NanoManga Studioは、最新のウェブ開発技術を組み合わせて作られている。ウェブアプリケーションの骨格には高速なウェブサイト構築を可能にする「Next.js 15」が、見た目を整えるUI(ユーザーインターフェース)にはデザインシステムである「shadcn/ui」と、効率的なスタイル指定ができる「Tailwind CSS」が使われている。アプリのデータを一時的に管理するには「React useState」という状態管理の手法が使われ、中心となるAI機能はGoogleが提供する高性能なAIモデル「Gemini」を「Google AI JavaScript SDK」というツールを通じて活用している。開発されたアプリは「Vercel」というサービスを使ってインターネット上に公開されており、誰でもアクセスして試すことができる。
このプロジェクトの最も画期的な点は、「AIに視覚的な記憶を持たせる」というアイデアにある。一般的なAIによる画像生成では、一枚一枚の画像を生成する際に、過去に生成した画像の内容を覚えていないことが多い。そのため、同じキャラクターであっても、ページごとに髪型や服装が変わってしまうといった「一貫性の問題」が発生する。NanoManga Studioではこの問題を解決するため、「マルチモーダルプロンプティング」という手法を用いている。これは、AIに画像を生成させる際、単なるテキスト(例:「主人公が敵と戦っているシーン」)だけでなく、過去に生成したマンガのページ画像や、キャラクターの全身像といった「参照用の画像」も同時に送るという方法だ。開発者は、画像も理解できる特別なAIモデル「Gemini 2.5 Flash Image Preview」を活用している。
具体的な仕組みとしては、新しいページを生成する際、それまでに生成された前のページの画像データと、そのシーンで使いたい特定のキャラクターや背景の画像データが収集される。これらの画像は、AIが理解できる形式に変換される。次に、AIに対する詳細な指示文が作成される。この指示文には、今から生成するページが何ページ目であるか、どのような内容を描写してほしいかといった情報に加え、「送られた最初の画像群は前のページの内容だよ」「残りの画像はこのページで参照すべき特定の要素だよ」とAIに明示的に伝える部分が含まれる。
そして、これらのテキストプロンプトと、整理された画像データ(前のページの画像が先頭に、次に参照アセット画像が続く順番)が、AIモデルにまとめて送られる。この画像の順番が重要で、AIは前のページの画像からキャラクターの顔つきや服装、状況などを学習し、新しいページを生成する際にその情報を活用する。これにより、キャラクターがページをまたがっても同じ見た目を保ち、服に付いたダメージなども継続して表現される。AIが単なる画像生成ツールではなく、物語の文脈を理解し、視覚的な一貫性を維持する賢いアシスタントとして機能するのだ。
さらに、このアプリでは画像生成だけでなく、マンガ全体のストーリー構築にもAIが活用されている。開発者は、画像生成に入る前にAIに「マスターマンガ編集者」の役割を与え、キャラクター設定、舞台設定、ページごとの詳細なあらすじといった、物語全体の計画をJSON形式で生成させている。これにより、骨格のしっかりした物語を効率的に作成できる。また、マンガに登場するキャラクターの全身図や、背景となる風景の画像なども、AIに「キャラクターコンセプトアーティスト」や「背景アーティスト」の役割を与えて生成させている。これらの画像は、後でマンガのページ画像を生成する際の参照元として使われるため、あらかじめきれいで使いやすい状態のものを準備しておくことが重要となる。
このプロジェクトを通して開発者が学んだのは、生成AIの未来は、単一の強力な指示(プロンプト)だけでなく、文脈を維持し、人間とAIが協力して作業を進めるシステムを構築することにある、という点だ。テキストだけでなく画像も理解できるGeminiのような「マルチモーダル」なAIモデルの能力が、このような新しい種類のアプリケーション開発の鍵となることが強く認識された。このNanoManga Studioは、AIが単なる道具ではなく、クリエイティブなパートナーとして機能する可能性を示している。