【ITニュース解説】CurioShorts
2025年09月15日に「Dev.to」が公開したITニュース「CurioShorts」について初心者にもわかりやすく解説しています。
ITニュース概要
CurioShortsはAIを活用した教育コンテンツ生成アプリだ。ユーザーの質問を、指定したキャラクターが歌・画像・ナレーションで解説するTikTok風ショート動画に自動変換する。受動的なコンテンツ消費を、楽しく学べる「脳の燃料」に変えることを目指しており、Google Gemini APIを利用している。
ITニュース解説
CurioShortsは、AIの力を活用して教育コンテンツを生み出す革新的なアプリだ。このアプリは、ユーザーが投げかけたどんな質問に対しても、短くて引き込まれるような、TikTokスタイルの動画スライドショーを作成する。ユーザーは、例えばスパイダーマンのような人気のキャラクターや、自分で作ったオリジナルのキャラクターをナレーターとして選んだり、視覚的なアートスタイルを指定したりできる。すると、アプリが自動的に歌詞付きのシンプルな楽曲と、その歌詞に合わせてカスタマイズされた画像を各行ごとに生成し、さらに音声によるナレーションも加えることで、質問への答えをわかりやすく解説する動画が完成する。
このアプリが解決しようとしている問題は、「脳の衰え」とも呼ばれる現象だ。これは、短尺動画プラットフォームでよく見られる、受動的で質の低いコンテンツの消費を指す。CurioShortsの目標は、このような「脳の衰え」を「脳の燃料」に置き換えることだ。ソーシャルメディアをスクロールするような感覚で、学習を魅力的で、利用しやすく、そして楽しいものにすることを目指している。特に若い世代にとって、創造的で教育的な新しい選択肢を提供している。
技術的な側面を見ると、CurioShortsは様々な要素を組み合わせて構築されている。ユーザーインターフェースとなるフロントエンドは、TypeScript、HTML5、CSS3といったウェブ開発の標準的な技術で作られている。TypeScriptはJavaScriptに型安全性を加えることで、大規模なアプリケーションの堅牢性を高める。HTML5はウェブページの構造を定義し、CSS3はその見た目を整える役割を担う。アプリの中心となるAIモデルには、Google Gemini APIが使われている。これはGoogleが提供する強力なAIで、多岐にわたる処理能力を持つ。生成された動画スライドショーは、IndexedDBというクライアントサイドのストレージに保存される。これは、ウェブブラウザ内でデータを永続的に保存するための技術であり、ユーザーが一度生成したコンテンツを後で再度見られるようにする。
ブラウザの標準機能であるAPIも活用されている。Web Speech APIのSpeechSynthesis機能は、テキストを音声に変換するために使われ、これにより動画のナレーションが自動で生成される。Intersection Observerは、ユーザーが画面をスクロールする際に、動画の再生を効率的に管理するために利用される。例えば、画面外にある動画の不必要な読み込みや再生を抑制し、画面に表示されたときにのみ適切に処理することで、スムーズなユーザー体験とリソースの節約を実現する。さらに、歌詞の表示には「marked」というライブラリが使用されている。これはMarkdown形式のテキストをHTMLに変換するもので、歌詞を整形して表示するのに役立つ。
このアプリはGoogle AI Studioをフル活用して開発された。Google AI Studioは、AIモデルのプロトタイプ作成やテストを行うための柔軟な環境を提供する。CurioShortsの核となるロジック、具体的には楽曲の構造や画像の説明文を生成するためのプロンプト(AIへの指示)は、このAI Studioで開発され、徹底的にテストされた後にGemini APIを通じてアプリケーションのコードに組み込まれた。
特に重要なのは、Geminiのマルチモーダル機能の利用だ。マルチモーダルとは、テキスト、画像、音声など複数の異なるデータ形式を同時に処理できるAIの能力を指す。CurioShortsでは、この能力を二段階のパイプラインで活用している。まず、構造化されたテキスト生成の段階では、ユーザーの質問が「gemini-2.5-flash」モデルに送られる。このモデルは、作詞家のように振る舞うよう指示され、質問に対する答えを歌詞として作り出す。その際、単に歌詞を生成するだけでなく、その各歌詞の行に対応する詳細な画像生成のためのプロンプトと、楽曲のスタイルに関する提案もJSON形式という構造化されたデータで出力する。次に、テキストから画像への生成の段階では、最初のステップで生成された画像プロンプトが「gemini-2.5-flash-image-preview」というGeminiの画像モデルに入力される。この画像モデルは、プロンプトに基づいて、歌詞の内容に完璧にマッチするユニークでスタイリッシュな画像を生成する。
これらの技術を連鎖させることで、CurioShortsは一つのテキスト形式の質問から、物語性のある歌詞、それに合わせた画像、そして音楽が融合した、統合的な視聴覚学習体験を作り出している。この一連のプロセスにより、システムエンジニアを目指す初心者は、AIモデルがどのようにテキスト情報を解釈し、それを視覚的、聴覚的な要素に変換して一つのコンテンツを生成するのか、その具体的な仕組みを理解する良い例として捉えることができるだろう。結果として、ユーザーはエンターテイメントを楽しむように、自然に教育的な情報を吸収できるようになっている。