【ITニュース解説】Vegi: Vegetables are not Aliens
2025年09月12日に「Dev.to」が公開したITニュース「Vegi: Vegetables are not Aliens」について初心者にもわかりやすく解説しています。
ITニュース概要
「Vegi」は、未就学児が野菜に親しむためのWebアプリだ。Gemini 2.5 Flashのマルチモーダル機能を活用し、カメラで実物の野菜を認識させたり、音声で野菜名を伝えると、Vegiが情報を提供したり、関連レシピ画像を生成・表示する。これにより、子どもたちが遊びながら野菜について学べる。Google AI Studioで開発された。
ITニュース解説
Vegiは、未就学の幼い子供たちが野菜の世界を発見し、親しむことを目的として開発された、魅力的でインタラクティブなウェブアプリだ。このアプリの根本にあるのは、子供たちが健康的な食品に興味を持つように促すという、多くの親や教育者が直面する共通の課題を解決したいという思いである。Vegiは、この課題に対して、楽しく遊びながら学べる体験を提供することでアプローチしている。アプリのコンセプトは、「野菜は宇宙人ではない」というもので、子供たちにとって未知の食べ物を、怖いものではなく、むしろ好奇心をそそるものへと変えることを目指している。このアプリがあれば、スーパーマーケットの野菜売り場が、まるで宝探しのような楽しい場所になるかもしれない。
Vegiの案内役は、Vegiという名前のフレンドリーな野菜のマスコットだ。子供たちは自分の声やデバイスのカメラを使ってVegiと対話し、現実世界にある野菜を識別したり、それに関する面白い事実を学んだり、おいしい料理のアイデアを得たりすることができる。例えば、子供がデバイスのカメラを目の前の野菜に向けると、Vegiはその野菜が何かを認識し、その野菜についての豆知識を教えてくれる。また、子供がマイクに向かって野菜の名前を言うと、Vegiはその野菜の味や使い方について説明し、さらにその野菜を使った可愛らしい料理のイラストを生成して表示する。このアプリは、同時に複数の野菜を識別することも可能だ。
Vegiのようなインタラクティブな体験を実現するために、このアプリはGoogle AI Studioという開発環境と、Googleの最先端のAIモデルであるGeminiを深く活用している。開発者はGoogle AI Studioを開発の中心的な拠点として使用し、Gemini 2.5 Proを開発戦略を立てるパートナーや、予期せぬエラーが発生した際の思考パートナーとして利用した。これは、AI自体が新しいソフトウェアの開発を助けるという、現代的なアプローチの一例である。アプリの「頭脳」にあたるコアな知能部分は、Gemini 2.5 FlashというAIモデルが担っている。Gemini 2.5 Flashは、その処理速度の速さと、画像と音声の両方の入力データを同時に理解する強力なマルチモーダル能力によって選ばれた。
Vegiの構築は、Google AI Studioの環境内で非常に効率的に行われた。まず、Vegiの個性や振る舞いを決定する「プロンプト」と呼ばれる指示文を作成し、AI Studioで直接テストを繰り返すことで、AIの応答や行動を迅速に改善していった。その後、AI Studioの持つアプリ構築機能を使って、ユーザーインターフェースを司るReactベースのフロントエンドと、データ処理を行うバックエンドのロジックを効率的に構築した。最終的に、完成したアプリケーションは、Google AI Studioのワークフローから直接、Google Cloud Runというクラウドサービスにコンテナ化されたアプリとしてデプロイされた。これにより、アプリは安定してインターネット上で動作し、多くのユーザーが利用できるようになっている。
Vegiの最大の特徴は、Geminiのマルチモーダル能力を基盤として構築されている点だ。これは、文字を読んだり書いたりできない子供でも直感的にアプリを使えるようにするためだ。 一つ目の主要な機能は「視覚による野菜認識」だ。子供がデバイスのカメラを現実の野菜に向け、写真を撮ると、Gemini 2.5 Flashがその画像を分析し、野菜を識別する。そして、識別された野菜に関するシンプルで楽しい事実をテキストで生成し、Vegiがその情報を声に出して読み上げる。これは、子供が現実世界とデジタル学習を結びつける「見て話す」ような魔法のような体験を生み出す。少し大きい子供であれば、表示された文字を見てスペルを学ぶきっかけにもなるだろう。 二つ目の機能は「声による発見」だ。子供はマイクに向かって野菜の名前を言うだけでよい。アプリは子供の音声をテキストに変換し、それをGeminiに送信する。Geminiは、その野菜の味や用途について子供向けの分かりやすい説明を生成し、さらにその文脈に基づいて、その野菜が主役の漫画風の料理画像を生成して表示する。この機能により、子供たちは自分の声だけで学習をリードでき、自己主導的で非常に魅力的な学習体験が可能になる。
Vegiはまだ初期段階であり、いくつかの制限事項がある。現在、アプリはブラウザのテキスト読み上げ機能を使用しているため、一部のスマートフォンではアプリを一度読み込んでから再度読み込み直す必要が生じる場合がある。また、AIのガードレール、つまり不適切なコンテンツ生成を防ぐための安全対策は、まだ非常にシンプルな状態だ。今回のGoogle AI Studio Multimodal Challengeのコンペティションでは、シンプルさを保つために英語に限定されているが、Gemini 2.5 Flashは本来、多言語対応の能力を持っているため、将来的に様々な言語で利用可能になる余地がある。今後のステップとしては、より高品質なグラフィックを導入し、Vegiマスコットをアニメーション化することで、アプリの魅力をさらに高めることが考えられている。ただし、これはアプリのマルチモーダル機能自体を増やすものではない。
Vegiの開発は、Frimer-Rasmussen ConsultingのMikkel Frimer-Rasmussen氏によって行われた。このアプリは、AI技術、特にマルチモーダルAIが、教育や日常生活の課題解決にどのように貢献できるかを示す好例であり、システムエンジニアを目指す人々にとっても、未来のアプリ開発の可能性を感じさせるプロジェクトであると言えるだろう。