【ITニュース解説】Look & Learn: a Google AI Multimodal Challenge Entry

2025年09月08日に「Dev.to」が公開したITニュース「Look & Learn: a Google AI Multimodal Challenge Entry」について初心者にもわかりやすいように丁寧に解説しています。

作成日: 更新日:

ITニュース概要

Google AI Studioのマルチモーダルチャレンジ作品「Look & Learn」は、言語学習アプリ。Imagenで画像を生成、または既存の画像を使用し、Gemini 2.5 Flashでその画像に関する質問を生成する。質問は学習者のレベルに合わせて調整され、複数選択式または記述式となる。記述式の場合、Gemini 2.5 Flashが回答の評価を行う。画像の説明文は学習者の母国語で表示される。

ITニュース解説

Google AI StudioのMultimodal Challengeへの応募作品「Look & Learn」は、言語学習を支援するアプリケーションだ。このアプリは、学習者が興味を持つような場面を描いた画像を生成し、その画像に関する質問を学習言語で行う。学習者のレベルに合わせて、質問形式は選択式と記述式の2種類が用意されている。

初級レベルでは、すべての質問が選択式で提供される。これは、まだ学習を始めたばかりの人が、無理なく取り組めるようにするためだ。一方、中級および上級レベルでは、記述式の質問が出題される。これにより、学習者は語彙力や文法力を実際に使い、より実践的な練習ができる。

アプリケーションは、クイズの開始時にまず画像を生成する。画像の生成には、Google AI StudioのImagenが使用される。Imagenは、テキストによる指示に基づいて画像を生成するAIモデルだ。または、Google Cloud Storageに保存されている既存の画像を使用することもできる。現在は、既存の画像を使用する確率が80%に設定されている。

次に、生成された画像と学習者のレベルに基づいて、質問が生成される。質問の生成には、Gemini 2.5 Flashが使用される。Gemini 2.5 Flashは、テキストと画像の両方を入力として受け取り、それに基づいてテキストを生成できるマルチモーダルAIモデルだ。プロンプトには、質問の内容に関するガイドラインと、学習者のレベルが含まれる。

選択式の質問の場合、正解は明確に定義されているため、アプリケーションは即座にフィードバックを提供する。これにより、学習者はすぐに自分の解答が正しいかどうかを確認し、理解を深めることができる。

記述式の質問の場合、Gemini 2.5 Flashは再び使用される。画像、質問、そして学習者の回答がGemini 2.5 Flashに入力され、回答の正確さ、語彙の使用、文法が評価される。これにより、学習者は自分の文章表現に対する詳細なフィードバックを受け取ることができる。

さらに、アプリケーションは画像の代替テキスト(alt text)を生成する。代替テキストは、画像の内容を説明するテキストであり、視覚障碍者などがスクリーンリーダーを使用して画像の内容を理解するために用いられる。このアプリケーションでは、Gemini 2.5 Flashが画像の内容を詳細に記述した代替テキストを生成する。代替テキストには、クイズの質問に答えるために必要な情報が含まれている。また、代替テキストは学習者の母国語で提供されるため、学習者は代替テキストを参考にしながら、学習言語で質問に答える練習ができる。

アプリケーションは、すべての要素に適切なlang属性を設定することで、スクリーンリーダーが各要素を正しく読み上げるように配慮している。lang属性は、要素の言語を指定するために使用される。例えば、ある要素が日本語で記述されている場合、lang属性は"ja"に設定される。これにより、スクリーンリーダーは日本語の音声合成エンジンを使用して、その要素を読み上げることができる。

このように、「Look & Learn」は、画像生成、質問生成、回答評価、代替テキスト生成など、Google AI Studioの様々な機能を活用した、言語学習を支援するアプリケーションだ。特に、マルチモーダルAIモデルであるGemini 2.5 Flashを活用することで、画像の内容を理解し、それに基づいて質問を生成したり、学習者の回答を評価したりするなど、高度な機能を実現している。

関連コンテンツ

関連ITニュース