Webエンジニア向けプログラミング解説動画をYouTubeで配信中!
▶ チャンネル登録はこちら

【ITニュース解説】Building a Hands-Free AI Fitness Applet with Gemini Live API

2025年09月14日に「Dev.to」が公開したITニュース「Building a Hands-Free AI Fitness Applet with Gemini Live API」について初心者にもわかりやすく解説しています。

作成日: 更新日:

ITニュース概要

Gemini AIを活用し、音声で操作できるハンズフリーAIフィットネスアプリが開発された。リアルタイム音声対話で個別のトレーニングメニュー作成やフォーム指導、進捗管理が可能。ワークアウト中のスマホ操作を不要にし、運動に集中できるのが特徴だ。Google AI StudioとGemini Live APIが使われた。

ITニュース解説

このニュース記事は、Google AI Studioのマルチモーダルチャレンジに提出された「AIパーソナルトレーナー」というフィットネスアプリの開発について詳細に説明している。このアプリは、スマートフォンをインタラクティブなワークアウトパートナーに変える実験的な取り組みであり、特に「声優先」というアプローチを採用している点が特徴である。ユーザーは運動中にスマートフォンの画面を操作する必要がなく、音声コマンドだけでアプリを完全に制御できるため、トレーニングに集中できる。

開発者は、いくつかの課題を解決しようとした。具体的には、ワークアウト中に頻繁にスマートフォンの画面を操作しなければならないことによる集中力の阻害があった。また、多くのフィットネスアプリは個々のユーザーに合わせたカスタマイズが不足しており、すべての人に同じソリューションを提供する傾向にあった。さらに、アプリが単なる進捗トラッカーに留まり、パーソナルアシスタントとしての役割を果たせていないという問題も存在した。

AIパーソナルトレーナーアプリでは、これらの課題を解決するために様々な機能が実装されている。まず、「音声プログラム作成」機能では、AIとの対話を通じてユーザーに合わせたパーソナルなワークアウトプログラムを作成できる。ワークアウト中は「リアルタイムオーディオ対話」により、AIとユーザーが双方向で音声コミュニケーションを取ることが可能である。アプリは、プログラム、セッション、進捗状況などを保存するための「包括的なデータベースシステム」を搭載しており、ユーザーのトレーニング履歴を管理する。さらに、「分析ダッシュボード」では、視覚的に進捗を追跡し、パフォーマンスの洞察を得られる。利便性を高めるためにGoogleカレンダー連携も実装され、ワークアウトが自動的にカレンダーに追加される。このアプリは「ハイブリッドアーキテクチャ」を採用しており、AIとの対話速度とデータの分析精度の両方を高いレベルで実現している。

このアプリの開発はGoogle AI Studioで直接開始された。Google AI Studioは、音声やテキストなど複数の種類のデータを同時に扱うマルチモーダルなインタラクションを試すためのプラットフォームである。開発プロセスは、Google AI Studioでのユーザーインターフェースやシステム初期設定のプロトタイピングから始まった。その後、プロジェクトをローカル環境にダウンロードして開発を進め、Gemini CLIというコマンドラインツールを使って複雑な機能を統合した。最終的には完成したプロジェクトをアップロードしてアプリとしてデプロイした。

このアプリのAIは、「2つのモデルアーキテクチャ」で構成されている。一つは、ユーザーとのリアルタイムな対話を行うための「メインモデル」である。これはgemini-2.5-flash-preview-native-audio-dialogというモデルで、Gemini Live API SDKのclient.live.connect機能を使って、ユーザーとのライブオーディオダイアログを確立する。この接続は双方向のストリーミング通信を可能にし、まるで電話で会話しているかのように、ユーザーが話している途中でもAIが応答を開始できる。AIはユーザーの音声をテキストに変換し、そのテキストに基づいて応答を生成し、それを音声としてユーザーに返す。このモデルは、会話の流れを自然に保つ役割を担っている。

もう一つは、ユーザーの音声コマンドから具体的なデータを抽出するための「アナリティクスモデル」である。このモデルにはgemini-2.5-flashが使われている。例えば、「10レップスを80キロでやった」といったユーザーの発言があった場合、アナリティクスモデルは、この発言が「セットの記録(log_set)」というコマンドであり、「レップス数:10」「重量:80」というデータを抽出する。このデータ抽出は、特定のキーワード(例えばreps、weight、kilosなど)や数値に注目し、事前に定義されたルールに基づいて行われる。アナリティクスモデルは、ユーザーの発言を「セットの記録」、「フォームのヒントの要求」、「単なるチャットメッセージ」といったコマンドに分類し、JSON形式で結果を返す。このように、メインモデルが自然な会話を維持しつつ、アナリティクスモデルが具体的なタスクのための精密なデータ抽出を行うことで、高速な対話と正確なデータ処理という二つの異なる要件を両立させている。

このアプリのマルチモーダルな機能にはいくつかの柱がある。第一に「シームレスな音声対話」で、前述のGemini Live APIによる双方向ストリーミングにより、ユーザーはAIと中断なく会話でき、即座に反応を得られる。第二に「ハイブリッドコマンド処理」で、自然な会話を担う対話モデルと、音声から精密なデータを抽出する分析モデルが連携する。例えば、ユーザーの「8レップスを60キロでやった、かなり楽だった」といった発言に対して、AIが「素晴らしい!8レップスを60kgで記録しました。重量を増やしましょうか?」と自然に返答しつつ、同時に分析モデルが「command: log_set, data: reps: 8, weight: 60」といった正確なデータを抽出する。

第三に「フル機能のデータシステム」が挙げられる。このシステムは、ワークアウトプログラムと詳細なトレーニングセッションの情報を管理する。ワークアウトプログラムには、プログラム名、作成者、各曜日のワークアウト内容、各エクササイズのセット数や休憩時間などがJSON形式で保存される。トレーニングセッションデータには、ユーザーID、日付、実行されたプログラムやワークアウトのID、継続時間、AIとの会話の完全なログ、そして各セットの実行内容(エクササイズID、セット番号、レップス数、重量、タイムスタンプ)が詳細に記録される。

第四に「自動カレンダー連携」機能がある。これはGoogleカレンダーAPIと直接連携しており、ユーザーが作成したワークアウトスケジュールを自動的にGoogleカレンダーにイベントとして追加する。これにより、ユーザーは自分のフィットネスプランを日々の生活スケジュールの中に無理なく組み込める。特定の曜日にワークアウトが設定されている場合、アプリはその日の日時を計算し、ワークアウトの要約、説明、開始時間、終了時間を含むカレンダーイベントを作成して登録する。

第五に、AIの「フィットネス用語の文脈理解」能力がある。AIは、セットの記録に必要なデータ(レップス、回数、重量、ポンドなど)を示すキーワードや数値をユーザーの発話から識別し、自動的にセットのデータを記録する。もし発話にこれらのデータが含まれていなければ、それは「フォームのヒントの要求」やAIコーチへの「チャットメッセージ」として処理される。

第六に「包括的な分析ダッシュボード」が実装されている。これは、ワークアウトのパフォーマンスと進捗を追跡するための専用セクションで、ユーザーは視覚的なチャートやグラフ、過去のワークアウトデータ、パフォーマンス指標、トレンド分析を通じて、自分のトレーニング状況を詳細に把握できる。

しかし、現在のMVP(Minimum Viable Product、実用最小限の製品)にはいくつかの課題も存在する。主な課題は、特に背景ノイズがある環境での音声認識の精度である。AIがユーザーのコマンドを常に正確に解釈できるわけではないという。また、AIモデルが応答した後に、アプリ内の特定の記録や操作といったアクションを「忘れて」実行しないことがあるという問題も挙げられている。

開発者は、フィットネスアプリにおいてマルチモーダルなアプローチがなぜ重要であるかを強調している。従来のフィットネスアプリは、データ追跡に集中するか、ワークアウトそのものに集中するかのどちらかを選ばざるを得なかったが、マルチモーダルアプローチはこのジレンマを解決する。音声インターフェースにより、ユーザーは運動に集中し続けられる一方で、AIのインテリジェントな音声分析がデータを自動的に構造化する。リアルタイムのフィードバックは、まるで本物のパーソナルトレーナーがいるかのような感覚を生み出し、自動ワークアウトスケジューリングはフィットネスを日常生活にスムーズに統合する。この結果、自然な会話を理解し、各ユーザーの独自のスタイルに適応する真のフィットネスコンパニオンが実現される。

このプロジェクトは、React、TypeScript、Firebase、Google Calendar API、そしてGoogle Geminiのマルチモーダル機能といった最先端の技術スタックを用いて開発された。開発パスは、Google AI Studioでのプロトタイピングから始まり、Gemini CLIを介した機能強化を経て、最終的にGoogle AI Studioを通じてデプロイされるという流れだった。この取り組みは、AIが私たちの日常生活にどのように統合され、よりパーソナルで効率的な体験を提供できるかを示す良い例と言える。

関連コンテンツ

関連IT用語