【ITニュース解説】Tutorial - Building an AI Deepfake Detector Chrome Plugin

2025年09月07日に「Dev.to」が公開したITニュース「Tutorial - Building an AI Deepfake Detector Chrome Plugin」について初心者にもわかりやすいように丁寧に解説しています。

作成日: 更新日:

ITニュース概要

AI Deepfake検出Chrome拡張機能の構築チュートリアル。 拡張機能は、ブラウザータブの音声をキャプチャし、Aurigin.aiのAPIに送信。 APIは、音声がAI生成か否かを判定し、結果をUIに表示する。 Tab Capture APIでタブの音声を録音し、MediaRecorderで録音、WAVに変換、APIを呼び出す流れ。

ITニュース解説

このニュース記事は、AIによって生成されたディープフェイク音声コンテンツを検出するChrome拡張機能を開発する方法を解説している。近年、生成AIの進化により、現実と区別がつきにくい偽の音声がインターネット上に氾濫しており、その対策としてこの拡張機能は開発された。

拡張機能の主な機能は、ユーザーが「スキャン」ボタンをクリックすると、現在のブラウザータブで再生されている音声を数秒間録音し、それをAurigin.aiの無料ディープフェイク検出APIに送信して、結果を表示することである。

拡張機能の構築手順は以下の通りである。

  1. Chrome拡張機能の設定: まず、拡張機能のための新しいフォルダーを作成し、manifest.jsonファイルを作成する。manifest.jsonファイルは、拡張機能の名前、バージョン、説明、必要な権限などを定義する。特に、タブの音声をキャプチャするためのtabCapture権限と、Aurigin APIへのリクエストを許可するためのホスト権限https://aurigin.ai/*の設定が重要である。

  2. ユーザーインターフェースの作成: 拡張機能のUIとして、popup.htmlファイルとpopup.cssファイルを作成する。popup.htmlには、「スキャン」ボタンと結果表示領域を配置し、popup.cssでUIのデザインを調整する。

  3. タブの音声キャプチャ: Chromeのchrome.tabCapture APIを使用して、アクティブなタブの音声をキャプチャする。ユーザーが「スキャン」ボタンをクリックした際に、chrome.tabCapture.capture()関数を呼び出し、タブの音声ストリームを取得する。この際、タブの音声がミュートされないように、AudioContextを使用してキャプチャした音声をスピーカーにルーティングする必要がある。

  4. 音声の録音: MediaRecorder APIを使用して、キャプチャした音声ストリームから5〜10秒のオーディオクリップを録音する。録音された音声は、デフォルトでWebM/Opus形式で保存される。Aurigin APIは、WAV、MP3、M4A、FLAC、OGGなどの形式をサポートしているため、録音された音声をWAV形式に変換する必要がある。

  5. 音声形式の変換: AudioContextdecodeAudioData関数を使用して、録音された音声Blobをデコードし、生のPCMサンプルを取得する。次に、WAVファイルのヘッダーを構築し、PCMサンプルをWAVファイル形式で書き込む。

  6. ディープフェイク検出APIの呼び出し: Aurigin.aiの/predict APIエンドポイントに、WAV形式に変換された音声ファイルを送信する。APIキーをヘッダーに含め、音声ファイルをmultipart/form-data形式で送信する。APIは、音声がAIによって生成されたものかどうかを予測し、その信頼度スコアを返す。

  7. 結果の表示: APIからのレスポンスを解析し、音声がディープフェイクである可能性が高いかどうかをユーザーにわかりやすく表示する。予測結果と信頼度スコアを表示し、必要に応じてエラーメッセージを表示する。

この拡張機能は、ブラウザータブからライブオーディオをキャプチャし、Aurigin.aiのクラウドAIサービスを使用してリアルタイムでディープフェイクオーディオを検出する。ChromeのTab Capture APIを使用してタブオーディオを取得し、MediaRecorderでスニペットを録音し、適切な形式に変換して、AuriginのDeepfake Detection APIを呼び出す方法を解説している。

このチュートリアルに従うことで、メディアストリームや外部AIサービスと対話するブラウザ拡張機能を構築するための基盤が得られる。わずか数秒のオーディオで、信頼性に関する答えが得られる。

関連コンテンツ

関連IT用語

関連ITニュース