【ITニュース解説】Make RAG Provable: Page + BBox Citations for All Extracted Data
2025年09月04日に「Dev.to」が公開したITニュース「Make RAG Provable: Page + BBox Citations for All Extracted Data」について初心者にもわかりやすいように丁寧に解説しています。
ITニュース概要
Tensorlakeは、AIが文書から構造化データを抽出する際、どのページ・位置からその情報が得られたかを自動記録する新機能を追加した。これにより、抽出データの出所が明確になり、監査や不正検出、医療分野など、信頼性が極めて重要な業務でのAI活用がより確実で追跡可能となる。
ITニュース解説
最近のAI技術は目覚ましく進化しており、特に「RAG(Retrieval Augmented Generation)」と呼ばれる技術が注目を集めている。これは、AIが膨大な情報源(ウェブ上のデータや企業のドキュメントなど)の中から関連する情報を探し出し、それに基づいて質問に回答したり、新しい文章を生成したりする仕組みだ。しかし、この便利なAIの能力には一つの大きな課題があった。それは、AIが生成した情報が「どこから来たのか」が明確でない場合があるという点だ。
AIが「A社の売上は100億円です」と回答しても、その情報がどの資料の、何ページ目の、どの部分に書かれていたのかが分からなければ、その情報を完全に信頼して重要なビジネス判断を下すことは難しい。特に、銀行の取引記録を監査する、医療機関で患者の紹介状の情報を確認する、あるいは詐欺の兆候を探すといった、正確性が極めて重要で間違いが許されない場面では、「情報がどこから来たか」という確実な証拠が必須となる。
AIが提供する情報が、元のドキュメントのどこに記載されていたかを明確に示すこと、これを「トレーサビリティ(追跡可能性)」と呼ぶ。このトレーサビリティが欠けていると、AIをビジネスの現場で本格的に活用する際の大きな障壁となるのだ。そこで、Tensorlakeという会社が、AIがドキュメントから情報を抽出する際に、その情報の出所を自動で記録する新しい機能を導入した。具体的には、「provide_citations=True」というたった一つの設定を有効にするだけで、AIが抽出したあらゆるデータに対して、「何ページ目の、どの場所にあった情報か」という引用情報が自動的に付与されるようになる。
この引用情報には、二つの重要な要素が含まれる。一つは「ページ番号」で、これは文字通り、元のドキュメントの何ページ目にその情報があったかを示す。もう一つは「バウンディングボックス(Bounding Box)座標」だ。バウンディングボックスとは、ドキュメントの画像上で、特定の文字や数字、図形などが存在する範囲を四角い枠で囲んだものと考えると分かりやすい。この座標情報(例えば、x1, y1, x2, y2といった数値のペア)があれば、ドキュメントのどの位置にそのデータが書かれていたかをピンポイントで特定できるのだ。
これにより、AIが構造化されたデータ(例えば、銀行の明細書から「日付」「取引内容」「金額」といった項目)を抽出するだけでなく、その一つ一つのデータが「元のドキュメントの何ページ目のどこに記載されていたか」という証拠と結びつくようになる。これは、抽出されたデータがただ機械的に読み取れるだけでなく、人間がその情報を監査したり、検証したり、元の情報源まで追跡したりできることを意味する。
例えば、金融業界での監査業務を考えてみよう。AIが「この口座の残高はX円です」と報告したとする。監査員は、そのX円が本当に元の銀行明細書のどこかに記載されているかを正確に確認する必要がある。もし、AIが抽出した残高と、元の明細書を照らし合わせたときに不一致が見つかった場合、このバウンディングボックス情報があれば、元のドキュメントの何ページ目のどの数字が問題の原因となっているのかをすぐに特定できる。これにより、手作業で何百ページもの書類を遡って調べる手間が大幅に削減される。
また、詐欺検出の場面でも非常に有効だ。例えば、提出された書類に異常な金額が記載されていた場合、その数字が改ざんされたものなのか、それとも正規の書類に元々そう書かれていたのかを検証する必要がある。引用情報があれば、AIが「この異常な数字はドキュメントのこの場所にありました」と明確に示すため、調査員はすぐにその部分を確認し、真偽を判断できる。
医療分野でも大きなメリットがある。UCLAでの医療紹介フォームの処理の例では、AIが紹介フォームから「紹介日」や「医師の署名」といった情報を抽出する際、それらがフォームのどの部分に書かれていたかを正確に示すことで、人間が行う最終的な確認作業の時間が劇的に短縮されたという。これは、抽出された情報が「どこに根拠があるのか」を常に明示できるため、人間のレビュー担当者が自信を持って、より迅速に次のステップに進めるようになるからだ。
システムエンジニアの視点から見ると、この機能は非常に強力だ。Pythonを使ってドキュメントAIを呼び出す簡単なコード例を見ると、「provide_citations=True」という一行を追加するだけで、機能が有効になることがわかる。そして、AIから返される結果のJSONデータを見ると、例えば「"Date"」という項目だけでなく、それに対応する「"Date_citation"」という項目が追加され、その中に「page_number」や、x1, y1, x2, y2といったバウンディングボックスの座標情報が具体的に含まれていることが示されている。これは、AIが単にデータを「抽出した」だけでなく、そのデータがドキュメント上で「どこに存在したか」という確固たる証拠を添えて返してくれることを意味する。
この機能は、単に「データを解析した」というレベルから、そのデータが「証拠に裏付けられている」というレベルへと、AIの能力を引き上げる。システムエンジニアは、この技術を活用することで、監査に耐えうる信頼性の高いシステムを構築できる。また、システムが自動で不一致を検出し、レビュー担当者に直接、問題の箇所をドキュメント上で示すことができるようになるため、レビュープロセスも大幅に効率化できるだろう。さらに、AIがなぜそのような回答を出したのかを説明する際の根拠としても利用でき、UI(ユーザーインターフェース)の改善にもつながる。例えば、抽出されたデータがドキュメントのどこにあったかを、画面上で自動的にハイライト表示するような機能も実現可能になる。
結論として、現代の生産的なAIワークフロー、特にRAGのような情報検索・生成システムにおいて、情報の追跡可能性はもはや「あれば便利」なものではなく、「必須」の要件となりつつある。このTensorlakeの新機能は、構造化されたデータ抽出を単なる機械可読なものから、監査対応、コンプライアンス準拠、そして不正耐性を持つ信頼性の高いAIワークフローの基盤へと進化させる。AIを活用したシステムを設計・開発するシステムエンジニアにとって、この「証拠に裏付けられたデータ抽出」の概念と技術は、今後のプロジェクトにおいて非常に重要な要素となるだろう。