Webエンジニア向けプログラミング解説動画をYouTubeで配信中!
▶ チャンネル登録はこちら

【ITニュース解説】📣 Just announced: IBM Granite-Docling: End-to-end document understanding with one tiny model

2025年09月18日に「Dev.to」が公開したITニュース「📣 Just announced: IBM Granite-Docling: End-to-end document understanding with one tiny model」について初心者にもわかりやすく解説しています。

作成日: 更新日:

ITニュース概要

IBMが小型AIモデル「Granite-Docling」を発表した。これは画像中の複雑な文書(表、数式含む)を、元の構造を保ちながら高精度なテキストデータに変換する。従来のOCRより賢く、少ないリソースで高性能を発揮し、RAGなどの次世代AIアプリケーションでの利用にも適する。

ITニュース解説

IBMが発表した「Granite-Docling」は、紙の書類やPDFなどの画像形式のドキュメントに記録された複雑な情報を、コンピュータで扱えるように変換する新しいAIモデルだ。この技術は、単に画像から文字を読み取るだけでなく、ドキュメントの持つ意味や構造を深く理解し、それらを忠実に再現することを目指している。

これまで、画像内の文字をデジタルテキストに変換する技術はOCR(光学文字認識)と呼ばれてきた。しかし、従来のOCRは文字の抽出が主な目的であり、文章のレイアウト、表の構造、数式、コードといった複雑な要素を正確に再現することは難しかった。特に、ドキュメントが持つ「構造」は、単なるテキストの羅列とは異なり、見出し、段落、リスト、表などの要素が互いにどのように関連しているかという情報を含むため、これを失うとドキュメントの価値は大きく損なわれる場合があった。

Granite-Doclingは、このような課題を解決するために開発された。これは「マルチモーダルImage-Text-to-Textモデル」と呼ばれるもので、画像情報と既存のテキスト情報の両方から学習し、それらを元に新しいテキスト情報を生成する能力を持つ。つまり、ドキュメントの見た目(画像)だけでなく、そこに書かれている文字の意味や、レイアウトが持つ構造的な意味までを総合的に理解する。その上で、Doclingという特定の標準形式に則って、ドキュメントを構造化されたテキストに変換するのだ。Doclingは、ドキュメントの構成要素や関係性を定義する独自のルールや枠組みであり、この標準に準拠することで、変換後の情報の整合性が保たれ、さまざまなアプリケーションで利用しやすくなる。

このモデルの注目すべき点は、そのコンパクトさにある。Granite-Doclingは2.58億個という比較的少ないパラメータ数で動作するにもかかわらず、その能力ははるかに大規模なAIシステムに匹敵するとされている。これは、限られた計算資源でも高いパフォーマンスを発揮できることを意味し、運用コストの削減に大きく貢献する。

Granite-Doclingが持つ具体的な機能としては、以下のようなものがある。まず、単なる文字の抽出を超え、ドキュメントのレイアウトと構造を正確に保つ。文章中に埋め込まれた数式(インライン数式)や独立して記載された数式、プログラミングのコード、そして複雑な表の構造なども正確に認識し、元の形式に近い形で再現する。従来のOCRモデルが変換過程で元の構造情報を失い、単なるMarkdown形式などにしてしまうのに対し、Granite-Doclingはそうした構造的要素を忠実に翻訳し、後続のアプリケーションが利用しやすい形式で出力する。例えば、Retrieval-Augmented Generation(RAG)という、外部の知識源から情報を探し出して回答を生成する質問応答システムのようなAIアプリケーションでは、ドキュメントの正確な構造情報が非常に重要になる。Granite-Doclingが生成する構造化された出力は、このようなRAGアプリケーションにとって理想的な入力となるのだ。

さらに、このモデルは数式認識の精度が向上しており、日本語、アラビア語、中国語といった多言語にも実験的に対応している。また、ドキュメント全体を一度に処理する「フルページ推論」と、特定の領域を指定して処理する「領域指定推論」といった柔軟なモードも提供される。AIモデルが処理中に無限ループに陥るのを避けるなど、システムとしての安定性も改善されている。

技術的な側面では、Granite-DoclingはIDEFICS3という既存のAIアーキテクチャを基盤としているが、視覚情報を処理する部分を「siglip2-base-patch16–512」、言語情報を処理する部分を「Granite 165M LLM」という高性能なコンポーネントに置き換えることで、より高度なドキュメント理解を実現している。

このモデルは、Pythonを使った簡単なコードで利用できる。例えば、Hugging FaceというAIモデルの共有プラットフォームからモデルをダウンロードし、数行のPythonコードで画像ファイルを読み込み、「このページをDocling形式に変換して」といった指示を与えるだけで、構造化されたテキストデータが生成される。このデータは、Markdown形式やHTML形式として出力され、ウェブブラウザで確認することも可能だ。開発者は、仮想環境をセットアップし、必要なライブラリをインストールするだけで、この強力なドキュメント変換機能を自身のアプリケーションに組み込むことができる。コマンドラインツールとしても提供されており、より手軽に利用できる。

結論として、Granite-Doclingは、既存の汎用的なAIモデルをドキュメント処理に適用するアプローチとは一線を画し、ドキュメント変換に特化した効率的かつ高精度なソリューションを提供する。そのコンパクトなサイズと高い性能、そして深層構造理解能力は、従来のOCRの限界を超え、企業や開発者が求める高品質かつ効率的なドキュメントインテリジェンスのニーズに応える強力なツールとなるだろう。これにより、画像形式で眠っていた膨大な情報を、より価値のあるデジタル資産として活用する道が開かれる。

関連コンテンツ

関連IT用語