【ITニュース解説】How to Install & Run Microsoft Kosmos-2.5 Locally?
2025年09月08日に「Dev.to」が公開したITニュース「How to Install & Run Microsoft Kosmos-2.5 Locally?」について初心者にもわかりやすく解説しています。
ITニュース概要
Microsoftの「Kosmos-2.5」は、画像内の文字を読み取るAIモデル。レシートや書類を読み込ませるだけで、文字と位置情報を抽出するOCRや、内容をMarkdown文書に変換できる。開発者はPythonで簡単にこの機能を利用できる。
ITニュース解説
Microsoftが開発した「Kosmos-2.5」は、画像に含まれる文字情報を高度に読み取り、理解するための新しいAIモデルである。この種のAIは「マルチモーダルAI」と呼ばれ、テキストや画像など、異なる種類のデータを同時に扱える能力を持つ。Kosmos-2.5は特に、レシートや請求書、契約書といった文字が密集した画像の解析に特化しており、文書のデジタル化や情報抽出の分野で大きな役割を果たすことが期待されている。
Kosmos-2.5が持つ主な機能は二つある。一つ目は、高度なOCR(光学的文字認識)機能だ。OCRとは、画像データの中から文字を見つけ出し、コンピューターが扱えるテキストデータに変換する技術のことである。従来のOCR技術も文字を読み取ることはできたが、Kosmos-2.5の特長は、単にテキストを抽出するだけでなく、そのテキストが画像のどの位置にあるかという座標情報まで正確に把握できる点にある。この位置情報は「バウンディングボックス」と呼ばれる四角い枠で示され、どのテキストがどの項目に対応するのかを正確に関連付けるために不可欠だ。この機能を利用するには、AIに対して<ocr>という特別な指示(プロンプト)を与えるだけでよい。
二つ目の主要な機能は、画像の内容をMarkdown形式のテキストに変換する能力だ。Markdownとは、見出しやリスト、強調といった文章の構造を簡単な記号で表現するための軽量なマークアップ言語であり、エンジニアが技術文書や仕様書を作成する際によく利用する。Kosmos-2.5は、画像内のレイアウトや文字の大きさなどを解釈し、それらをMarkdownの構造に落とし込むことができる。例えば、レシートの店名を見出しとして、購入品目をリストとして出力するなど、単なる文字の羅列ではなく、意味のある構造を持ったテキストデータを生成する。これにより、後続のデータ処理が格段に容易になる。この機能は<md>というプロンプトで実行できる。
このような高性能なAIモデルは、自分のコンピューター環境(ローカル環境)で直接動かすことも可能だ。Kosmos-2.5は、AI開発で広く使われているライブラリ「Transformers」に組み込まれており、Pythonというプログラミング言語を使って比較的簡単に利用を開始できる。ただし、モデルをローカルで実行するには、いくつかの準備が必要となる。まず、Kosmos-2.5のような大規模なAIモデルは膨大な計算を必要とするため、高性能なGPU(Graphics Processing Unit)を備えた環境が推奨される。GPUは元々、3Dグラフィックスの描画を高速化するための装置だが、その並列計算能力がAIの計算にも適しているため、現代のAI開発には欠かせない存在となっている。
次に、実行環境を整えるための技術としてDockerが利用される。Dockerは、アプリケーションとその実行に必要なライブラリや設定を「コンテナ」という独立した空間にパッケージ化する技術だ。これにより、開発者のPCでもクラウドサーバーでも、全く同じ環境を簡単に再現できる。Kosmos-2.5を動かすためには、NVIDIA製のGPUを効率的に使うためのソフトウェアプラットフォームであるCUDAがインストールされた特定のDockerイメージを選択する必要がある。これにより、環境構築の手間が大幅に削減され、モデルの実行に集中できる。
環境が準備できたら、Pythonのコードを実行してKosmos-2.5の機能を試すことができる。例えば、あるPythonスクリプトでは、インターネット上にあるレシートの画像を読み込み、<md>プロンプトを指定してモデルを動かすことで、そのレシートの内容をMarkdown形式で出力する。別のスクリプトでは、同じ画像に対して<ocr>プロンプトを使い、抽出したテキストと、その位置を示すバウンディングボックスの情報を取得する。さらに、その座標情報をもとに元の画像上に赤い四角形を描画し、どのテキストがどこから認識されたのかを視覚的に確認できる画像を生成することも可能だ。
さらに応用として、StreamlitというPythonライブラリを使えば、これらの機能をブラウザ上で操作できる簡単なWebアプリケーションを作成することもできる。ユーザーがブラウザから画像をアップロードし、OCRかMarkdown変換かを選択してボタンを押すだけで、AIが処理結果を画面に表示する、といった仕組みを構築できる。これにより、プログラミングに詳しくない人でもKosmos-2.5の強力な文書解析機能を体験できるようになる。このように、AIモデルを開発するだけでなく、それを誰もが使いやすい形にすることもシステムエンジニアの重要な仕事の一つである。Kosmos-2.5は、画像からの情報抽出というタスクをより身近で強力なものに変える可能性を秘めた技術だと言える。