Webエンジニア向けプログラミング解説動画をYouTubeで配信中!
▶ チャンネル登録はこちら

【ITニュース解説】Kren v1: Turning an Encoder into a Khasi-Speaking AI

2025年09月17日に「Dev.to」が公開したITニュース「Kren v1: Turning an Encoder into a Khasi-Speaking AI」について初心者にもわかりやすく解説しています。

作成日: 更新日:

ITニュース概要

ほとんどのAIが対応しないカーシ語のため、既存のAIを改良し、カーシ語テキストを生成する「Kren v1」を開発した。データ量も工夫し、少ない言語でも生成AIを作れる可能性を示した。

ITニュース解説

Kren v1は、これまで多くのAIモデルが対応してこなかったカシ語(インド北東部で話される言語)を生成できる、画期的なAIモデルである。既存のAIモデルの多くは、英語のような大規模なデータセットが存在する言語に特化しており、カシ語のようなリソースの少ない言語を流暢に操ることは難しいという課題があった。このKren v1は、その課題を解決するために開発された。一般的な生成AIモデルは、テキストを理解する部分と、テキストを生成する部分に大きく分けられるが、Kren v1は、通常テキストの理解・分類に使われるAIモデルを、テキスト生成が可能なAIモデルへと根本的に作り替えるという、ユニークなアプローチで実現された点が特徴だ。

現在の主要な生成AIモデルは、インターネット上に豊富に存在するテキストデータを学習することで高い性能を発揮している。しかし、カシ語のようにインターネット上のデータが少ない言語の場合、ゼロから大規模な生成AIモデルを構築することは非常に困難だ。データが少ないと、AIが言語のパターンや文法規則を十分に学習できず、自然なテキストを生成することが難しくなる。このような状況でカシ語を生成できるAIを開発するには、従来の開発手法に縛られない新しい発想が必要とされた。

Kren v1の開発における最も重要な点は、「エンコーダー」と呼ばれるタイプのAIモデルを「デコーダー」と呼ばれるタイプのAIモデルに変換したことにある。AIモデルには、大きく分けて「エンコーダー」と「デコーダー」の2種類がある。エンコーダーは、与えられたテキストを深く理解し、その内容を数値データとして表現することに特化したモデルだ。例えば、ある文章がポジティブな内容かネガティブな内容かを分類したり、文章の意味を要約したりするのに使われる。ニュース記事で触れられている「KhasiBERT」や「RoBERTaスタイル」のモデルは、このエンコーダーに分類される。これらは、文章の文脈全体を把握する能力に優れているが、新しいテキストを自分で作り出す能力は持っていない。一方、デコーダーは、与えられた情報をもとに新しいテキストを生成することに特化したモデルだ。有名な「GPT-2スタイル」のモデルはデコーダーの代表例であり、過去に生成された単語や与えられた開始テキストに基づいて、次にどのような単語が来るかを予測し、それを連鎖的に繰り返すことで文章を生成していく。

Kren v1の出発点となったのは、カシ語で学習された既存のエンコーダーモデル「KhasiBERT」だった。このKhasiBERTは、カシ語を理解し分類する能力は持っていたが、カシ語の文章を生成することはできなかった。そこで開発者は、このKhasiBERTの持つカシ語に関する知識を捨てずに活用しつつ、そのアーキテクチャ(内部構造)を、生成能力を持つデコーダー型へと全面的に作り変えることを試みた。これは、単に既存のモデルに少し手を加えて追加学習させる「ファインチューニング」とは異なり、モデルの根本的な設計思想を変換する、非常に高度な技術的挑戦だった。具体的には、KhasiBERTの学習済みの「重み」(AIがデータからパターンを学習する際に調整される数値)を新しいデコーダー型のモデルに引き継がせた。そして、GPT-2のような生成モデルが採用している「因果的フォーマット」(過去の単語列から未来の単語を予測する形式)に適応するようにモデルを調整した。この方法により、限られたカシ語データからゼロからモデルを構築するよりも効率的に、かつ効果的にカシ語を生成できるAIモデルを開発することに成功したのだ。

Kren v1の開発では、モデルの学習データ量についても慎重な検証が行われた。AIモデルの性能は、必ずしもデータ量が多ければ良いというわけではない。開発者は、カシ語のテキストデータを様々な量でモデルに学習させ、それぞれのケースでAIが生成するテキストの品質を比較した。この評価では、AIの予測と正解とのずれを示す「損失スコア」だけでなく、実際に生成された文章がどれだけ自然で意味のあるものになっているかという、人間の感覚に基づく品質も重視された。テストの結果、以下の段階を経て最適なデータ量が見つけ出された。まず、30万行のカシ語テキストで学習させた初期バージョン(v0.1)では、基本的なテキスト生成は可能だったものの、生成される文章は短く、シンプルな返答にとどまった。次に、80万行にデータ量を増やしたバージョン(v0.2)では、対話形式のテキスト生成能力が改善された。そして、100万行のデータで学習させたバージョン(v1.0)では、単なる返答や対話だけでなく、より抽象的な推論を含む複数文での応答が可能になるなど、大幅に性能が向上した。このバージョンが、最終的なKren v1のリリース版として採用されることになった。興味深いのは、さらにデータ量を増やして200万行のテキストで学習させたバージョン(v0.4)では、数値上の損失スコアはさらに低くなったにもかかわらず、生成されるテキストの一貫性や自然さが逆に損なわれてしまったという結果だ。これは、過剰なデータがモデルに混乱を与え、逆に品質を低下させる可能性があることを示している。このため、Kren v1の最終版では、100万行のデータが最適なバランスであると判断された。

Kren v1は、カシ語で多様なテキストを生成する能力を持っている。具体的には、場所に関する記述、文化的な話題についての説明、さらには抽象的な概念に関する推論を含む複数文の応答などが可能だ。これは、これまでカシ語では実現が難しかった高度なテキスト生成能力であり、カシ語コミュニティにとって大きな進歩を意味する。しかし、Kren v1もまだ完璧ではない。現在のバージョンには、生成できるテキストの長さに514トークン(単語や文字の一部、句読点などの最小単位)という制限がある。また、AIが事実に基づかない内容を生成してしまう「ハルシネーション」と呼ばれる現象や、学習データに存在する偏り(バイアス)を反映してしまう可能性も存在する。これらは、今後のAI開発における共通の課題でもあるが、Kren v1は、その限界がありつつも、カシ語の生成AIの「始まり」として非常に重要な一歩となる。

このKren v1モデルは、Hugging FaceというAIモデルを共有・利用するためのプラットフォームで公開されており、誰でも試すことができる。Pythonプログラミング言語を使えば、わずか数行のコードで自分のコンピューターにモデルを読み込み、カシ語のテキスト生成をすぐに始めることが可能だ。具体的には、transformersというライブラリを使って、モデルとそれに対応する「トークナイザー」(テキストをAIが理解できるトークンに分解・結合するツール)をダウンロードし、準備された関数を呼び出すことで、テキストを生成できる。これは、AI開発に興味を持つシステムエンジニアの初心者にとっても、実際にAIモデルがどのように動作するかを体験できる貴重な機会となる。

Kren v1の成功は、いくつかの重要な意味を持つ。第一に、データリソースが限られている言語であっても、革新的な手法を用いることで、高性能な生成AIモデルを構築できる可能性を示したことだ。カシ語だけでなく、同様にデータが少ない他の多くの言語にとっても、Kren v1のアプローチは希望を与えるものとなるだろう。第二に、既存のエンコーダーモデルをデコーダーモデルに変換するという手法が有効であることを実証した点だ。これは、すでに多くの言語で学習済みのエンコーダーモデルが存在することから、それらの資産を新しい生成タスクに活用できる道を開くものとなる。さらに、Kren v1はコンパクトなサイズで、再現性が高く、オープンソースとして公開されているため、誰でもその技術を学び、改善し、さらに発展させることができる。このようなオープンな開発は、AI技術の民主化を促進し、地域固有の自然言語処理(NLP)分野の発展に大きく貢献する。MWire Labsという開発元は、Kren v1のようなツールを通じて、インド北東部の豊かな言語多様性を技術で支えることを目指しており、このプロジェクトはその目的を達成するための重要な一歩である。Kren v1は、単なる技術的な成果にとどまらず、言語の多様性を尊重し、技術でそれを支援する社会的な意義を持つ取り組みと言える。

関連コンテンツ