【ITニュース解説】サイバーエージェント、DeepSeek-R1に日本語で追加学習を施したLLMを公開

2025年01月28日に「Gihyo.jp」が公開したITニュース「サイバーエージェント、DeepSeek-R1に日本語で追加学習を施したLLMを公開」について初心者にもわかりやすいように丁寧に解説しています。

作成日: 更新日:

ITニュース概要

サイバーエージェントが、中国製の高性能LLMを基に日本語データを追加学習させた新しいLLMを公開した。元のAIが持つ高い推論能力を継承しつつ、日本語での応答精度を向上させたモデルである。

ITニュース解説

AI技術、特に人間のように自然な文章を生成したり理解したりする大規模言語モデル(LLM)の開発競争が世界中で激化している。こうした中、サイバーエージェントは2025年1月27日、日本語の扱いに優れた新しいLLM「DeepSeek-R1-Distill-Qwen-14B/32B-Japanese」を公開した。このニュースは、最新のAI技術がどのように進化し、日本語環境へ応用されていくかを示す重要な事例であり、将来システムエンジニアとしてAI分野に関わることを目指す人々にとって、理解しておくべき技術要素が多く含まれている。

まず、大規模言語モデル(LLM)とは、膨大な量のテキストデータを学習することで、言語の構造や文脈、さらには世界の様々な知識を獲得したAIモデルのことである。このLLMを基盤として、対話AIや文章作成ツールなど、多様なアプリケーションが開発されている。今回のモデルの元となったのは、中国のAI企業DeepSeekが開発した「DeepSeek-R1」という非常に高性能なLLMである。このモデルは特に「推論能力」に優れている点が特徴だ。推論能力とは、与えられた情報から論理的に結論を導き出す力のことであり、例えば複雑なプログラミングのコードを生成したり、難解な論文の内容を要約したりといった高度なタスクを得意とする。

今回サイバーエージェントが利用したのは、「DeepSeek-R1」そのものではなく、その「蒸留モデル」である。蒸留とは、非常に大規模で高性能なモデル(教師モデル)が持つ知識や判断能力を、よりコンパクトで軽量なモデル(生徒モデル)へと凝縮させる技術を指す。このプロセスを経ることで、元のモデルの賢さをある程度維持しながら、計算に必要なリソースを大幅に削減できるという利点がある。これにより、より多くの開発者が少ない計算コストで高性能なAIを利用できるようになる。モデル名に含まれる「Distill」はこの蒸留モデルであることを示している。また、「Qwen」という名称は、Alibaba Cloudが開発したLLMのアーキテクチャ(設計構造)を指す。AI開発の世界では、ゼロから新しいモデルを設計するのではなく、すでに実績のある優れたアーキテクチャを基に改良を加えることが一般的であり、このモデルもその手法に則って開発されたことを示唆している。

このモデルの最も重要な点は、サイバーエージェントが日本語データによる「追加学習」を施したことにある。元のDeepSeek-R1は、主に英語や中国語のデータで学習されているため、そのままでは日本語の複雑な表現や文化的背景を十分に理解できない場合がある。そこで、すでに高度な推論能力を持つ蒸留モデルに対し、大量の質の高い日本語テキストデータを追加で学習させる。これが「追加学習」である。この工程により、モデルは日本語の文法や語彙、言い回しに精通し、より自然で正確な日本語を生成・理解する能力を獲得する。つまり、世界トップクラスの推論能力という土台の上に、日本語という専門知識を上乗せした形となる。これにより、日本のビジネスシーンや日常生活に即した、より実用的なAIアプリケーションの開発が可能になる。

モデル名の末尾にある「14B」や「32B」は、モデルの規模を示す「パラメータ数」を表している。「B」はBillion(10億)の略であり、それぞれ140億個、320億個のパラメータを持つことを意味する。パラメータは、モデルが学習を通じて調整する内部の数値であり、この数が大きいほど、モデルはより複雑で微妙な言語のニュアンスを捉えることができ、一般に性能が高くなる傾向がある。サイバーエージェントは、性能と計算コストのバランスが異なる2つのサイズのモデルを公開することで、開発者が自身の目的や利用環境に応じて最適なモデルを選択できるようにした。

今回のサイバーエージェントの取り組みは、海外で開発された最先端のオープンソースLLMを基に、日本語環境に最適化させるという流れを加速させるものである。高性能な日本語LLMがオープンな形で提供されることで、国内の多くの企業や個人開発者が、これまで以上に高度なAI技術を手軽に利用できるようになる。これは、新たなAIサービスの創出を促進し、日本のAI技術全体の底上げに繋がる可能性がある。システムエンジニアを目指す者にとって、こうしたオープンソースの資産を活用し、特定の言語や文化圏のニーズに合わせてカスタマイズする技術は、今後ますます重要になるだろう。