【ITニュース解説】スイス独自の完全オープンソースLLM「Apertus」がリリースされる、1000言語以上にわたる15兆トークンで学習&透明性とデジタル主権を重視
2025年09月04日に「GIGAZINE」が公開したITニュース「スイス独自の完全オープンソースLLM「Apertus」がリリースされる、1000言語以上にわたる15兆トークンで学習&透明性とデジタル主権を重視」について初心者にもわかりやすいように丁寧に解説しています。
ITニュース概要
スイスがオープンソースLLM「Apertus」をリリース。EPFL、ETHZ、CSCSが共同開発し、透明性とデジタル主権を重視。1000以上の言語、15兆トークンで学習。学習データやコードが全て公開されており、誰でも利用、改良が可能。LLMの仕組みを学ぶ上で貴重な存在となるだろう。
ITニュース解説
Apertusは、スイス連邦工科大学ローザンヌ校(EPFL)、スイス連邦工科大学チューリッヒ校(ETHZ)、スイス国立スーパーコンピューティングセンター(CSCS)が共同で開発した大規模言語モデル(LLM)だ。このモデルの最大の特徴は、その完全なオープンソース性にある。学習に使用されたデータやモデルのコードがすべて公開されており、誰でも自由に利用、研究、改良できる。
従来の多くのLLMは、その学習データやモデル構造が企業秘密として公開されないことが多い。これに対し、Apertusは透明性を重視し、開発プロセス全体を公開することで、信頼性を高め、より多くの人々がLLM技術に貢献できるようにすることを目指している。デジタル主権の確保も重要な目的の一つだ。特定の企業や国に依存せず、自国の言語や文化に特化したLLMを開発・運用できる基盤を構築することで、データや技術の独立性を高める狙いがある。
Apertusは、1000種類以上の言語にわたる15兆トークンという膨大なデータでトレーニングされている。トークンとは、テキストを細かく分割した単位のことで、一般的には単語や句読点などが含まれる。15兆トークンというデータ量は、LLMの性能を大きく左右する重要な要素であり、Apertusが多様な言語に対応し、高度な自然言語処理能力を持つことを示唆している。
システムエンジニアを目指す初心者にとって、Apertusの登場は非常に意義深い。なぜなら、LLMの内部構造や動作原理を理解するための貴重な学習資源となるからだ。ソースコードが公開されているため、実際にコードを読んで、どのようにLLMが動作しているのかを学ぶことができる。また、学習データも公開されているため、どのようなデータがLLMの性能に影響を与えるのかを分析することも可能だ。
さらに、Apertusは、特定のベンダーに依存しないシステム構築の可能性を示唆している。企業が自社のニーズに合わせてLLMをカスタマイズしたり、独自のアプリケーションに組み込んだりすることが容易になる。これにより、コスト削減やセキュリティ向上、柔軟なシステム設計が可能になる。
LLMは、自然言語処理、機械翻訳、文章生成など、さまざまな分野で活用されている。ApertusのようなオープンソースLLMの登場は、これらの分野における技術革新を加速させるだろう。システムエンジニアは、Apertusを活用することで、より高度なAI技術を駆使したシステムを開発し、社会に貢献できる可能性を秘めている。具体的には、顧客対応を自動化するチャットボット、大量のテキストデータを分析するツール、特定の業界に特化した自然言語処理システムなど、幅広い応用が考えられる。Apertusは、オープンソースの精神に基づき、LLM技術の民主化を推進する重要な一歩と言えるだろう。