【ITニュース解説】Tencent Hunyuan Translation Model Complete Guide: The New Benchmark for Open-Source AI Translation in 2025
ITニュース概要
テンセントが新AI翻訳モデル「Hunyuan-MT」をオープンソースで公開。世界翻訳コンペで圧倒的な成績を収めた高性能モデルだ。複数の翻訳結果を統合して品質を高める独自の仕組みが特徴。軽量で33言語に対応し、商用利用も可能。(119文字)
ITニュース解説
Tencent Hunyuan Translation Model(Hunyuan-MT)は、Tencentが2025年9月1日に公開したオープンソースの翻訳AIモデルだ。このモデルは、Hunyuan-MT-7BとHunyuan-MT-Chimera-7Bという2つの主要なコンポーネントで構成されている。 Hunyuan-MT-7Bは、70億パラメータを持つ基盤となる翻訳モデルで、入力されたテキストを正確に目的言語に翻訳することに特化している。一方、Hunyuan-MT-Chimera-7Bは、複数の翻訳結果を組み合わせてより高品質な翻訳を生成する、業界初のオープンソース翻訳アンサンブルモデルだ。 Hunyuan-MTは、WMT25グローバル機械翻訳コンペティションにおいて、参加した31言語カテゴリーのうち30カテゴリーで1位を獲得し、GoogleやOpenAIといった国際的な大手企業の翻訳モデルを打ち破った。 Hunyuan-MT-7Bは、70億パラメータという比較的小規模ながら、33言語の相互翻訳をサポートする。これには、中国の少数民族言語であるチベット語、ウイグル語、モンゴル語など5つの方言も含まれる。従来の翻訳モデルは10〜20言語のサポートにとどまることが多く、パラメータ数も100億を超える場合が一般的だ。Hunyuan-MTは、軽量でありながら幅広い言語をカバーし、特にこれまで対応が難しかった少数言語をサポートすることで、市場のニーズに応えている。また、完全なオープンソースとして公開されているため、誰でも自由に使用できる点も大きなメリットだ。 Tencentは、このモデルのトレーニングにおいて、新しいフレームワークを提案している。まず、事前学習(Pretrain)を行い、次に継続的な事前学習(CPT)、教師ありファインチューニング(SFT)、翻訳強化学習、アンサンブル強化学習という段階を経て、最終的なモデルを完成させる。このトレーニングパイプラインは、同規模のモデルの中で最高水準の性能を実現している。 Hunyuan-MT-Chimera-7Bは、業界初のオープンソース翻訳アンサンブルモデルとして、複数の翻訳候補を分析し、単一の最適化された翻訳を生成する。具体的には、入力として元のテキストと6つの翻訳候補を受け取り、それらの品質を分析し、最適な翻訳結果を生成する。 Hunyuan-MTは、中国語、英語、フランス語、スペイン語、日本語といった主要言語に加え、ドイツ語、イタリア語、ロシア語、ポーランド語、チェコ語などのヨーロッパ言語、韓国語、タイ語、ベトナム語、ヒンディー語、アラビア語などのアジア言語をサポートしている。また、中国語の方言として、繁体字中国語、広東語、チベット語、ウイグル語、モンゴル語もサポートしている。 モデルの利用にあたっては、プロンプトテンプレートが提供されている。例えば、中国語から他の言語への翻訳では、「把下面的文本翻译成<target_language>,不要额外解释。\n\n<source_text>」というテンプレートを使用する。非中国語の言語ペアの場合は、「Translate the following segment into <target_language>, without additional explanation.\n\n<source_text>」というテンプレートを使用する。Chimeraアンサンブルモデル固有のテンプレートも用意されており、複数の翻訳結果を分析して最適な翻訳を生成するために使用できる。 WMT25コンペティションの結果によると、Hunyuan-MTは、XCOMETスコア、chrF++スコア、BLEUスコアなどの複数の評価指標で優れたパフォーマンスを示した。 Hunyuan-MTは、Hugging Faceからダウンロードできる。標準バージョン(Hunyuan-MT-7B)、FP8量子化バージョン、アンサンブルバージョン(Hunyuan-MT-Chimera-7B)、アンサンブル量子化バージョンが用意されている。 Hunyuan-MTは、vLLM、TensorRT-LLM、SGLangなど、さまざまなデプロイメントフレームワークをサポートしている。 Hunyuan-MTは、Tencent Meetingでのリアルタイム会議翻訳、WeComでの多言語コミュニケーションサポート、Tencent BrowserでのWebコンテンツ翻訳など、Tencentの内部製品に統合されている。また、コンテンツのローカリゼーション、リアルタイムコミュニケーション、ドキュメント翻訳、教育・トレーニングなど、さまざまな開発者向けアプリケーションシナリオにも対応できる。 Hunyuan-MTの主な利点として、少数言語のサポート、軽量なデプロイメント、アンサンブル最適化による高品質な翻訳結果が挙げられる。 Hunyuan-MTは、Google TranslateやChatGPT翻訳と比較して、オープンソースであること、翻訳タスクに特化していること、少数言語をサポートしていること、アンサンブル機能を備えていること、ローカルにデプロイできることなどの利点がある。 モデルのハードウェア要件は、FP8量子化バージョンを使用する場合、最小16GBのGPUメモリが必要だ。標準バージョンを使用する場合は、24GB以上のGPUメモリが推奨される。本番環境では、テンソル並列をサポートするマルチGPU並列デプロイメントが推奨される。 リアルタイム翻訳シナリオではHunyuan-MT-7B、高品質な翻訳が必要な場合はChimera-7Bを使用することが推奨される。バッチドキュメント翻訳には、Chimera-7Bを使用することで大幅な品質改善が期待できる。 Hunyuan-MTは、ファインチューニングをサポートしており、LLaMA-Factoryとの統合も可能だ。ドメイン固有のデータを使用したファインチューニングや、sharegpt形式のトレーニングデータを使用することもできる。また、マルチノード分散トレーニングもサポートしている。 Hunyuan-MTは完全にオープンソースであり、商用利用や再配布も可能だ。 Hunyuan Translation Modelは、革新的なデュアルモデルアーキテクチャと包括的なトレーニングフレームワークを通じて、グローバル翻訳コンペティションで画期的な成果を上げ、2025年のオープンソースAI翻訳の新たな基準を確立した。