【ITニュース解説】DeepSeekが推論モデル「R1」をわずか4400万円でトレーニングしたと発表、512基のNVIDIA H800チップを80時間使用
2025年09月19日に「GIGAZINE」が公開したITニュース「DeepSeekが推論モデル「R1」をわずか4400万円でトレーニングしたと発表、512基のNVIDIA H800チップを80時間使用」について初心者にもわかりやすく解説しています。
ITニュース概要
DeepSeekは、強力なAI推論モデル「DeepSeek R1」のトレーニング詳細を公開した。このモデルはわずか4400万円の費用で開発され、512基のNVIDIA H800チップを80時間使用した。競合を驚かせるほどの優れたコストパフォーマンスが注目されている。
ITニュース解説
2025年1月に中国のAIスタートアップであるDeepSeekが「DeepSeek R1」という独自の強力な推論モデルを発表した。この発表は、AI業界に大きな衝撃を与え、そのコストパフォーマンスの高さはアメリカの株式市場が一時的に暴落するほどだったとされている。これまで謎に包まれていたDeepSeek R1のトレーニングコストなどの詳細が今回、DeepSeekによって明らかにされたことで、その驚異的な数字の背景が見えてきた。
まず「DeepSeek R1」とは何か、そして「推論モデル」とは何かを理解する必要がある。AIモデルは、人間が学習するように、大量のデータからパターンや規則を学ぶことで知識を獲得する。この学習するプロセスを「トレーニング」と呼ぶ。トレーニングを終えたAIモデルは、その知識を使って新しい情報に対して判断したり、答えを導き出したりすることができるようになる。この、学習済みの知識を使って新たな入力から結果を予測したり生成したりする能力を持つAIモデルを「推論モデル」と呼ぶ。例えば、画像を見てそれが何かを判断したり、文章を読んで質問に答えたり、新しい文章を作成したりする際に、この推論モデルが活躍する。DeepSeek R1は、まさにそうした高度な判断や生成を行うための強力なAIモデルとして開発された。
AIモデルのトレーニングは非常にコストがかかる作業として知られている。なぜなら、膨大な量のデータを処理し、複雑な計算を繰り返す必要があるため、高性能なコンピューター資源を長時間使用しなければならないからだ。特に、AIのトレーニングに不可欠なのが「GPU(Graphics Processing Unit)」と呼ばれる計算処理に特化した半導体チップである。通常のCPU(Central Processing Unit)が一つずつ順序立てて計算するのに比べ、GPUは多くの計算を並行して同時に処理する能力に優れており、これがAIトレーニングの効率を格段に向上させる。高性能なGPUチップは非常に高価であり、それを何百、何千と集めて長時間稼働させるとなると、その電気代や設備のレンタル費用は莫大な額に上るのが一般的であった。
DeepSeek R1の発表が衝撃的だったのは、このトレーニングにかかった費用がわずか4400万円であったと公表されたことだ。これまでの常識では、DeepSeek R1のような大規模で高性能なAIモデルを開発するには、数十億円から数百億円規模の費用がかかるのが当たり前とされていた。それが4400万円という破格のコストで実現されたという事実は、AI開発の常識を根底から覆すものだった。
具体的に、DeepSeek R1のトレーニングでは、512基のNVIDIA H800チップが80時間使用されたという。NVIDIA H800チップは、AIのトレーニングや推論に特化して設計された、現時点で世界最高峰の高性能GPUの一つである。このH800チップを512基も用意し、しかも80時間という決して短くない期間稼働させることは、通常ならば非常に高額な費用を伴う。DeepSeekがこの莫大な計算リソースをわずか4400万円で利用できたことは、彼らがGPUリソースを非常に効率的に調達し、利用する何らかの革新的な方法を見つけたか、あるいはトレーニングプロセス自体を極限まで最適化する技術を持っていることを示唆している。例えば、クラウドサービス上の未使用リソースを安価に活用したり、独自の効率的なハードウェア利用技術を開発したりした可能性が考えられる。
このDeepSeekの発表は、AI業界全体に大きな影響を与えるだろう。まず、高性能なAIモデルの開発コストが大幅に下がることで、これまでは資金力のある一部の大企業しか手が出せなかったAI開発の門戸が広がる可能性がある。中小企業やスタートアップでも、比較的少ない予算で強力なAIモデルを開発できるようになれば、AI技術の民主化が進み、多様なAIサービスやアプリケーションが生まれる土壌ができる。これは、システムエンジニアを目指す人々にとっても、AI技術を扱う機会が増え、新たな技術トレンドやキャリアパスが生まれることを意味する。
一方で、既存のAI開発企業にとっては、DeepSeekのコストパフォーマンスは大きな脅威となる。同じ性能のAIモデルをより安価に、より速く開発できるならば、競争力において大きなアドバンテージとなるため、他社も DeepSeek の技術や手法を研究し、同様のコスト削減を目指す動きが加速するだろう。結果として、AI技術の進化がさらに加速し、より高性能で効率的なAIモデルが次々と登場する競争が激化すると予想される。
DeepSeek R1の登場と、その驚異的なトレーニングコストの開示は、AI開発の未来に大きな変革をもたらす可能性がある。これは、単にAIモデルが一つ増えたという話ではなく、AI技術が社会に浸透し、より多くの人々が利用できるようになるための重要な一歩となるかもしれない。
文字数:1985文字