DeepSeek

Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co., Ltd.

🇨🇳
AI消費者🇨🇳 CN非上場
deepseek.com

主要製品

DeepSeek-V3、DeepSeek-R1(フロンティア推論モデル)

サプライチェーンを追跡 →
詳細情報▼ 展開

DeepSeekは2023年に、輸出規制が強化される前に中国最大級のGPUクラスターを蓄積していた杭州拠点のクオンツヘッジファンド・高飛(ハイフライヤー/幻方)のAI研究子会社として設立された。高飛のCEOでもある梁文鋒が率いる創業チームは、クオンツ金融からの数値最適化に関する深い専門知識をAIトレーニング効率に直接応用し、それが決定的な優位性となった。 2024年12月にリリースされたDeepSeek-V3と2025年1月にリリースされたDeepSeek-R1は、GPT-4以来で最も重要な米国AIラボへの競争的混乱をもたらした。DeepSeekはV3のトレーニングコストが約560万ドル相当のGPU時間だと主張した。この数字は詳細において異論があったが、それでも同等の米国フロンティアモデルの推定数億ドルに対する根本的な効率性のギャップを示していた。R1モデルは人間フィードバックからの強化学習とchain-of-thought推論を組み合わせ、OpenAIのo1に競合するベンチマーク結果を生み出した。これにより2025年1月27日にNVIDIA株が大幅下落(いわゆる「DeepSeekモーメント」)し、市場がフロンティアAIの計算要件に関する仮定を見直した。 DeepSeekの効率化技術は技術的に実質的なものだ。V3アーキテクチャはマルチヘッド潜在注意(MLA)を使用し、低ランク射影行列でKVキャッシュを圧縮して推論時のメモリ帯域幅の負荷を劇的に削減する。また256エキスパートのうちトークンごとに8つだけがアクティブになるMoEルーティングスキームを採用し、FP8混合精度トレーニングを使用する——これはNVIDIA H800 GPU(H100の輸出規制準拠版でNVLink相互接続帯域幅が削減されている)でのメモリフットプリントを削減しスループットを向上させる当時の新手法だった。DeepSeekのトレーニングは約2,048台のH800 GPUクラスターで実施されたと報告されている。 輸出規制はDeepSeekのハードウェアロードマップにおける決定的な制約だ。BISの2023年10月規則はH100/H200 GPUを中国への輸出にライセンスが必要な管理品目として分類し、その後の2024/2025年の規則はさらに厳格化された。DeepSeekによるH800(購入時は準拠していた)の使用については、正規のチャネルで入手されたかどうかが精査されている。H800も現在は管理対象となったため、DeepSeekはNVIDIAの製品と比べてソフトウェアの成熟度と相互接続帯域幅が低いにもかかわらず、将来のトレーニングランにHuawei Ascend 910BおよびAscend 910C NPUへの転換を進めている。 DeepSeekの結果の地政学的影響はAIチップ輸出規制の議論を再形成した。先端GPU輸出を制限することで持続的な性能ギャップを維持できると想定していた米国の政策立案者は、効率性主導のアプローチがハードウェアの不利を部分的に補える証拠に直面した。一方、DeepSeekがモデルウェイトを許容的なライセンスでオープン公開したことでその技術は世界中でアクセス可能になり、MLAやMoEルーティングアプローチを含むアーキテクチャ革新が世界中のオープンソースおよびプロプライエタリなモデル開発に急速に普及した。

クリティカルパス — 原料シリコンから配備まで

クラウドプロバイダー

Huawei Cloud

Huawei Cloud EI(AI)、Ascend 910ベースのModelArtsプラットフォーム

クラウドプロバイダー

Alibaba Cloud

Alibaba Cloud AI、Hanguang 800 NPU、Qwen LLM

クラウドプロバイダー

Tencent Cloud

Tencent Cloud AI、Hunyuan LLM、GPU HPCクラスター

AI消費者

DeepSeek

DeepSeek-V3、DeepSeek-R1(フロンティア推論モデル)

DeepSeekに影響する輸出規制