DeepSeek的负担能力是一个神话:革命性的AI实际上花费了16亿美元

作者 : Caleb Mar 16,2025

DeepSeek的新聊天机器人拥有一个令人惊讶的AI,并以简单而有趣的陈述介绍了自己:“嗨,我是被创建的,所以您可以问任何东西,并得到一个甚至可能会让您感到惊讶的答案。”

该AI很快就成为了主要参与者,甚至导致NVIDIA的股价大幅下降。它的成功源于建筑和培训方法的独特组合,结合了几种创新技术:

  • 多语预测(MTP):与传统的单词预测不同,MTP同时预测了多个单词,从而显着提高了准确性和效率。
  • 专家的混合(MOE):该体系结构利用多个神经网络来处理输入,加速培训和提高性能。 DeepSeek V3使用256个网络,每个令牌都激活了8个网络。
  • 多头潜在注意力(MLA): MLA反复专注于关键句子组成部分,确保不会错过关键细节,从而更加细微地理解输入。

DeepSeek测试

图片:ensigame.com

DeepSeek是中国对冲基金高潮的子公司,最初声称已使用2048 GPU培训了其强大的DeepSeek V3神经网络,仅需600万美元。但是,半分析显示出更大的基础设施:大约50,000个NVIDIA HOPPER GPU,包括10,000 H800,10,000 H100和其他H20,分布在多个数据中心。这意味着服务器投资约为16亿美元,运营费用估计为9.44亿美元。

DeepSeek V3

图片:ensigame.com

与许多依靠云计算的初创公司不同,DeepSeek拥有其数据中心,提供更大的控制和更快的创新实现。它的自筹资金地位进一步增强了敏捷性和决策。该公司对人才的承诺也值得注意,一些研究人员每年收入超过130万美元,吸引了来自中国领先的大学的顶尖毕业生。因此,最初的600万美元数字仅反映了培训前的GPU成本,而总投资总额不足5亿美元。

DeepSeek

图片:ensigame.com

尽管DeepSeek的精益结构可以与更大,更官僚的公司相比有效地创新,但它的成功与实质性投资,技术突破和高技能团队无关紧要。因此,“革命预算”主张需要大量资格。然而,DeepSeek的成本仍大大低于竞争对手。例如,DeepSeek在R1上花费了500万美元,而Chatgpt的Chatgpt4o $ 1亿美元。

DeepSeek

图片:ensigame.com

DeepSeek的故事凸显了一家资金充足,独立的AI公司与已建立巨人有效竞争的潜力。但是,这也强调了一个现实,即大量投资,尖端技术和卓越的人才是在这个快速发展的领域中取得成功的关键要素。