DeepSeek的負擔能力是一個神話:革命性的AI實際上花費了16億美元

作者 : Caleb Mar 16,2025

DeepSeek的新聊天機器人擁有一個令人驚訝的AI,並以簡單而有趣的陳述介紹了自己:“嗨,我是被創建的,所以您可以問任何東西,並得到一個甚至可能會讓您感到驚訝的答案。”

該AI很快就成為了主要參與者,甚至導致NVIDIA的股價大幅下降。它的成功源於建築和培訓方法的獨特組合,結合了幾種創新技術:

  • 多語預測(MTP):與傳統的單詞預測不同,MTP同時預測了多個單詞,從而顯著提高了準確性和效率。
  • 專家的混合(MOE):該體系結構利用多個神經網絡來處理輸入,加速培訓和提高性能。 DeepSeek V3使用256個網絡,每個令牌都激活了8個網絡。
  • 多頭潛在註意力(MLA): MLA反复專注於關鍵句子組成部分,確保不會錯過關鍵細節,從而更加細微地理解輸入。

DeepSeek測試

圖片:ensigame.com

DeepSeek是中國對沖基金高潮的子公司,最初聲稱已使用2048 GPU培訓了其強大的DeepSeek V3神經網絡,僅需600萬美元。但是,半分析顯示出更大的基礎設施:大約50,000個NVIDIA HOPPER GPU,包括10,000 H800,10,000 H100和其他H20,分佈在多個數據中心。這意味著服務器投資約為16億美元,運營費用估計為9.44億美元。

DeepSeek V3

圖片:ensigame.com

與許多依靠雲計算的初創公司不同,DeepSeek擁有其數據中心,提供更大的控制和更快的創新實現。它的自籌資金地位進一步增強了敏捷性和決策。該公司對人才的承諾也值得注意,一些研究人員每年收入超過130萬美元,吸引了來自中國領先的大學的頂尖畢業生。因此,最初的600萬美元數字僅反映了培訓前的GPU成本,而總投資總額不足5億美元。

DeepSeek

圖片:ensigame.com

儘管DeepSeek的精益結構可以與更大,更官僚的公司相比有效地創新,但它的成功與實質性投資,技術突破和高技能團隊無關緊要。因此,“革命預算”主張需要大量資格。然而,DeepSeek的成本仍大大低於競爭對手。例如,DeepSeek在R1上花費了500萬美元,而Chatgpt的Chatgpt4o $ 1億美元。

DeepSeek

圖片:ensigame.com

DeepSeek的故事凸顯了一家資金充足,獨立的AI公司與已建立巨人有效競爭的潛力。但是,這也強調了一個現實,即大量投資,尖端技術和卓越的人才是在這個快速發展的領域中取得成功的關鍵要素。