Ang kakayahang magamit ng Deepseek ay isang alamat: ang rebolusyonaryong AI ay talagang nagkakahalaga ng $ 1.6 bilyon upang mabuo

May-akda : Caleb Mar 16,2025

Ipinagmamalaki ng bagong chatbot ng Deepseek ang isang nakakagulat na may kakayahang AI, na ipinakilala ang sarili sa simple ngunit nakakaintriga na pahayag: "Kumusta, nilikha ako upang maaari kang magtanong ng anuman at makakuha ng isang sagot na maaaring sorpresa ka."

Ang AI na ito ay mabilis na naging isang pangunahing manlalaro, kahit na nagdudulot ng mga makabuluhang patak sa presyo ng stock ng NVIDIA. Ang tagumpay nito ay nagmula sa isang natatanging kumbinasyon ng mga pamamaraan ng arkitektura at pagsasanay, na isinasama ang ilang mga makabagong teknolohiya:

  • Multi-Token Prediction (MTP): Hindi tulad ng tradisyonal na hula ng salita-by-word, ang mga pagtataya ng MTP ng maraming mga salita nang sabay-sabay, makabuluhang pagpapabuti ng parehong kawastuhan at kahusayan.
  • Paghahalo ng mga eksperto (MOE): Ang arkitektura na ito ay gumagamit ng maraming mga neural network upang maproseso ang pag -input, pabilis na pagsasanay at pagpapalakas ng pagganap. Ang Deepseek V3 ay gumagamit ng 256 na mga network, pag -activate ng walong para sa bawat token.
  • Multi-head latent pansin (MLA): Ang MLA ay paulit-ulit na nakatuon sa mga pangunahing sangkap ng pangungusap, tinitiyak na ang mga mahahalagang detalye ay hindi napalampas, na humahantong sa isang mas nakakainis na pag-unawa sa input.

Pagsubok sa Deepseek

Larawan: ensigame.com

Ang Deepseek, isang subsidiary ng Chinese Hedge Fund High-flyer, sa una ay inaangkin na sinanay ang malakas na Deepseek V3 Neural Network para sa isang $ 6 milyon lamang gamit ang 2048 GPU. Gayunpaman, ang semianalysis ay nagsiwalat ng isang mas malaking imprastraktura: humigit -kumulang 50,000 NVIDIA HOPPER GPU, kabilang ang 10,000 H800s, 10,000 H100s, at karagdagang mga H20, na ipinamamahagi sa maraming mga sentro ng data. Ito ay isinasalin sa isang pamumuhunan ng server na humigit -kumulang na $ 1.6 bilyon at mga gastos sa pagpapatakbo na tinatayang $ 944 milyon.

Deepseek v3

Larawan: ensigame.com

Hindi tulad ng maraming mga startup na umaasa sa cloud computing, ang Deepseek ay nagmamay -ari ng mga sentro ng data nito, na nagbibigay ng higit na kontrol at mas mabilis na pagpapatupad ng pagbabago. Ang katayuan na pinondohan ng sarili ay karagdagang nagpapabuti sa liksi at paggawa ng desisyon. Ang pangako ng kumpanya sa talento ay kapansin -pansin din, kasama ang ilang mga mananaliksik na kumikita ng higit sa $ 1.3 milyon taun -taon, na umaakit sa mga nangungunang nagtapos mula sa nangungunang unibersidad ng Tsino. Ang paunang $ 6 milyong figure, samakatuwid, ay sumasalamin lamang sa mga pre-training na gastos sa GPU at makabuluhang ipinapahiwatig ang kabuuang pamumuhunan na higit sa $ 500 milyon.

Deepseek

Larawan: ensigame.com

Habang ang istraktura ng DeepSeek ay nagbibigay -daan para sa mahusay na pagbabago kumpara sa mas malaki, mas maraming mga kumpanya ng burukrasya, ang tagumpay nito ay hindi maikakaila na naka -link sa malaking pamumuhunan, teknolohikal na mga pambihirang tagumpay, at isang mataas na bihasang koponan. Ang "rebolusyonaryong badyet" na pag -angkin, samakatuwid, ay nangangailangan ng makabuluhang kwalipikasyon. Gayunpaman, ang mga gastos sa Deepseek ay mananatiling mas mababa kaysa sa mga kakumpitensya. Halimbawa, ang Deepseek ay gumugol ng $ 5 milyon sa R1, kumpara sa $ 100 milyon ng Chatgpt para sa Chatgpt4O.

Deepseek

Larawan: ensigame.com

Ang kwento ng Deepseek ay nagtatampok ng potensyal ng isang mahusay na pinondohan, independiyenteng kumpanya ng AI upang makipagkumpetensya nang epektibo sa mga itinatag na higante. Gayunpaman, binibigyang diin din nito ang katotohanan na ang malaking pamumuhunan, teknolohiyang paggupit, at pambihirang talento ay mga pangunahing sangkap para sa tagumpay sa mabilis na umuusbong na larangan na ito.