Przystępność Deepseek to mit: rewolucyjna sztuczna inteligencja kosztowała 1,6 miliarda dolarów na rozwój
Nowy chatbot Deepseka oferuje zaskakująco zdolną sztuczną inteligencję, przedstawiając się z prostym, ale intrygującym stwierdzeniem: „Cześć, zostałem stworzony, abyś mógł zapytać o wszystko i uzyskać odpowiedź, która może cię nawet zaskoczyć”.
Ta sztuczna inteligencja szybko stała się głównym graczem, nawet powodując znaczne spadki ceny akcji Nvidii. Jego sukces wynika z unikalnej kombinacji metod architektury i szkoleń, obejmujących kilka innowacyjnych technologii:
- Prognozowanie wielofunkcyjne (MTP): W przeciwieństwie do tradycyjnej prognozy słowa, MTP prognozuje wiele słów jednocześnie, znacznie poprawiając zarówno dokładność, jak i wydajność.
- Mieszanka ekspertów (MOE): Architektura ta wykorzystuje wiele sieci neuronowych do przetwarzania danych wejściowych, przyspieszania szkolenia i zwiększania wydajności. Deepseek V3 wykorzystuje 256 sieci, aktywując osiem dla każdego tokena.
- Utrzymująca uwaga wielowłócona (MLA): MLA wielokrotnie koncentruje się na kluczowych elementach zdania, zapewniając, że kluczowe szczegóły nie są pominięte, co prowadzi do bardziej dopracowanego zrozumienia danych wejściowych.
Zdjęcie: engame.com
Deepseek, spółka zależna chińskiego funduszu hedgingowego High-Flyer, początkowo twierdził, że przeszkoliła swoją potężną sieć neuronową Deepseek V3 za zaledwie 6 milionów dolarów za pomocą procesorów graficznych 2048. Jednak semianaliza ujawniła znacznie bardziej znaczącą infrastrukturę: około 50 000 GPU Nvidia Hopper, w tym 10 000 H800S, 10 000 H100S i dodatkowe H20, rozmieszczone w wielu centrach danych. Przekłada się to na inwestycję serwerową w wysokości około 1,6 miliarda USD, a wydatki operacyjne szacowane na 944 mln USD.
Zdjęcie: engame.com
W przeciwieństwie do wielu startupów polegających na przetwarzaniu w chmurze, Deepseek jest właścicielem swoich centrów danych, zapewniając większą kontrolę i szybszą wdrażanie innowacji. Jego status samofinansowania dodatkowo zwiększa zwinność i podejmowanie decyzji. Zaangażowanie firmy w talenty jest również godne uwagi, a niektórzy badacze zarabiają ponad 1,3 miliona dolarów rocznie, przyciągając najlepszych absolwentów wiodących chińskich uniwersytetów. Pierwsza liczba 6 mln USD odzwierciedla jedynie koszty GPU przed treningiem i znacząco niedostatecznie reprezentuje całkowitą inwestycję przekraczającą 500 mln USD.
Zdjęcie: engame.com
Podczas gdy szczupła struktura Deepseek pozwala na wydajne innowacje w porównaniu z większymi, bardziej biurokratycznymi firmami, jej sukces jest niezaprzeczalnie powiązany ze znacznymi inwestycjami, przełomami technologicznymi i wysoce wykwalifikowanym zespołem. Roszczenie „rewolucyjnego budżetu” wymaga zatem znacznych kwalifikacji. Niemniej jednak koszty Deepseek pozostają znacznie niższe niż konkurenci. Na przykład Deepseek wydał 5 milionów dolarów na R1, w porównaniu z 100 milionami dolarów Chatgpt na Chatgpt4o.
Zdjęcie: engame.com
Historia Deepseek podkreśla potencjał dobrze finansowanej, niezależnej firmy AI do skutecznego konkurowania z uznanymi gigantami. Podkreśla jednak także rzeczywistość, że znaczna inwestycja, najnowocześniejsza technologia i wyjątkowe talenty są kluczowymi składnikami sukcesu w tej szybko rozwijającej się dziedzinie.







