A acessibilidade do Deepseek é um mito: a IA revolucionária realmente custou US $ 1,6 bilhão para se desenvolver

Autor : Caleb Mar 16,2025

O novo chatbot de Deepseek possui uma IA surpreendentemente capaz, apresentando -se com a afirmação simples, mas intrigante: "Olá, fui criado para que você possa perguntar qualquer coisa e obter uma resposta que possa até surpreendê -lo".

Essa IA rapidamente se tornou um participante importante, causando quedas significativas no preço das ações da NVIDIA. Seu sucesso decorre de uma combinação única de arquitetura e métodos de treinamento, incorporando várias tecnologias inovadoras:

  • Previsão com vários toques (MTP): Ao contrário da previsão tradicional de palavra por palavra, o MTP prevê várias palavras simultaneamente, melhorando significativamente a precisão e a eficiência.
  • Mistura de especialistas (MOE): Esta arquitetura aproveita várias redes neurais para processar entradas, acelerar o treinamento e aumentar o desempenho. O Deepseek V3 utiliza 256 redes, ativando oito para cada token.
  • Atenção latente de várias cabeças (MLA): O MLA se concentra repetidamente nos principais componentes da frase, garantindo que detalhes cruciais não sejam perdidos, levando a uma compreensão mais sutil da entrada.

Teste Deepseek

Imagem: Ensigame.com

A Deepseek, uma subsidiária do fundo de hedge chinesa, alegou inicialmente ter treinado sua poderosa rede neural Deepseek V3 por meros US $ 6 milhões usando 2048 GPUs. No entanto, a semiânica revelou uma infraestrutura muito mais substancial: aproximadamente 50.000 GPUs NVIDIA Hopper, incluindo 10.000 H800s, 10.000 H100s e H20s adicionais, distribuídos por vários data centers. Isso se traduz em um investimento em servidor de aproximadamente US $ 1,6 bilhão e despesas operacionais estimadas em US $ 944 milhões.

Deepseek v3

Imagem: Ensigame.com

Ao contrário de muitas startups que dependem da computação em nuvem, a Deepseek possui seus data centers, fornecendo maior controle e implementação mais rápida da inovação. Seu status autofinanciado aumenta ainda mais a agilidade e a tomada de decisões. O compromisso da empresa com o talento também é notável, com alguns pesquisadores ganhando mais de US $ 1,3 milhão anualmente, atraindo os principais graduados das principais universidades chinesas. O número inicial de US $ 6 milhões, portanto, reflete apenas os custos de GPU pré-treinamento e subrerecenta significativamente o investimento total superior a US $ 500 milhões.

Deepseek

Imagem: Ensigame.com

Embora a estrutura enxuta da Deepseek permita uma inovação eficiente em comparação com empresas maiores e mais burocráticas, seu sucesso está inegavelmente ligado a investimentos substanciais, avanços tecnológicos e uma equipe altamente qualificada. A reivindicação do "orçamento revolucionário", portanto, precisa de qualificação significativa. No entanto, os custos da Deepseek permanecem significativamente menores que os concorrentes. Por exemplo, a Deepseek gastou US $ 5 milhões em R1, em comparação com os US $ 100 milhões da ChatGPT para ChatGPT4O.

Deepseek

Imagem: Ensigame.com

A história de Deepseek destaca o potencial de uma empresa de IA independente e bem financiada para competir efetivamente com os gigantes estabelecidos. No entanto, também ressalta a realidade de que investimentos substanciais, tecnologia de ponta e talentos excepcionais são ingredientes essenciais para o sucesso nesse campo em rápida evolução.