L'abordabilité de Deepseek est un mythe: l'IA révolutionnaire a coûté 1,6 milliard de dollars pour développer

Auteur : Caleb Mar 16,2025

Le nouveau chatbot de Deepseek possède une IA étonnamment capable, se présentant avec la déclaration simple mais intrigante: "Salut, j'ai été créé pour que vous puissiez demander n'importe quoi et obtenir une réponse qui pourrait même vous surprendre."

Cette IA est rapidement devenue un acteur majeur, provoquant même des baisses importantes du cours de l'action de Nvidia. Son succès découle d'une combinaison unique d'architecture et de méthodes de formation, incorporant plusieurs technologies innovantes:

  • Prédiction multi-token (MTP): Contrairement à la prédiction traditionnelle mot par mot, MTP prévoit plusieurs mots simultanément, améliorant considérablement à la fois la précision et l'efficacité.
  • Mélange d'experts (MOE): Cette architecture exploite plusieurs réseaux de neurones pour traiter les entrées, accélérer la formation et augmenter les performances. Deepseek V3 utilise 256 réseaux, activant huit pour chaque jeton.
  • Attention latente multi-tête (MLA): MLA se concentre à plusieurs reprises sur les composants clés de la phrase, garantissant que les détails cruciaux ne sont pas manqués, conduisant à une compréhension plus nuancée de l'entrée.

Test de profondeur

Image: esigame.com

Deepseek, une filiale du High Flyer chinois, a initialement affirmé avoir formé son puissant réseau de neurones Deepseek V3 pour seulement 6 millions de dollars en utilisant 2048 GPU. Cependant, la semianalyse a révélé une infrastructure beaucoup plus substantielle: environ 50 000 GPU de trémie NVIDIA, dont 10 000 H800, 10 000 H100 et H20S supplémentaires, distribués dans plusieurs centres de données. Cela se traduit par un investissement de serveur d'environ 1,6 milliard de dollars et les dépenses opérationnelles estimées à 944 millions de dollars.

Deepseek v3

Image: esigame.com

Contrairement à de nombreuses startups s'appuyant sur le cloud computing, Deepseek possède ses centres de données, offrant un plus grand contrôle et une implémentation d'innovation plus rapide. Son statut autofinancé améliore encore l'agilité et la prise de décision. L'engagement de l'entreprise envers les talents est également notable, certains chercheurs gagnant plus de 1,3 million de dollars par an, attirant les meilleurs diplômés des principales universités chinoises. Le chiffre initial de 6 millions de dollars ne reflète donc que les coûts de GPU avant la formation et ne sous-représente considérablement l'investissement total supérieur à 500 millions de dollars.

En profondeur

Image: esigame.com

Alors que la structure Lean de Deepseek permet une innovation efficace par rapport aux entreprises plus grandes et plus bureaucratiques, son succès est indéniablement lié à des investissements substantiels, à des percées technologiques et à une équipe hautement qualifiée. La réclamation «budget révolutionnaire» a donc besoin d'une qualification importante. Néanmoins, les coûts de Deepseek restent considérablement inférieurs à ceux des concurrents. Par exemple, Deepseek a dépensé 5 millions de dollars pour R1, par rapport aux 100 millions de dollars de Chatgpt pour Chatgpt4O.

En profondeur

Image: esigame.com

L'histoire de Deepseek met en évidence le potentiel d'une entreprise d'IA indépendante bien financée pour rivaliser efficacement avec les géants établis. Cependant, il souligne également la réalité que l'investissement substantiel, la technologie de pointe et les talents exceptionnels sont des ingrédients clés pour réussir dans ce domaine en évolution rapide.