La asequibilidad de Deepseek es un mito: la IA revolucionaria en realidad costó $ 1.6 mil millones para desarrollarse
El nuevo chatbot de Deepseek cuenta con una IA sorprendentemente capaz, presentándose con la declaración simple pero intrigante: "Hola, fui creado para que puedas preguntar cualquier cosa y obtener una respuesta que incluso podría sorprenderte".
Esta IA se ha convertido rápidamente en un jugador importante, incluso causando caídas significativas en el precio de las acciones de Nvidia. Su éxito proviene de una combinación única de métodos de arquitectura y capacitación, incorporando varias tecnologías innovadoras:
- Predicción de múltiples token (MTP): a diferencia de la predicción tradicional de palabras por palabra, MTP pronostica múltiples palabras simultáneamente, mejorando significativamente tanto la precisión como la eficiencia.
- Mezcla de expertos (MOE): esta arquitectura aprovecha múltiples redes neuronales para procesar la entrada, acelerar la capacitación y aumentar el rendimiento. Deepseek V3 utiliza 256 redes, activando ocho para cada token.
- Atención latente múltiple (MLA): MLA se enfoca repetidamente en componentes clave de oraciones, asegurando que no se pierdan detalles cruciales, lo que lleva a una comprensión más matizada de la entrada.
Imagen: ensigame.com
Deepseek, una subsidiaria del Fondo de cobertura chino High-Flyer, inicialmente afirmó haber entrenado su poderosa red neuronal Deepseek V3 por solo $ 6 millones utilizando 2048 GPU. Sin embargo, el semianálisis reveló una infraestructura mucho más sustancial: aproximadamente 50,000 GPU de tolva NVIDIA, incluidos 10,000 H800, 10,000 H100 y H20 adicionales, distribuidos en múltiples centros de datos. Esto se traduce en una inversión de servidor de aproximadamente $ 1.6 mil millones y los gastos operativos estimados en $ 944 millones.
Imagen: ensigame.com
A diferencia de muchas nuevas empresas que dependen de la computación en la nube, Deepseek posee sus centros de datos, proporcionando un mayor control e implementación de innovación más rápida. Su estado autofinanciado mejora aún más la agilidad y la toma de decisiones. El compromiso de la compañía con el talento también es notable, y algunos investigadores ganan más de $ 1.3 millones anuales, atrayendo a los principales graduados de las principales universidades chinas. La cifra inicial de $ 6 millones, por lo tanto, solo refleja los costos de la GPU previa al entrenamiento y subraya significativamente la inversión total superior a $ 500 millones.
Imagen: ensigame.com
Si bien la estructura magra de Deepseek permite una innovación eficiente en comparación con las compañías más grandes y burocráticas, su éxito está sin duda vinculado a una inversión sustancial, avances tecnológicos y un equipo altamente calificado. El reclamo del "presupuesto revolucionario", por lo tanto, necesita una calificación significativa. Sin embargo, los costos de Deepseek siguen siendo significativamente más bajos que los competidores. Por ejemplo, Deepseek gastó $ 5 millones en R1, en comparación con los $ 100 millones de ChatGPT para ChatGPT4O.
Imagen: ensigame.com
La historia de Deepseek destaca el potencial de una compañía de IA independiente bien financiada para competir de manera efectiva con los gigantes establecidos. Sin embargo, también subraya la realidad de que la inversión sustancial, la tecnología de vanguardia y el talento excepcional son ingredientes clave para el éxito en este campo en rápida evolución.







