Los secretos de DeepSeek, hardware y costos detrás del modelo R1
La polémica en torno a los costos de entrenamiento del modelo R1 de DeepSeek ha generado un fuerte impacto en los mercados. Sin embargo, parece que hubo una gran desinformación al respecto, ya que las cifras reales son sorprendentemente diferentes a lo que se había reportado inicialmente.
Costos reales de DeepSeek superan ampliamente los $5 millones reportados
Según un análisis detallado realizado por la firma de investigación SemiAnalysis, los costos de entrenamiento del modelo R1 de DeepSeek son significativamente más altos que la cifra inicialmente reportada de $5 millones de dólares.
Este estudio desmiente la narrativa de que DeepSeek había alcanzado tal eficiencia que los recursos de hardware de NVIDIA y otros proveedores se habían vuelto innecesarios.
Antes de profundizar en el hardware utilizado por DeepSeek, es importante revisar lo que la industria percibió en un principio. Se afirmó que DeepSeek solo había invertido $5 millones de dólares en su modelo R1.
Esta información generó pánico en el mercado minorista, lo que se reflejó en la caída de las acciones en el mercado estadounidense. Sin embargo, ahora que el polvo se ha asentado, las cifras reales pintan un panorama muy diferente.
DeepSeek y su acceso a hardware de última generación
DeepSeek, que inicialmente fue considerado un proyecto secundario del fondo de cobertura chino High-Flyer, habría adquirido 10,000 unidades de las GPU A100 de NVIDIA en 2021, cuando las restricciones de exportación no eran tan estrictas.
Con el tiempo, DeepSeek se convirtió en una entidad independiente después de que High-Flyer decidiera separar el proyecto. Fue en ese momento cuando la compañía comenzó a acumular recursos informáticos de manera significativa.
El informe de SemiAnalysis revela que DeepSeek cuenta con aproximadamente 10,000 unidades de las GPU H800 de NVIDIA, diseñadas específicamente para el mercado chino, y otras 10,000 unidades de las GPU H100, consideradas de gama alta.
Además, la empresa ha invertido en los aceleradores de inteligencia artificial H20 de NVIDIA. Estos recursos se comparten entre DeepSeek y High-Flyer para actividades como trading, inferencia, entrenamiento e investigación.
Inversión millonaria en infraestructura y talento local
La inversión en infraestructura por parte de DeepSeek asciende a aproximadamente $1,600 millones de dólares en gastos de capital (CapEx), con costos operativos estimados en $944 millones de dólares. Estas cifras son casi 400 veces superiores a lo que el mercado había percibido inicialmente.
Cabe aclarar que la cifra inicial de $5 millones de dólares probablemente correspondía solo a una parte específica de los costos de entrenamiento, posiblemente asociada con la ejecución del modelo final.
Por otro lado, DeepSeek ha destacado por su capacidad para reclutar talento local, ofreciendo salarios que superan los $1.3 millones de dólares por año a empleados clave en eventos de reclutamiento en universidades de élite.
El equipo detrás del modelo R1 de DeepSeek demostró ser capaz de desarrollar una solución eficiente para competir con gigantes como OpenAI. Sin embargo, las cifras financieras mal reportadas actuaron como un catalizador en el reciente evento bautizado como “cisne negro” que afectó a los mercados.
Fuente: SemiAnalysis