La empresa china DeepSeek informó que entrenó su modelo de inteligencia artificial R1 con un costo total de 294 mil dólares, una cifra considerablemente menor a las inversiones que otras compañías tecnológicas reportan en proyectos de gran escala. El dato fue publicado en un artículo revisado por pares en la revista Nature, convirtiéndose en la primera divulgación oficial de gastos de entrenamiento por parte de la compañía.
Según el documento, el modelo completó su fase principal de entrenamiento en 80 horas, utilizando un clúster de 512 chips H800 de Nvidia. Una versión preliminar del estudio no incluía detalles sobre costos ni recursos empleados.
Comparación con costos internacionales
El cofundador de DeepSeek, Liang Wenfeng, aparece como coautor del artículo. La publicación se produce meses después de que versiones anteriores de los modelos de bajo costo de la empresa provocaran caídas en los valores de empresas tecnológicas, al intensificar la percepción de competencia frente a corporaciones como Nvidia.
En contraste, en 2023 el presidente ejecutivo de OpenAI, Sam Altman, señaló que el «entrenamiento de modelos fundacionales» costaba mucho más de 100 millones de dólares, sin especificar cifras exactas. La diferencia resalta la magnitud de la reducción de gastos presentada por DeepSeek.
Uso de chips y aclaraciones técnicas
La documentación complementaria indicó que, en una fase preliminar, se emplearon GPU A100 para preparar experimentos con un modelo más pequeño, antes de escalar al entrenamiento completo con H800. Esta precisión técnica se suma a las aclaraciones sobre el acceso de DeepSeek a hardware de Nvidia en medio de restricciones internacionales.
En junio, funcionarios estadounidenses reportaron que la compañía tenía acceso a chips H100 tras las limitaciones impuestas en 2022. Nvidia respondió que DeepSeek utilizó de manera legal H800, mientras que la empresa reconoció haber usado A100 únicamente en fases preparatorias de investigación.
Infraestructura y talento especializado
De acuerdo con reportes previos, la capacidad de DeepSeek para atraer especialistas destacados en China estuvo vinculada al acceso a un clúster de supercomputación A100, infraestructura poco común en el país. Este recurso habría permitido iniciar sus investigaciones y avanzar en el desarrollo del modelo R1.
El artículo en Nature también destacó que una de las características principales del modelo es su orientación al razonamiento, lo que lo diferencia de otros sistemas enfocados en la generación de texto.
Descubre más desde
Suscríbete y recibe las últimas entradas en tu correo electrónico.









