La startup china DeepSeek lanzó las versiones preliminares de su nuevo modelo insignia de inteligencia artificial, V4 Flash y V4 Pro, posicionándose como un competidor directo de OpenAI, Google y Anthropic.
DeepSeek, la startup china con sede en Hangzhou, presentó las versiones preliminares de su nuevo modelo insignia de inteligencia artificial, denominado V4 Flash y V4 Pro, un año después de haber sacudido a Silicon Valley. La compañía calificó a esta serie como la plataforma de código abierto más poderosa, desafiando directamente a rivales como OpenAI y Anthropic PBC.
Según informó la empresa en la plataforma Hugging Face, los nuevos modelos destacan por su rendimiento de primer nivel en pruebas de programación y por grandes avances en tareas de razonamiento y agentes. Entre las innovaciones se incluye la Hybrid Attention Architecture, una técnica que mejora la capacidad de la IA para recordar consultas a lo largo de conversaciones extensas, y una ventana de contexto de 1 millón de tokens, que permite procesar bases de código completas o documentos largos como una sola instrucción.
El lanzamiento de la serie V4 llega más de un año después de que DeepSeek provocara una caída bursátil de 1 billón de dólares con el lanzamiento de R1, un modelo de código abierto que imitaba el proceso de razonamiento humano y competía con sistemas de última generación de OpenAI, pero a una fracción del costo. Este nuevo avance ha ejercido una enorme presión competitiva sobre sus rivales.
DeepSeek señaló que la capacidad de servicio para la serie V4 Pro es extremadamente limitada debido a la escasez de cómputo, pero espera que los precios del modelo caigan significativamente tras el lanzamiento, en el segundo semestre, de clústeres de computación impulsados por los chips Ascend 950 de Huawei Technologies Co. La startup también se encuentra en conversaciones con Tencent Holdings Ltd. y Alibaba Group Holding Ltd. para su primera ronda de financiación.
El sistema de 1 billón de parámetros de DeepSeek utiliza la técnica Mixture-of-Experts, que activa selectivamente solo un pequeño subconjunto de expertos, manteniendo los costos de inferencia muy por debajo de modelos comparables. La compañía destacó un rendimiento superior al de modelos como GPT-5.2 de OpenAI en pruebas estándar, aunque reconoció que el V4 está rezagado entre 3 y 6 meses respecto a los modelos más avanzados. Sin embargo, enfatizó que su objetivo no solo es maximizar capacidades, sino también reducir costos de manera fundamental.
El impacto de DeepSeek también se sintió en los mercados: las acciones de fabricantes chinos de chips subieron, con Semiconductor Manufacturing International Corp. avanzando hasta un 9,4% en Hong Kong y Hua Hong Semiconductor Ltd. más del 13%. Por otro lado, rivales como Knowledge Atlas Technology JSC Ltd. (Zhipu) cayeron un 8%.
Con la notoriedad también llegó el escrutinio. Líderes tecnológicos y funcionarios del gobierno estadounidense han acusado a DeepSeek de utilizar técnicas y hardware ilícitos para desarrollar sus modelos, en particular la llamada destilación, mediante la cual un modelo de IA se apoya en la salida de otro para entrenarse. Tanto OpenAI como Anthropic han señalado que detectaron este tipo de ataques por parte de DeepSeek.
