Huawei ha revelado que su nueva arquitectura CloudMatrix AI ha superado el rendimiento de los chips Nvidia H800 en pruebas internas realizadas con el modelo DeepSeek-R1. Esta afirmación, publicada en un detallado informe técnico junto a la startup SiliconFlow, posiciona a la firma china como un jugador clave en el desarrollo autónomo de hardware de inteligencia artificial.
“Una arquitectura de próxima generación que busca transformar las bases de la infraestructura de IA”, así describe Huawei su sistema CloudMatrix384. En un momento delicado para Huawei, esto puede ser un golpe muy fuerte sobre la mesa.
CloudMatrix384: arquitectura disruptiva
Esta plataforma está compuesta por 384 NPUs Ascend 910C y 192 CPUs Kunpeng, integradas en una topología peer-to-peer que sustituye la jerarquía tradicional por una interconexión directa mediante su Unified Bus de baja latencia. Esto permite asignar de forma dinámica los recursos de cómputo, red y memoria según demanda.
¿Por qué es importante?
La CloudMatrix384 está especialmente diseñada para modelos de lenguaje basados en arquitecturas Mixture-of-Experts, donde múltiples modelos trabajan simultáneamente. Esta flexibilidad es crucial para escalar cargas de trabajo como DeepSeek-R1, cuyo rendimiento exige infraestructuras distribuidas potentes.
Las cifras hablan por sí solas
Según Huawei:
- 6.688 tokens/segundo (prefill) y 1.943 tokens/segundo (decode) por unidad.
- Tiempo medio por token (TPOT): < 50 ms, permitiendo respuestas casi instantáneas.
- 538 tokens/segundo en condiciones de latencia estricta (<15 ms/token).
- 4,45 tokens/TFLOP (prefill) y 1,29 tokens/TFLOP (decode), superando la eficiencia de Nvidia H800 y H100, según sus propios datos.
Estas cifras implican una capacidad de procesamiento que, al menos teóricamente, supera lo que Nvidia ofrece actualmente con su H800.
Innovaciones técnicas destacadas
Huawei atribuye su rendimiento a tres pilares:
- Arquitectura peer-to-peer disgregada, con recursos de computación, memoria y red escalables por separado.
- Paralelismo experto a gran escala: hasta 320 expertos, cada uno ejecutado en una NPU independiente.
- Optimización basada en hardware, incluyendo microbatching, operadores ajustados y cuantificación en INT8, manteniendo la precisión del modelo.
¿Y qué hay del modelo?
Huawei asegura que, tras aplicar INT8, el rendimiento del modelo DeepSeek-R1 es comparable con el API oficial en 16 pruebas estándar. Aunque no hay verificación externa, se trata de un hito relevante en eficiencia sin sacrificar precisión.
Independencia tecnológica en marcha
En un entorno marcado por las sanciones comerciales impuestas por EE. UU., Huawei busca demostrar que China puede desarrollar chips de IA competitivos sin depender de tecnologías occidentales. Ren Zhengfei, fundador de la compañía, reconoce que sus chips aún están una generación por detrás, pero defiende que mediante agrupamientos inteligentes (clustering) y arquitectura distribuida, pueden igualar el rendimiento.
Incluso Jensen Huang, CEO de Nvidia, reconoció en una entrevista: “La IA es un problema paralelizable… si no puedes usar un chip potente, usa muchos”.
¿Confianza o cautela?
Aunque el artículo técnico es sólido y las cifras impresionan, la falta de validación externa impide confirmar una ventaja real sobre Nvidia. La industria tecnológica suele apoyarse en benchmarks estandarizados e independientes para avalar estas afirmaciones. Sin embargo, lo que sí puede afirmarse es que Huawei ha introducido un modelo innovador que podría tener implicaciones importantes en la forma en que diseñamos centros de datos de IA.
CloudMatrix AI no solo representa una posible ventaja competitiva sobre Nvidia para Huawei, sino que también simboliza la madurez del ecosistema tecnológico chino. Si las afirmaciones se validan, Huawei podría marcar un antes y un después en la arquitectura de hardware para IA.
¿Estamos ante el inicio de una nueva geografía tecnológica? El tiempo y la verificación independiente lo dirán.