DeepSeek retrasa modelo por chips Huawei Ascend
DeepSeek retrasa modelo por chips Huawei Ascend tras fallas en entrenamiento y opta por usar Nvidia para training mientras mantiene Ascend para inference, segun reportes y fuentes del sector.
DeepSeek pospuso el lanzamiento de su proximo gran modelo de IA tras múltiples intentos fallidos de entrenarlo sobre la plataforma Ascend de Huawei. De acuerdo con reportes recientes, la startup china fue alentada por reguladores a priorizar hardware domestico frente a alternativas de Nvidia, pero la fase de entrenamiento encontro cuellos de botella de estabilidad, madurez del software y conectividad entre chips. La compañía habria decidido completar el entrenamiento con GPUs de Nvidia y reservar Ascend para la etapa de inferencia, una combinacion hibrida que busca balancear rendimiento y presiones regulatorias. Fuente
La situación expone un dilema técnico y geopolítico: China impulsa la sustitución de tecnología de Estados Unidos, pero la ventana temporal para igualar el ecosistema CUDA y su pila de software —compiladores, bibliotecas, orquestación— sigue siendo estrecha. En paralelo, el calendario de producto de DeepSeek también se vio afectado por procesos de etiquetado de datos más extensos de lo previsto, un recordatorio de que el “costo de datos” compite con el “costo de cómputo” como factor determinante en los modelos de razonamiento de última generación.
Qué significa entrenar en Ascend hoy
Huawei comercializa su línea de aceleradores Ascend desde 2019, con versiones para centro de datos como Ascend 910/910B y para borde como Ascend 310. La propuesta técnica incluye núcleos DaVinci, alto ancho de banda de memoria y un stack propio (CANN/Ascend + herramientas de migración). Sin embargo, los equipos de I+D aún reportan “dolores de crecimiento” en el entrenamiento a gran escala: drivers, depuración distribuida y eficiencia de comunicación entre chips son áreas donde el ecosistema CUDA de Nvidia acumula más de una década de ventaja y una comunidad de desarrolladores masiva. Ficha histórica de Ascend
En clusters de entrenamiento, la interconexión entre aceleradores es crítica. Tecnologías como NVLink/NVSwitch y bibliotecas como NCCL sustentan el paralelismo de datos y de modelo con sincronizaciones frecuentes. En el caso de Ascend, las mejoras en conectividad y software han sido constantes, pero la madurez percibida por equipos que operan a escala de cientos o miles de aceleradores sigue por detrás. Para DeepSeek, esto se tradujo en inestabilidad de los runs prolongados, menor eficiencia de escalado y mayor esfuerzo de ingeniería para alcanzar throughput competitivo.
La decisión híbrida: Nvidia para training, Ascend para inference
Separar entrenamiento e inferencia en arquitecturas distintas no es inusual, pero exige disciplina de ingeniería: exportación del grafo, compatibilidad de operadores, cuantización, calibración y pruebas de regresión sobre el conjunto de tareas objetivo. La motivación es clara: si la relación costo/rendimiento de inferencia en Ascend es favorable y existen incentivos regulatorios para desplegarlo en producción, la compañía puede contener gastos de OPEX sin comprometer la calidad del modelo, siempre que los artefactos compilados y las rutas de optimización (kernel fusion, planificación de memoria, layout de tensores) sean estables en el entorno de ejecución.
El retraso de DeepSeek también llega en un mercado donde rivales locales iteran rápido. Alibaba presentó Qwen3 como evolución de su familia de modelos con mejoras en benchmarks de razonamiento, código y matemáticas, y con pesos abiertos en configuraciones densas y MoE. Para desarrolladores en China, la disponibilidad abierta de Qwen3 y su ecosistema de herramientas está reduciendo la fricción de adopción y aportando alternativas inmediatas a la espera de nuevos modelos de DeepSeek. Anuncio oficial de Qwen3
Contexto regulatorio y de suministro: H20, cuotas y acuerdos
El suministro de GPUs en China ha oscilado entre restricciones y excepciones. Nvidia introdujo H20 como variante compatible con reglas de exportación, con memoria HBM y un perfil pensado para mantener competitividad en inferencia bajo límites de rendimiento. Más recientemente, acuerdos con autoridades estadounidenses habrían reabierto el flujo de ventas del H20 bajo condiciones especiales, mientras Pekín presiona a actores locales para justificar compras y priorizar proveedores nacionales. Estos vaivenes condicionan las hojas de ruta: entrenar un modelo fundacional requiere meses de planificación de capacidad, firmware estable y una cadena de suministros predecible. Reuters
Implicaciones técnicas para el R2 (y para la competencia)
DeepSeek ganó notoriedad con R1 por su enfoque en razonamiento paso a paso y la relación costo/rendimiento de su entrenamiento. El siguiente salto —R2— previsiblemente combinará mejoras en el algoritmo de búsqueda de cadenas de pensamiento, curricula de datos y técnicas de gestión de contexto. Migrar o co-optimizar estas rutas en un stack distinto (Ascend) añade fricción: kernels críticos, operadores personalizados y planificadores necesitan equivalentes de alto rendimiento. Si la compañía termina consolidando inferencia en Ascend, el aprendizaje en producción (telemetría de prompts, latencia P95/P99, tasa de errores y “drift” de distribución) será clave para ajustar la configuración de compilación y el dimensionamiento de clústeres.
Para el resto del ecosistema chino de IA, el caso DeepSeek funciona como barómetro. La distancia ya no está solo en FLOPs teóricos; está en la cadena de herramientas, en bibliotecas de comunicación, en estabilidad de drivers y en la calidad del soporte a los ops de entrenamiento (checkpointing distribuido, recuperación de fallos, profiler unificado). Reducirla requerirá más que silicio: implica documentación exhaustiva, SDKs consistentes, y un programa agresivo de developer relations que simplifique la migración desde PyTorch+CUDA hacia compiladores y runtimes de Ascend.
Qué vigilar en las próximas semanas
Compatibilidad de inferencia: si DeepSeek certifica R2 sobre Ascend con latencias competitivas y sin regresiones de calidad, el despliegue en nubes locales podría acelerarse.
Herramientas y librerías: actualizaciones del stack de Huawei (compiladores, kernel fusion, depuración distribuida) que reduzcan la brecha con CUDA/NCCL serán indicativas de madurez.
Costos operativos: el TCO de inferencia (energía, refrigeración, densidad por rack) frente a alternativas Nvidia marcará la viabilidad de Ascend en producción a gran escala.
Ritmo de la competencia: la adopción de Qwen3 por parte de desarrolladores y empresas locales presiona a DeepSeek a llegar con un R2 que eleve el listón de razonamiento y eficiencia. Lectura relacionada: usuarios de ChatGPT y la transicion a nuevos modelos
En paralelo, informes técnicos independientes han desarmado varias iteraciones del 910B, ilustrando cambios de arquitectura y tamaño de die respecto al 910 original y apuntando a una agresiva evolución de la línea. Aun así, el rendimiento del stack completo depende de cómo convergen silicio, memoria, interconexión, compiladores y bibliotecas de alto nivel. Hasta que esa convergencia no entregue sessions de entrenamiento de varias semanas sin fallos y con escalado cercano al ideal, compañías como DeepSeek preferirán asegurar resultados en Nvidia y trasladar a Ascend solo cargas donde la estabilidad esté probada. Análisis técnico del 910B
El retraso no implica un retroceso definitivo para la autosuficiencia tecnológica en China. Más bien subraya el trecho entre una “paridad de silicio” y una “paridad de ecosistema”. Si Huawei logra atraer a más equipos a entrenar con éxito en Ascend —y no solo a inferir—, la dinámica del mercado podría girar rápidamente. Por ahora, la realidad operativa de DeepSeek muestra que el tiempo de ingeniería y la fiabilidad de las herramientas siguen siendo moneda dura en la carrera de la IA.