¿Huawei Chip retrasa el lanzamiento de DeepSeek V4? El mismo núcleo logra casi el doble de velocidad en NVIDIA Ascend

Según la monitorización de Dongcha Beating, antes del lanzamiento de DeepSeek V4, hubo una especulación generalizada en la comunidad de que el lanzamiento se retrasó debido a dificultades para adaptar el modelo de NVIDIA a la plataforma Huawei Ascend. Aunque el informe técnico de V4 no abordó directamente este rumor, los datos de rendimiento divulgados lo contradicen significativamente. El informe muestra que el Esquema de Partición de Expertos de Granularidad Fina (Esquema EP de Granularidad Fina) ha sido implementado y validado con éxito tanto en GPUs de NVIDIA como en NPUs de Huawei Ascend, logrando una aceleración de 1.50 a 1.73 veces para cargas de inferencia regulares, y hasta 1.96 veces en escenarios sensibles a la latencia, como el despliegue de RL y servicios de agentes de alta velocidad. El equipo también ha lanzado como código abierto el núcleo MegaMoE en versión CUDA como parte de DeepGEMM. En otras palabras, V4 ha demostrado una eficiencia cercana a los límites teóricos en ambas plataformas de hardware, y la adaptación multiplataforma no ha resultado en pérdida de rendimiento.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado