En la segunda parte de la entrevista de Huang Renxun, él respondió de frente a la amenaza que representan las TPU y los ASIC para NVIDIA. Enfatizó que lo que hace NVIDIA no es un solo chip de IA, sino una plataforma de cómputo acelerado; lo central está en la integración de todo el ecosistema. Tal como en la guerra de chips entre EE. UU. y China, la competencia en IA no se trata de ganar o perder en un solo punto: lo que importa es si toda la pila tecnológica puede fortalecerse al mismo tiempo.
Ante la objeción de «en esencia, la IA es principalmente una gran cantidad de multiplicaciones de matrices; ¿por qué no dejar que una arquitectura más especializada tipo TPU lidere?», la respuesta de Huang Renxun es: la multiplicación de matrices es importante, pero no es todo lo que es la IA. Desde la nueva atención (attention) hasta la fusión de SSM híbrido, diffusion y autoregressive, pasando por la ejecución distribuida de modelos y las innovaciones de arquitectura, el avance de la IA suele provenir de innovaciones en algoritmos, no solo de empujar la Ley de Moore con hardware.
Dado que NVIDIA tiene mucho efectivo y además ya participó a fondo en infraestructura de IA y en la capa de modelos mediante inversiones en CoreWeave, Nebius, Nscale e incluso OpenAI, Anthropic, ¿por qué no simplemente se lanza a sí misma como proveedor de servicios en la nube? La respuesta de Huang Renxun vuelve a esa frase: hacer lo máximo que sea necesario y lo mínimo que no lo sea. Esto no entra en el ámbito de «si no lo hacemos nosotros, no lo hará nadie».
TPU y ASIC sí representan una amenaza, pero el campo de batalla de NVIDIA es más grande
Con respecto a la tendencia de Google TPU, AWS Trainium, e incluso OpenAI, Anthropic y otros grandes clientes que desarrollan internamente o adoptan aceleradores alternativos, Huang Renxun no mostró una postura defensiva; al contrario, en repetidas ocasiones volvió a centrar el foco en que «NVIDIA no hace un solo chip de IA, sino una plataforma de cómputo acelerado».
Afirmó que NVIDIA construye accelerated computing, no solo tensor processing. La IA, por supuesto, es una de las aplicaciones más importantes hoy en día, pero las GPU y CUDA que pueden manejar muchísimo más que solo IA: también incluyen dinámica molecular, dinámica de cromodinámica cuántica (QCD), procesamiento de datos, dinámica de fluidos, física de partículas, desarrollo de fármacos, generación de imágenes y diversos cómputos científicos. Esto hace que la presencia de mercado de NVIDIA sea, por naturaleza, más amplia que la de ASIC diseñados para una sola carga de trabajo específica.
Ante la objeción de «en esencia, la IA es principalmente una gran cantidad de multiplicaciones de matrices; ¿por qué no dejar que una arquitectura más especializada tipo TPU lidere?», la respuesta de Huang Renxun es:
La multiplicación de matrices es importante, pero no es todo lo que es la IA. Desde el nuevo mecanismo de atención hasta la fusión de SSM híbrido, diffusion y autoregressive, pasando por la ejecución distribuida de modelos y la innovación de arquitectura, el avance de la IA suele provenir de la innovación algorítmica, no solo de empujar la Ley de Moore hacia adelante con hardware.
Lo dijo de forma muy directa: si solo dependiera del escalado de los transistores, el aumento sería de alrededor de 25% cada año; pero desde Hopper hasta Blackwell, NVIDIA ha logrado saltos de eficiencia de 35 veces e incluso del orden de 50 veces, y eso no se debe a un simple proceso de fabricación, sino al diseño conjunto de modelos, algoritmos, red, memoria, arquitectura de sistemas y CUDA.
Por eso, Huang Renxun describe a NVIDIA como una «empresa de co-diseño extrema». No es solo que haga GPU: también modifica simultáneamente el diseño del procesador, las interconexiones, la red, las bibliotecas, los algoritmos y todo el sistema. Sin esa capa de CUDA, que es una pila altamente programable, es difícil materializar una optimización tan amplia a través de múltiples capas.
El valor de CUDA: base instalada, confianza y universalidad global
Cuando el presentador cuestiona: si los grandes clientes como OpenAI, Anthropic, Google y AWS ya saben escribir kernel por su cuenta y hacer optimizaciones en frameworks, ¿todavía tiene CUDA un foso defensivo tan fuerte? Huang Renxun respondió desde tres ángulos.
Primero, la integridad y la confiabilidad del ecosistema. NVIDIA puede brindar un gran soporte a nivel de base para frameworks como Triton, vLLM, SGLang, etc., de modo que los investigadores puedan construir sobre una base que ya ha sido suficientemente validada. Para los desarrolladores, lo peor no es equivocarse uno mismo al escribir, sino ni siquiera poder determinar si el error está en lo que uno hizo o si está en la plataforma subyacente. Una de las ventajas de CUDA es que ya ha sido «probada una y otra vez», hasta el punto de ser lo bastante confiable.
Segundo, la enorme base instalada. Huang Renxun fue directo: si eres desarrollador de frameworks o de modelos, lo que más quieres es una install base. No quieres que el software esté escrito solo para ti, sino que pueda ejecutarse en la mayor cantidad posible de máquinas. Desde A10, A100 hasta H100, H200, y de la nube al edge, de robots a estaciones de trabajo, CUDA está prácticamente en todas partes. Esta base de despliegue significa que, con una sola ronda de desarrollo, puedes cubrir una gran cantidad de sistemas a nivel global.
Tercero, la universalidad entre nubes y entre escenarios. Huang Renxun señaló que NVIDIA es una de las pocas plataformas de cómputo que puede existir simultáneamente en todos los entornos de nube principales y en escenarios on-prem. Para las empresas de IA, esto significa que no tienen que comprometerse demasiado pronto con un único proveedor de servicios en la nube, y es más fácil desplegar productos en distintos mercados y escenarios.
Dicho de otra manera, el valor de CUDA no es solo el «que la cadena de herramientas sea conveniente», sino que, al combinar la integridad del ecosistema, la base instalada global y la universalidad entre escenarios, forma una especie de volante que es difícil de mover fácilmente.
Alta rentabilidad bruta sin un impuesto por software, sino por «tokens producidos por cada vatio» y el costo total de tenencia
Ante las críticas de que NVIDIA puede mantener alta rentabilidad bruta en gran medida debido al monopolio de CUDA, y que si más clientes tuvieran la capacidad de escribir kernels por su cuenta y construir una pila de software alternativa, esa alta rentabilidad podría verse erosionada, la respuesta de Huang Renxun es muy confiada.
Señaló que dentro de NVIDIA el personal de apoyo de ingeniería que se destina a los principales laboratorios de IA es «increíblemente numeroso», porque las GPU no son tan fáciles de controlar como las CPU. Huang Renxun comparó CPU con un Cadillac: estable, fácil de usar y apto para que cualquiera lo maneje; y los aceleradores de NVIDIA se parecen más a un auto de Fórmula 1: en teoría cualquiera puede conducirlo, pero para exprimir el rendimiento hasta el límite se requiere una capacidad profesional muy alta.
NVIDIA también utiliza ampliamente IA para generar y optimizar sus propios kernels; por eso, al ajustar en conjunto con los clientes, a menudo puede mejorar en un 50%, en 2 veces e incluso en 3 veces el rendimiento de cierto modelo o stack. Para clientes que cuentan con grandes flotas de GPU, esa optimización es casi equivalente a duplicar los ingresos directamente.
Huang Renxun fue un paso más allá y sostuvo que la plataforma de NVIDIA tiene el mejor performance por TCO en todo el mundo, es decir, la mejor relación de eficiencia en el costo total de tenencia. Dijo que nadie puede demostrar realmente que TPU, Trainium u otras plataformas sean superiores a NVIDIA en costos y eficiencia en conjunto, y que en el mercado también faltan demostraciones públicas, confiables y comparables de forma positiva.
En su opinión, el éxito de NVIDIA no se debe a que los clientes estén atados a CUDA; se debe a que, con la misma energía y el mismo gasto de capital, puede producir la mayor cantidad de tokens y, a partir de eso, convertirlos en la mayor cantidad de ingresos. Para clientes que construyen centros de datos de nivel 1GW, lo más importante no es si un chip individual es o no caro, sino si todo el centro de datos puede generar el máximo ingreso. Mientras NVIDIA siga siendo la mejor globalmente en tokens per watt y perf per dollar, la alta rentabilidad bruta tiene su justificación.
¿Por qué NVIDIA no se convirtió en hyperscaler por sí misma?
Dado que NVIDIA tiene mucho efectivo y además ya participó a fondo en infraestructura de IA y en la capa de modelos mediante inversiones en CoreWeave, Nebius, Nscale e incluso OpenAI, Anthropic, ¿por qué no simplemente se lanzaría como proveedor de servicios en la nube?
La respuesta de Huang Renxun sigue volviendo a esa frase: «hacer lo máximo que sea necesario y lo mínimo que no lo sea».
Si NVIDIA no hiciera CUDA, NVLink, CUDA-X, bibliotecas de funciones de diversos ámbitos y plataformas de base, es muy probable que esas cosas simplemente no las hiciera nadie; por eso, NVIDIA tiene que hacerlas ella misma. Pero si se trata de un servicio en la nube, ya hay muchos en el mundo, y esto no entra en el ámbito de «si no lo hacemos nosotros, no lo hará nadie».
Sin embargo, cuando los nuevos proveedores de servicios de nube de IA aún son débiles y quizá necesiten que se les eche una mano para despegar, NVIDIA está dispuesta a proporcionar fondos, suministro y soporte técnico para ayudar a que este ecosistema crezca. Es decir, NVIDIA está dispuesta a impulsar el ecosystem, pero no quiere convertirse ella misma en financier ni hyperscaler.
En cuanto a invertir en compañías de modelos como OpenAI y Anthropic, Huang Renxun también admite que esto es en realidad un resultado de aprendizaje de los últimos años para NVIDIA. En el pasado, NVIDIA no se dio cuenta de que empresas de modelos fundacionales como OpenAI o Anthropic, en sus etapas tempranas, ni siquiera podían completar la densidad de capital requerida mediante un modelo tradicional de VC. Cuando finalmente lo comprendió de verdad, recién ahí se dio cuenta de que si tenía la oportunidad, podría haber apoyado antes.
Incluso señaló con franqueza que esto cuenta como uno de sus errores de juicio: «En ese momento no entendí profundamente que, si estas compañías no contaban con el apoyo de grandes empresas tecnológicas o de un nivel de capital similar, sería muy difícil que llegaran a existir». Ahora que NVIDIA tiene una escala mayor, también explicó que no volverá a cometer el mismo error.
El problema de China: el segmento más agudo de toda la conversación
La fase más intensa de defensa y contraataque de toda la entrevista se centró en China y las restricciones a la exportación de chips. La postura del presentador es que el cómputo de IA es un insumo de aporte directo para entrenar y desplegar modelos de alto riesgo: si China consigue más capacidad de cómputo avanzada, podría construir con más rapidez modelos capaces de realizar ataques de red, explotación de vulnerabilidades, etc., lo que constituiría un riesgo real para la seguridad nacional de EE. UU. y la seguridad de las empresas.
Huang Renxun no niega que la IA tenga riesgos, ni niega que EE. UU. deba seguir manteniendo el liderazgo; pero se opone firmemente a equiparar los chips de IA con materiales de armas nucleares o a una conclusión extrema del tipo «si vendemos un poco más, pasará algo».
Su argumento central tiene varios puntos.
Primero, él considera que China no es un vacío de cómputo. China tiene una enorme capacidad energética, capacidad de fabricación de chips, infraestructura de comunicaciones y de redes, y también una proporción enorme de talento en investigación de IA a nivel mundial. Según el relato de Huang Renxun, China no es «que no puede desarrollar IA si no consigue los chips de NVIDIA», sino «si no consigue lo mejor, usará lo propio y además se verá obligada a construir más rápido una pila tecnológica local».
Segundo, sostiene que el efecto secundario de las restricciones de exportación es obligar a los modelos open source de China, al ecosistema y a la industria de chips a acelerar su desvinculación de la pila tecnológica de EE. UU. Para él, ese es un riesgo que Estados Unidos debería temer más a largo plazo. Porque la IA no es solo modelos: también incluye la capa de chips, la capa de herramientas de desarrollo, la capa de ecosistema open source, la capa de aplicaciones, etc., toda la pila. Si EE. UU. sacrifica el impacto en el mercado chino de la industria de chips y de desarrolladores para proteger alguna capa, por ejemplo, una empresa de modelos en la frontera, a la larga podría hacer que EE. UU. pierda su posición en las guerras globales de estándares y de plataformas.
China es el segundo mayor mercado tecnológico del mundo y también uno de los mayores contribuyentes de software open source y modelos open source a nivel global. Si EE. UU. abandonara activamente ese mercado, equivaldría a empujar de manera activa a todo un grupo de desarrolladores hacia otra pila tecnológica. Esto no solo daña a NVIDIA; también daña a toda la industria tecnológica de EE. UU. y su seguridad nacional.
Tercero, recalca repetidamente que el mundo no es una deducción extrema de suma cero y sin límites. EE. UU. debería tener la mayor, la mejor y la más temprana capacidad de cómputo; en eso él está totalmente de acuerdo. Pero eso no significa que EE. UU. deba abandonar de manera activa el segundo mayor mercado del mundo, o describir la IA como un arma absoluta similar a algún concentrado de uranio. Para él, una narrativa excesivamente extrema no solo no ayuda a la formulación de políticas: también podría espantar talentos, debilitar la confianza de la industria y, finalmente, hacer que EE. UU. pierda su ventaja competitiva.
Incluso volvió este asunto al contexto de la política industrial interna: «Si por miedo, EE. UU. militariza en exceso la IA, también hará que más personas se resistan a invertir en software, ingeniería y campos relacionados». Para él, esa clase de políticas basadas en el miedo es una especie de «mentalidad de perdedores», en vez de la postura que debería tener un país que lidera una revolución tecnológica.
Lo que Huang Renxun realmente quiere decir es: «la carrera en IA no es una competencia de un solo punto; lo que hay que ver es si toda la pila tecnológica puede fortalecerse al mismo tiempo».
Este artículo, la entrevista más reciente de Huang Renxun (parte inferior): por qué no hace Hyperscaler por sí misma NVIDIA, aparece por primera vez en Cadena Noticias ABMedia.