Recientemente, todo el mundo en el sector tecnológico y de inversiones está atento a lo mismo: cómo las aplicaciones de IA están «matando» al SaaS tradicional. Desde que @AnthropicAI mostró cómo Claude Cowork puede ayudarte fácilmente a redactar correos, hacer presentaciones o analizar hojas de Excel, una ola de pánico sobre «el software ha muerto» comenzó a extenderse. Es realmente aterrador, pero si solo miras aquí, podrías estar perdiéndote del verdadero gran terremoto.
Es como si todos miráramos hacia el cielo para la guerra aérea de drones, pero nadie nota que la placa continental bajo nuestros pies se está moviendo silenciosamente. La verdadera tormenta, oculta bajo la superficie, en un rincón que la mayoría no ve: la base de poder computacional que sostiene todo el mundo de la IA, está experimentando una «revolución silenciosa».
Y esta revolución podría hacer que el vendedor de la IA: Nvidia @nvidia, la gran fiesta que ha organizado, termine mucho antes de lo que todos imaginan.
Dos caminos revolucionarios que convergen
Esta revolución no es un evento único, sino que está formada por dos rutas tecnológicas aparentemente independientes que se entrelazan. Como dos fuerzas que rodean y presionan la hegemonía de las GPU de Nvidia.
El primero es la revolución de la optimización de algoritmos.
¿Alguna vez pensaste que un supercerebro, al pensar, realmente necesita activar todas las neuronas? Claramente no. DeepSeek entendió esto y desarrolló una arquitectura MoE (modelo de expertos híbridos).
Puedes imaginarlo como una empresa que tiene cientos de expertos en diferentes áreas. Pero cada vez que hay una reunión para resolver un problema, solo necesitas llamar a dos o tres de los más relevantes, en lugar de que todos hagan una tormenta de ideas. Esa es la inteligencia del MoE: permite que un modelo enorme, en cada cálculo, active solo una pequeña parte de los «expertos», ahorrando muchísimo poder computacional.
¿Y qué resultados obtiene? El modelo DeepSeek-V2, que en teoría tiene 236 mil millones de «expertos» (parámetros), solo activa 21 mil millones en cada tarea, menos del 10% del total. Y su rendimiento puede igualar al GPT-4, que requiere operar al 100%. ¿Qué significa esto? ¡La capacidad de la IA y el poder computacional que consume se han desacoplado!
Antes, todos asumíamos que cuanto más potente fuera la IA, más tarjetas gráficas quemaríamos. Ahora, DeepSeek nos muestra que, con algoritmos inteligentes, se puede lograr el mismo resultado con una décima parte del costo. Esto pone en duda la necesidad casi absoluta de las GPU de Nvidia.
El segundo camino es la revolución del «cambio de carril» en hardware.
El trabajo de la IA se divide en dos fases: entrenamiento y inferencia. El entrenamiento es como ir a la escuela, donde hay que leer miles de libros; en ese momento, las GPU, con su capacidad de cálculo paralelo «extraordinario», son ideales. Pero la inferencia, que es lo que usamos en la vida diaria, requiere rapidez en la respuesta.
Las GPU tienen una limitación natural en la inferencia: su memoria (HBM) es externa, lo que genera latencia en el intercambio de datos. Es como un chef que tiene los ingredientes en la nevera del cuarto de al lado; cada vez que cocina, tiene que ir a buscar, y aunque sea rápido, no tanto. Empresas como Cerebras y Groq han diseñado chips especializados para inferencia, con memoria SRAM integrada en el chip, lo que permite acceso «sin latencia».
El mercado ya ha apostado con dinero real. OpenAI, que se queja de que las GPU de Nvidia no son ideales para inferencia, acaba de firmar un contrato de 10 mil millones de dólares con Cerebras para usar sus servicios de inferencia. Nvidia también está nerviosa y ha comprado Groq por 20 mil millones para no quedarse atrás en esta nueva carrera.
Cuando estos caminos se cruzan: una avalancha de costos
Ahora, combinemos estas dos cosas: un modelo DeepSeek «más delgado» gracias a MoE, corriendo en un chip Cerebras «sin latencia».
¿Qué pasará?
Una avalancha de costos.
Primero, el modelo optimizado es tan pequeño que puede caber entero en la memoria del chip. Segundo, sin la limitación de memoria externa, la velocidad de respuesta de la IA será asombrosa. El resultado final: los costos de entrenamiento, gracias a la arquitectura MoE, bajan un 90%, y los costos de inferencia, con hardware especializado y cálculo disperso, bajan aún más, en un orden de magnitud. En total, el costo de tener y operar una IA de nivel mundial podría ser solo entre el 10% y el 15% de lo que cuesta con las soluciones tradicionales de GPU.
Esto no es una simple mejora, sino un cambio de paradigma.
La posición de Nvidia, que parecía inamovible, está siendo silenciosamente despojada
Ahora deberías entender por qué esto es más peligroso que la «pánico de Cowork».
La valoración de Nvidia, que hoy en día alcanza varios billones, se basa en una historia sencilla: la IA es el futuro, y ese futuro depende de sus GPU. Pero ahora, los cimientos de esa historia están siendo sacudidos.
En el mercado de entrenamiento, aunque Nvidia siga monopolizando, si los clientes pueden hacer el trabajo con una décima parte de las tarjetas, el tamaño total del mercado podría reducirse drásticamente.
En el mercado de inferencia, que es diez veces más grande, Nvidia no solo no tiene ventaja absoluta, sino que enfrenta una ofensiva de empresas como Google, Cerebras y otras. Incluso su mayor cliente, OpenAI, está desertando.
Una vez que Wall Street se dé cuenta de que las «pico de la pala» de Nvidia ya no son la única opción, ni la mejor, ¿qué pasará con las valoraciones basadas en la expectativa de «monopolio permanente»? Creo que todos lo tienen claro.
Por eso, en los próximos seis meses, la mayor ave de rapiña negra no será que alguna aplicación de IA elimine a otra, sino una noticia tecnológica aparentemente insignificante: como un nuevo artículo sobre la eficiencia del algoritmo MoE, o un informe que muestre un aumento en la cuota de mercado de chips especializados para inferencia, que silenciosamente anuncie que la guerra por el poder computacional ha entrado en una nueva fase.
Cuando las «pico de la pala» de los vendedores de hardware ya no sean la única opción, su era dorada podría estar llegando a su fin.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
La próxima gran sacudida de la IA: ¿Por qué el peligro real no es el asesino de SaaS, sino la revolución del poder de cálculo?
Escritor: Bruce
Recientemente, todo el mundo en el sector tecnológico y de inversiones está atento a lo mismo: cómo las aplicaciones de IA están «matando» al SaaS tradicional. Desde que @AnthropicAI mostró cómo Claude Cowork puede ayudarte fácilmente a redactar correos, hacer presentaciones o analizar hojas de Excel, una ola de pánico sobre «el software ha muerto» comenzó a extenderse. Es realmente aterrador, pero si solo miras aquí, podrías estar perdiéndote del verdadero gran terremoto.
Es como si todos miráramos hacia el cielo para la guerra aérea de drones, pero nadie nota que la placa continental bajo nuestros pies se está moviendo silenciosamente. La verdadera tormenta, oculta bajo la superficie, en un rincón que la mayoría no ve: la base de poder computacional que sostiene todo el mundo de la IA, está experimentando una «revolución silenciosa».
Y esta revolución podría hacer que el vendedor de la IA: Nvidia @nvidia, la gran fiesta que ha organizado, termine mucho antes de lo que todos imaginan.
Dos caminos revolucionarios que convergen
Esta revolución no es un evento único, sino que está formada por dos rutas tecnológicas aparentemente independientes que se entrelazan. Como dos fuerzas que rodean y presionan la hegemonía de las GPU de Nvidia.
El primero es la revolución de la optimización de algoritmos.
¿Alguna vez pensaste que un supercerebro, al pensar, realmente necesita activar todas las neuronas? Claramente no. DeepSeek entendió esto y desarrolló una arquitectura MoE (modelo de expertos híbridos).
Puedes imaginarlo como una empresa que tiene cientos de expertos en diferentes áreas. Pero cada vez que hay una reunión para resolver un problema, solo necesitas llamar a dos o tres de los más relevantes, en lugar de que todos hagan una tormenta de ideas. Esa es la inteligencia del MoE: permite que un modelo enorme, en cada cálculo, active solo una pequeña parte de los «expertos», ahorrando muchísimo poder computacional.
¿Y qué resultados obtiene? El modelo DeepSeek-V2, que en teoría tiene 236 mil millones de «expertos» (parámetros), solo activa 21 mil millones en cada tarea, menos del 10% del total. Y su rendimiento puede igualar al GPT-4, que requiere operar al 100%. ¿Qué significa esto? ¡La capacidad de la IA y el poder computacional que consume se han desacoplado!
Antes, todos asumíamos que cuanto más potente fuera la IA, más tarjetas gráficas quemaríamos. Ahora, DeepSeek nos muestra que, con algoritmos inteligentes, se puede lograr el mismo resultado con una décima parte del costo. Esto pone en duda la necesidad casi absoluta de las GPU de Nvidia.
El segundo camino es la revolución del «cambio de carril» en hardware.
El trabajo de la IA se divide en dos fases: entrenamiento y inferencia. El entrenamiento es como ir a la escuela, donde hay que leer miles de libros; en ese momento, las GPU, con su capacidad de cálculo paralelo «extraordinario», son ideales. Pero la inferencia, que es lo que usamos en la vida diaria, requiere rapidez en la respuesta.
Las GPU tienen una limitación natural en la inferencia: su memoria (HBM) es externa, lo que genera latencia en el intercambio de datos. Es como un chef que tiene los ingredientes en la nevera del cuarto de al lado; cada vez que cocina, tiene que ir a buscar, y aunque sea rápido, no tanto. Empresas como Cerebras y Groq han diseñado chips especializados para inferencia, con memoria SRAM integrada en el chip, lo que permite acceso «sin latencia».
El mercado ya ha apostado con dinero real. OpenAI, que se queja de que las GPU de Nvidia no son ideales para inferencia, acaba de firmar un contrato de 10 mil millones de dólares con Cerebras para usar sus servicios de inferencia. Nvidia también está nerviosa y ha comprado Groq por 20 mil millones para no quedarse atrás en esta nueva carrera.
Cuando estos caminos se cruzan: una avalancha de costos
Ahora, combinemos estas dos cosas: un modelo DeepSeek «más delgado» gracias a MoE, corriendo en un chip Cerebras «sin latencia».
¿Qué pasará?
Una avalancha de costos.
Primero, el modelo optimizado es tan pequeño que puede caber entero en la memoria del chip. Segundo, sin la limitación de memoria externa, la velocidad de respuesta de la IA será asombrosa. El resultado final: los costos de entrenamiento, gracias a la arquitectura MoE, bajan un 90%, y los costos de inferencia, con hardware especializado y cálculo disperso, bajan aún más, en un orden de magnitud. En total, el costo de tener y operar una IA de nivel mundial podría ser solo entre el 10% y el 15% de lo que cuesta con las soluciones tradicionales de GPU.
Esto no es una simple mejora, sino un cambio de paradigma.
La posición de Nvidia, que parecía inamovible, está siendo silenciosamente despojada
Ahora deberías entender por qué esto es más peligroso que la «pánico de Cowork».
La valoración de Nvidia, que hoy en día alcanza varios billones, se basa en una historia sencilla: la IA es el futuro, y ese futuro depende de sus GPU. Pero ahora, los cimientos de esa historia están siendo sacudidos.
En el mercado de entrenamiento, aunque Nvidia siga monopolizando, si los clientes pueden hacer el trabajo con una décima parte de las tarjetas, el tamaño total del mercado podría reducirse drásticamente.
En el mercado de inferencia, que es diez veces más grande, Nvidia no solo no tiene ventaja absoluta, sino que enfrenta una ofensiva de empresas como Google, Cerebras y otras. Incluso su mayor cliente, OpenAI, está desertando.
Una vez que Wall Street se dé cuenta de que las «pico de la pala» de Nvidia ya no son la única opción, ni la mejor, ¿qué pasará con las valoraciones basadas en la expectativa de «monopolio permanente»? Creo que todos lo tienen claro.
Por eso, en los próximos seis meses, la mayor ave de rapiña negra no será que alguna aplicación de IA elimine a otra, sino una noticia tecnológica aparentemente insignificante: como un nuevo artículo sobre la eficiencia del algoritmo MoE, o un informe que muestre un aumento en la cuota de mercado de chips especializados para inferencia, que silenciosamente anuncie que la guerra por el poder computacional ha entrado en una nueva fase.
Cuando las «pico de la pala» de los vendedores de hardware ya no sean la única opción, su era dorada podría estar llegando a su fin.