¡Explosión en febrero! La cantidad de llamadas a IA en China supera por primera vez a Estados Unidos. Cuatro grandes modelos dominan los primeros cinco lugares a nivel mundial. La demanda de potencia de cálculo nacional está experimentando un crecimiento exponencial.
En febrero, la cantidad de llamadas a modelos de IA en China explotó, superando por primera vez a Estados Unidos.
Según la plataforma de agregación de APIs de modelos de IA más grande del mundo, OpenRouter, del 9 al 15 de ese mes, los modelos chinos registraron un volumen de llamadas de 4.12 billones de Tokens, superando por primera vez a los modelos estadounidenses en ese período, con 2.94 billones de Tokens.
La semana del 16 al 22, el volumen semanal de llamadas a modelos chinos aumentó aún más, alcanzando 5.16 billones de Tokens, un aumento del 127% en tres semanas, mientras que el volumen de llamadas a modelos estadounidenses cayó a 2.7 billones de Tokens. Al mismo tiempo, entre los cinco modelos con mayor volumen de llamadas a nivel mundial, cuatro son chinos. Este fuerte impulso no depende de un solo producto estrella, sino del ascenso conjunto de los fabricantes de IA en China.
Un Token es la unidad mínima que un modelo de IA utiliza para procesar texto. En comparación con el número de usuarios, el volumen de llamadas a Tokens refleja de manera más precisa la intensidad de uso, la fidelidad del usuario y el valor comercial del modelo de IA.
Los fabricantes de modelos de IA en China están conquistando el mercado global mediante rápidas iteraciones y ventajas de costos, y la demanda de capacidad de cálculo nacional está experimentando un crecimiento exponencial.
Reorganización en el ranking: los Tokens chinos superan a los estadounidenses, cuatro grandes modelos dominan
La plataforma OpenRouter reúne cientos de grandes modelos de lenguaje en todo el mundo y cuenta con más de 5 millones de desarrolladores, siendo actualmente la mayor plataforma de agregación de APIs de modelos de IA a nivel global. Por ello, sus datos de llamadas a APIs se consideran un reflejo muy fiel de las tendencias de implementación de IA en todo el mundo, ya que muestran directamente las preferencias de los desarrolladores y la popularidad y competitividad de los modelos en aplicaciones reales.
Es importante destacar que la mayoría de los usuarios de esta plataforma son desarrolladores extranjeros, de los cuales el 47.17% son de EE. UU., mientras que los desarrolladores chinos representan solo el 6.01%, lo que hace que los datos del ranking reflejen de manera más objetiva la verdadera atracción de los modelos de IA chinos a nivel global.
Un periodista de Daily Economic News (en adelante, cada vez) analizó los datos de OpenRouter y encontró que el crecimiento explosivo en el volumen de Tokens de modelos globales en el último año ha sido sorprendente. La semana del 3 al 9 de marzo de 2025, los diez principales modelos en esa plataforma tuvieron un volumen semanal de solo 1.24 billones de Tokens. Para mediados de febrero de 2026, esa cifra se disparó a 13.95 billones de Tokens, más de 10 veces en menos de un año.
En 2025, los modelos estadounidenses fueron la principal fuerza motriz del crecimiento del mercado, con casi el 70% del volumen total de llamadas a los diez principales modelos en esa semana, mientras que los modelos chinos representaron menos del 20%. Sin embargo, a partir de 2026, la velocidad de crecimiento de los modelos estadounidenses empezó a desacelerar, mientras que los modelos chinos entraron en una fase de “auge”.
Los datos muestran que en la primera semana de febrero de 2026 (del 2 al 8), el volumen semanal de llamadas a modelos chinos alcanzó los 2.27 billones de Tokens, enviando una señal clara de avance.
Solo una semana después, en la semana del 9 al 15 de febrero, los modelos chinos lograron un volumen de llamadas de 4.12 billones de Tokens, superando por primera vez a los modelos estadounidenses en ese período, con 2.94 billones, logrando un hito histórico.
Este impulso no se detuvo, y en la semana del 16 al 22 de febrero, el volumen semanal de llamadas a modelos chinos subió aún más, a 5.16 billones de Tokens, con un crecimiento del 127% en tres semanas, ampliando aún más su ventaja.
Este fuerte impulso no depende de un solo producto estrella, sino del ascenso conjunto de los fabricantes de IA en China.
La semana del 16 al 22 de febrero de 2026 muestra que cuatro de los cinco modelos con mayor volumen de llamadas en la plataforma son de fabricantes chinos: M2.5 de MiniMax, Kimi K2.5 de Yue Zhi An Mian, GLM-5 de Zhi Pu y V3.2 de DeepSeek. Estos cuatro modelos aportaron en conjunto el 85.7% del volumen total de los Top 5.
En concreto, el modelo M2.5 de MiniMax, lanzado el 13 de febrero de 2026, alcanzó rápidamente la cima en volumen semanal en menos de una semana. En la semana del 9 al 15 de febrero, de los 3.21 billones de Tokens en total en OpenRouter, solo M2.5 aportó 1.44 billones de Tokens, una cantidad sorprendente.
El modelo Kimi K2.5 de Yue Zhi An Mian, lanzado el 27 de enero, ha logrado un crecimiento continuo en llamadas gracias a su arquitectura multimodal nativa y su potente capacidad de procesamiento paralelo de agentes. Puede gestionar hasta 100 “agentes” en paralelo, aumentando la eficiencia en tareas complejas de 3 a 10 veces. Según informes, en menos de un mes desde su lanzamiento, los ingresos acumulados de Kimi superaron el total de ingresos del año 2025, impulsados por un aumento en usuarios pagos globales y llamadas a API.
El modelo insignia GLM-5 de Zhi Pu, lanzado el 12 de febrero, con su ventana de contexto de 200K y optimizaciones para tareas de agentes a largo plazo, experimentó un crecimiento rápido en su base de usuarios, alcanzando en su primera semana un volumen de 0.8 billones de Tokens.
En el último año, aunque el modelo de Alibaba Qianwen no aparece con frecuencia en los rankings, un informe conjunto de a16z y OpenRouter indica que su serie completa de modelos tiene un volumen total de llamadas de 5.59 billones de Tokens, ubicándose en segundo lugar a nivel mundial, solo por detrás de DeepSeek con 14.37 billones.
Un informe de Frost & Sullivan revela que en el mercado B2B de grandes modelos en China, en la segunda mitad de 2025, la serie Qwen representó el 32.1% de las llamadas diarias de Tokens, casi duplicando el 17.7% del primer semestre, y ampliando su ventaja sobre ByteDance Doubao (21.3%) y DeepSeek (18.4%).
Sobre la estructura del mercado de grandes modelos de IA en China, el profesor Hu Yanping, profesor distinguido de la Universidad de Finanzas y Economía de Shanghai, expresó en una entrevista a cada vez que existe una “alianza de IA en China”.
Él opina que una alta concentración en el mercado no siempre es buena, y que la formación de un amplio ecosistema tecnológico con varias empresas líderes, en lugar de unos pocos oligopolios, favorece la innovación competitiva y la construcción de talento, además de crear ventajas de grupo en la competencia entre EE. UU. y China.
El socio de la firma de capital riesgo Andreessen Horowitz (a16z), Martin Casado, observó que en Silicon Valley, el 80% de los modelos utilizados en las presentaciones de startups de IA son modelos de código abierto chinos.
¿Por qué los Tokens chinos son más baratos?
La razón principal por la que los modelos chinos han conquistado rápidamente a desarrolladores en todo el mundo, además de su rendimiento comparable o superior a los modelos internacionales de élite, es su competitividad en costos, que es indiscutible.
Por ejemplo, en los precios publicados por OpenRouter, los costos de los modelos chinos son claramente ventajosos.
En la etapa de procesamiento de entrada (Input), MiniMax M2.5 y Zhi Pu GLM-5 cuestan 0.3 dólares por millón de Tokens. En comparación, el producto estadounidense Claude Opus4.6 cuesta hasta 5 dólares por millón de Tokens, aproximadamente 16.7 veces más caro.
En la generación de contenido (Output), la diferencia de costos es aún mayor. MiniMax M2.5 cuesta 1.1 dólares por millón de Tokens, Zhi Pu GLM-5 2.55 dólares, mientras que Claude Opus4.6 llega a 25 dólares, casi 23 veces y 10 veces más caro, respectivamente.
Estas enormes diferencias en costos influyen directamente en las decisiones económicas de los desarrolladores al elegir APIs.
Esta diferencia significativa en costos se debe principalmente a innovaciones en la arquitectura algorítmica.
El director de Frost & Sullivan en China, Li Qing, explicó en una entrevista que la arquitectura “Mixture-of-Experts” (MoE) es una de las principales razones por las que los modelos chinos pueden reducir drásticamente los costos de inferencia. Actualmente, modelos en la lista como DeepSeek y Alibaba Tongyi Qianwen 3.5-Plus ya adoptan ampliamente la arquitectura MoE.
La clave de la arquitectura MoE radica en dividir un modelo grande en múltiples “expertos” más pequeños y un “controlador” que decide qué expertos activar según la tarea. Aunque el modelo total puede tener miles de millones de parámetros, el controlador evalúa la tarea y activa solo una parte relevante, reduciendo significativamente el uso de memoria y recursos computacionales. Datos muestran que el uso de MoE puede reducir en un 60% la memoria durante la inferencia y aumentar hasta 19 veces la capacidad de procesamiento por unidad de tiempo. Esta eficiencia en costos proviene de la innovación técnica en la raíz del diseño.
Además, los fabricantes chinos están explorando activamente la integración vertical para reducir aún más los costos por Token. La idea central es integrar profundamente el diseño del modelo, la infraestructura en la nube y los chips de IA, optimizando la compatibilidad entre hardware y software, y maximizando el uso de recursos de cálculo.
Li Qing ejemplificó con el sistema “Tongyi-Cloud-Chip” de Alibaba, que mediante una integración vertical de arriba hacia abajo, puede aprovechar al máximo los recursos hardware mediante algoritmos de gestión de recursos, reduciendo significativamente los costos de infraestructura. Esta optimización a nivel de sistema permite reducir aún más el costo de generación de Tokens.
JPMorgan en su informe pronostica un crecimiento compuesto anual del 330% en el consumo de Tokens en China entre 2025 y 2030, logrando un aumento de 370 veces en solo cinco años.
Transformación de valor: los Tokens dejan de ser “tráfico” en internet para convertirse en “combustible” en la era de la IA
El aumento exponencial en el consumo de Tokens parece reflejar solo el crecimiento en usuarios y uso, pero en realidad responde a un cambio profundo en el modo en que se usa la IA. La IA pasa de ser una herramienta de preguntas y respuestas para tareas simples a un “herramienta de productividad” capaz de participar en flujos de trabajo y tareas complejas.
Un informe reciente de China Merchants Securities introduce el concepto de “inflación de Tokens”. Esto no significa que los Tokens se vuelvan más caros, sino que su consumo por usuario en un período de tiempo aumenta estructuralmente. La razón, según el informe, se atribuye a tres tendencias principales:
Primero, la demanda principal de los usuarios pasa de “preguntar” a “hacer”, usando cada vez más IA para reescribir código, modificar archivos, generar documentos y realizar pruebas, tareas que consumen muchos Tokens.
Segundo, la aparición y popularización de la tecnología de Agentes de IA amplifica el consumo de Tokens. Los agentes planifican, buscan, ejecutan y reflexionan, llamando al modelo varias veces, acumulando consumo paso a paso.
Tercero, el aumento en la intensidad de inferencia, con más pensamiento profundo y razonamiento en cadena, incrementa significativamente el consumo de Tokens en la generación de salidas y procesos intermedios. Para los desarrolladores, esto suele traducirse en mayores tasas de éxito y menos retrabajo, y los usuarios están dispuestos a invertir más Tokens para ganar en eficiencia.
Estos cambios indican que los Tokens ya no son un “tráfico” de costo marginal casi cero en internet, sino un “combustible” esencial para realizar tareas productivas.
Esta tendencia coincide con las predicciones de los principales fabricantes de chips del mundo. El CEO de Nvidia, Jensen Huang, reiteró en la llamada de resultados del 26 de febrero que: “El cálculo es ingreso”, “La inferencia es ingreso”. Sin cálculo, no hay Tokens; sin Tokens, no hay crecimiento en ingresos. En la era de la IA, el rendimiento en inferencia determina directamente la capacidad de ingresos del cliente, y la clave está en generar Tokens comercializables de manera eficiente. En un contexto de creciente limitación de energía en centros de datos, “rendimiento por vatio” se ha convertido en un indicador clave de eficiencia y potencial de ingresos en IA.
Li Qing expresó a cada vez que el modelo de negocio de los servicios de IA evoluciona de un simple “pago por uso” a un esquema híbrido de “combustible + resultados”. Por un lado, el precio del Token como “combustible” seguirá bajando con avances tecnológicos y economías de escala; por otro, a medida que la IA pase de ser una herramienta de preguntas a una herramienta de productividad, las empresas estarán más dispuestas a pagar por resultados directos, impulsando modelos comerciales basados en suscripción.
Li Qing también predice que en el futuro, los precios de los servicios de IA serán cada vez más personalizados y flexibles. La llegada de la era de los Agentes, con tareas de diferentes niveles de complejidad, hará que un único esquema de precios no sea suficiente. Factores como el consumo de cálculo, la frecuencia de llamadas y si la tarea requiere razonamiento o planificación en múltiples pasos influirán en la fijación de precios, y un sistema de precios multidimensional y dinámico será la tendencia principal.
(Artículo original: Daily Economic News)
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
¡Explosión en febrero! La cantidad de llamadas a IA en China supera por primera vez a Estados Unidos. Cuatro grandes modelos dominan los primeros cinco lugares a nivel mundial. La demanda de potencia de cálculo nacional está experimentando un crecimiento exponencial.
En febrero, la cantidad de llamadas a modelos de IA en China explotó, superando por primera vez a Estados Unidos.
Según la plataforma de agregación de APIs de modelos de IA más grande del mundo, OpenRouter, del 9 al 15 de ese mes, los modelos chinos registraron un volumen de llamadas de 4.12 billones de Tokens, superando por primera vez a los modelos estadounidenses en ese período, con 2.94 billones de Tokens.
La semana del 16 al 22, el volumen semanal de llamadas a modelos chinos aumentó aún más, alcanzando 5.16 billones de Tokens, un aumento del 127% en tres semanas, mientras que el volumen de llamadas a modelos estadounidenses cayó a 2.7 billones de Tokens. Al mismo tiempo, entre los cinco modelos con mayor volumen de llamadas a nivel mundial, cuatro son chinos. Este fuerte impulso no depende de un solo producto estrella, sino del ascenso conjunto de los fabricantes de IA en China.
Un Token es la unidad mínima que un modelo de IA utiliza para procesar texto. En comparación con el número de usuarios, el volumen de llamadas a Tokens refleja de manera más precisa la intensidad de uso, la fidelidad del usuario y el valor comercial del modelo de IA.
Los fabricantes de modelos de IA en China están conquistando el mercado global mediante rápidas iteraciones y ventajas de costos, y la demanda de capacidad de cálculo nacional está experimentando un crecimiento exponencial.
Reorganización en el ranking: los Tokens chinos superan a los estadounidenses, cuatro grandes modelos dominan
La plataforma OpenRouter reúne cientos de grandes modelos de lenguaje en todo el mundo y cuenta con más de 5 millones de desarrolladores, siendo actualmente la mayor plataforma de agregación de APIs de modelos de IA a nivel global. Por ello, sus datos de llamadas a APIs se consideran un reflejo muy fiel de las tendencias de implementación de IA en todo el mundo, ya que muestran directamente las preferencias de los desarrolladores y la popularidad y competitividad de los modelos en aplicaciones reales.
Es importante destacar que la mayoría de los usuarios de esta plataforma son desarrolladores extranjeros, de los cuales el 47.17% son de EE. UU., mientras que los desarrolladores chinos representan solo el 6.01%, lo que hace que los datos del ranking reflejen de manera más objetiva la verdadera atracción de los modelos de IA chinos a nivel global.
Un periodista de Daily Economic News (en adelante, cada vez) analizó los datos de OpenRouter y encontró que el crecimiento explosivo en el volumen de Tokens de modelos globales en el último año ha sido sorprendente. La semana del 3 al 9 de marzo de 2025, los diez principales modelos en esa plataforma tuvieron un volumen semanal de solo 1.24 billones de Tokens. Para mediados de febrero de 2026, esa cifra se disparó a 13.95 billones de Tokens, más de 10 veces en menos de un año.
En 2025, los modelos estadounidenses fueron la principal fuerza motriz del crecimiento del mercado, con casi el 70% del volumen total de llamadas a los diez principales modelos en esa semana, mientras que los modelos chinos representaron menos del 20%. Sin embargo, a partir de 2026, la velocidad de crecimiento de los modelos estadounidenses empezó a desacelerar, mientras que los modelos chinos entraron en una fase de “auge”.
Los datos muestran que en la primera semana de febrero de 2026 (del 2 al 8), el volumen semanal de llamadas a modelos chinos alcanzó los 2.27 billones de Tokens, enviando una señal clara de avance.
Solo una semana después, en la semana del 9 al 15 de febrero, los modelos chinos lograron un volumen de llamadas de 4.12 billones de Tokens, superando por primera vez a los modelos estadounidenses en ese período, con 2.94 billones, logrando un hito histórico.
Este impulso no se detuvo, y en la semana del 16 al 22 de febrero, el volumen semanal de llamadas a modelos chinos subió aún más, a 5.16 billones de Tokens, con un crecimiento del 127% en tres semanas, ampliando aún más su ventaja.
Este fuerte impulso no depende de un solo producto estrella, sino del ascenso conjunto de los fabricantes de IA en China.
La semana del 16 al 22 de febrero de 2026 muestra que cuatro de los cinco modelos con mayor volumen de llamadas en la plataforma son de fabricantes chinos: M2.5 de MiniMax, Kimi K2.5 de Yue Zhi An Mian, GLM-5 de Zhi Pu y V3.2 de DeepSeek. Estos cuatro modelos aportaron en conjunto el 85.7% del volumen total de los Top 5.
En concreto, el modelo M2.5 de MiniMax, lanzado el 13 de febrero de 2026, alcanzó rápidamente la cima en volumen semanal en menos de una semana. En la semana del 9 al 15 de febrero, de los 3.21 billones de Tokens en total en OpenRouter, solo M2.5 aportó 1.44 billones de Tokens, una cantidad sorprendente.
El modelo Kimi K2.5 de Yue Zhi An Mian, lanzado el 27 de enero, ha logrado un crecimiento continuo en llamadas gracias a su arquitectura multimodal nativa y su potente capacidad de procesamiento paralelo de agentes. Puede gestionar hasta 100 “agentes” en paralelo, aumentando la eficiencia en tareas complejas de 3 a 10 veces. Según informes, en menos de un mes desde su lanzamiento, los ingresos acumulados de Kimi superaron el total de ingresos del año 2025, impulsados por un aumento en usuarios pagos globales y llamadas a API.
El modelo insignia GLM-5 de Zhi Pu, lanzado el 12 de febrero, con su ventana de contexto de 200K y optimizaciones para tareas de agentes a largo plazo, experimentó un crecimiento rápido en su base de usuarios, alcanzando en su primera semana un volumen de 0.8 billones de Tokens.
En el último año, aunque el modelo de Alibaba Qianwen no aparece con frecuencia en los rankings, un informe conjunto de a16z y OpenRouter indica que su serie completa de modelos tiene un volumen total de llamadas de 5.59 billones de Tokens, ubicándose en segundo lugar a nivel mundial, solo por detrás de DeepSeek con 14.37 billones.
Un informe de Frost & Sullivan revela que en el mercado B2B de grandes modelos en China, en la segunda mitad de 2025, la serie Qwen representó el 32.1% de las llamadas diarias de Tokens, casi duplicando el 17.7% del primer semestre, y ampliando su ventaja sobre ByteDance Doubao (21.3%) y DeepSeek (18.4%).
Sobre la estructura del mercado de grandes modelos de IA en China, el profesor Hu Yanping, profesor distinguido de la Universidad de Finanzas y Economía de Shanghai, expresó en una entrevista a cada vez que existe una “alianza de IA en China”.
Él opina que una alta concentración en el mercado no siempre es buena, y que la formación de un amplio ecosistema tecnológico con varias empresas líderes, en lugar de unos pocos oligopolios, favorece la innovación competitiva y la construcción de talento, además de crear ventajas de grupo en la competencia entre EE. UU. y China.
El socio de la firma de capital riesgo Andreessen Horowitz (a16z), Martin Casado, observó que en Silicon Valley, el 80% de los modelos utilizados en las presentaciones de startups de IA son modelos de código abierto chinos.
¿Por qué los Tokens chinos son más baratos?
La razón principal por la que los modelos chinos han conquistado rápidamente a desarrolladores en todo el mundo, además de su rendimiento comparable o superior a los modelos internacionales de élite, es su competitividad en costos, que es indiscutible.
Por ejemplo, en los precios publicados por OpenRouter, los costos de los modelos chinos son claramente ventajosos.
En la etapa de procesamiento de entrada (Input), MiniMax M2.5 y Zhi Pu GLM-5 cuestan 0.3 dólares por millón de Tokens. En comparación, el producto estadounidense Claude Opus4.6 cuesta hasta 5 dólares por millón de Tokens, aproximadamente 16.7 veces más caro.
En la generación de contenido (Output), la diferencia de costos es aún mayor. MiniMax M2.5 cuesta 1.1 dólares por millón de Tokens, Zhi Pu GLM-5 2.55 dólares, mientras que Claude Opus4.6 llega a 25 dólares, casi 23 veces y 10 veces más caro, respectivamente.
Estas enormes diferencias en costos influyen directamente en las decisiones económicas de los desarrolladores al elegir APIs.
Esta diferencia significativa en costos se debe principalmente a innovaciones en la arquitectura algorítmica.
El director de Frost & Sullivan en China, Li Qing, explicó en una entrevista que la arquitectura “Mixture-of-Experts” (MoE) es una de las principales razones por las que los modelos chinos pueden reducir drásticamente los costos de inferencia. Actualmente, modelos en la lista como DeepSeek y Alibaba Tongyi Qianwen 3.5-Plus ya adoptan ampliamente la arquitectura MoE.
La clave de la arquitectura MoE radica en dividir un modelo grande en múltiples “expertos” más pequeños y un “controlador” que decide qué expertos activar según la tarea. Aunque el modelo total puede tener miles de millones de parámetros, el controlador evalúa la tarea y activa solo una parte relevante, reduciendo significativamente el uso de memoria y recursos computacionales. Datos muestran que el uso de MoE puede reducir en un 60% la memoria durante la inferencia y aumentar hasta 19 veces la capacidad de procesamiento por unidad de tiempo. Esta eficiencia en costos proviene de la innovación técnica en la raíz del diseño.
Además, los fabricantes chinos están explorando activamente la integración vertical para reducir aún más los costos por Token. La idea central es integrar profundamente el diseño del modelo, la infraestructura en la nube y los chips de IA, optimizando la compatibilidad entre hardware y software, y maximizando el uso de recursos de cálculo.
Li Qing ejemplificó con el sistema “Tongyi-Cloud-Chip” de Alibaba, que mediante una integración vertical de arriba hacia abajo, puede aprovechar al máximo los recursos hardware mediante algoritmos de gestión de recursos, reduciendo significativamente los costos de infraestructura. Esta optimización a nivel de sistema permite reducir aún más el costo de generación de Tokens.
JPMorgan en su informe pronostica un crecimiento compuesto anual del 330% en el consumo de Tokens en China entre 2025 y 2030, logrando un aumento de 370 veces en solo cinco años.
Transformación de valor: los Tokens dejan de ser “tráfico” en internet para convertirse en “combustible” en la era de la IA
El aumento exponencial en el consumo de Tokens parece reflejar solo el crecimiento en usuarios y uso, pero en realidad responde a un cambio profundo en el modo en que se usa la IA. La IA pasa de ser una herramienta de preguntas y respuestas para tareas simples a un “herramienta de productividad” capaz de participar en flujos de trabajo y tareas complejas.
Un informe reciente de China Merchants Securities introduce el concepto de “inflación de Tokens”. Esto no significa que los Tokens se vuelvan más caros, sino que su consumo por usuario en un período de tiempo aumenta estructuralmente. La razón, según el informe, se atribuye a tres tendencias principales:
Primero, la demanda principal de los usuarios pasa de “preguntar” a “hacer”, usando cada vez más IA para reescribir código, modificar archivos, generar documentos y realizar pruebas, tareas que consumen muchos Tokens.
Segundo, la aparición y popularización de la tecnología de Agentes de IA amplifica el consumo de Tokens. Los agentes planifican, buscan, ejecutan y reflexionan, llamando al modelo varias veces, acumulando consumo paso a paso.
Tercero, el aumento en la intensidad de inferencia, con más pensamiento profundo y razonamiento en cadena, incrementa significativamente el consumo de Tokens en la generación de salidas y procesos intermedios. Para los desarrolladores, esto suele traducirse en mayores tasas de éxito y menos retrabajo, y los usuarios están dispuestos a invertir más Tokens para ganar en eficiencia.
Estos cambios indican que los Tokens ya no son un “tráfico” de costo marginal casi cero en internet, sino un “combustible” esencial para realizar tareas productivas.
Esta tendencia coincide con las predicciones de los principales fabricantes de chips del mundo. El CEO de Nvidia, Jensen Huang, reiteró en la llamada de resultados del 26 de febrero que: “El cálculo es ingreso”, “La inferencia es ingreso”. Sin cálculo, no hay Tokens; sin Tokens, no hay crecimiento en ingresos. En la era de la IA, el rendimiento en inferencia determina directamente la capacidad de ingresos del cliente, y la clave está en generar Tokens comercializables de manera eficiente. En un contexto de creciente limitación de energía en centros de datos, “rendimiento por vatio” se ha convertido en un indicador clave de eficiencia y potencial de ingresos en IA.
Li Qing expresó a cada vez que el modelo de negocio de los servicios de IA evoluciona de un simple “pago por uso” a un esquema híbrido de “combustible + resultados”. Por un lado, el precio del Token como “combustible” seguirá bajando con avances tecnológicos y economías de escala; por otro, a medida que la IA pase de ser una herramienta de preguntas a una herramienta de productividad, las empresas estarán más dispuestas a pagar por resultados directos, impulsando modelos comerciales basados en suscripción.
Li Qing también predice que en el futuro, los precios de los servicios de IA serán cada vez más personalizados y flexibles. La llegada de la era de los Agentes, con tareas de diferentes niveles de complejidad, hará que un único esquema de precios no sea suficiente. Factores como el consumo de cálculo, la frecuencia de llamadas y si la tarea requiere razonamiento o planificación en múltiples pasos influirán en la fijación de precios, y un sistema de precios multidimensional y dinámico será la tendencia principal.
(Artículo original: Daily Economic News)