Guolian Minsheng Securities: La demanda de tokens en medio de la "inflación" Observación a corto plazo de la mejora marginal impulsada por el aumento de precios y la demanda de los fabricantes de modelos a gran escala
La APP de Zhitong Finance ha sabido que, según un informe de investigación publicado por Guolian Minsheng Securities, la computación en la nube gradualmente se está convirtiendo en un “venta de recursos”, mientras que los fabricantes de grandes modelos se transforman en “vendedores de tokens y resultados”. La subida de precios del Plan de Codificación GLM de Zhitu (02513) refleja un cambio en la lógica de fijación de precios de la industria: cuando el razonamiento pasa a ser un insumo de producción, los fabricantes de modelos tienen la oportunidad de convertir la “escasez de poder de cómputo” en beneficios y flujo de caja mediante precios escalonados y productos por suscripción. Observando a corto plazo la mejora marginal impulsada por los aumentos de precios y la demanda (inflación de tokens), a mediano plazo el seguimiento de la participación de las empresas y la retención de suscripciones para renovar y expandir, y a largo plazo la adopción de herramientas de gobernanza que traerán un mercado adicional de “firewalls de IA”.
Las principales ideas de Guolian Minsheng Securities son las siguientes:
Evento: El 12 de febrero, Zhitu anunció en sus canales oficiales un aumento en el precio de suscripción del Plan de Codificación GLM, con un incremento “de al menos un 30%”.
Anteriormente, los proveedores de nube en el extranjero también aumentaron sus precios este mes, como Google Cloud, que elevó sus tarifas en Norteamérica en un 100%, y en Europa y Asia también se ajustaron al alza; al mismo tiempo, AWS aumentó sus precios en aproximadamente un 15%. En conjunto, la demanda de tokens por “inflación” no solo favorece la computación en la nube, sino que también otorga a los fabricantes de modelos mayor poder de negociación.
Rompiendo con la ruta gratuita tradicional de internet
La ruta típica del software en internet tradicional es primero ofrecerlo gratis para ampliar la base de usuarios, usando “cantidad y duración del usuario” para obtener poder de negociación, y luego monetizar a través de publicidad, suscripciones, servicios de valor añadido y comisiones por transacciones. La razón subyacente de la gratuidad es que el coste marginal es extremadamente bajo. Es decir, cada usuario adicional o clic adicional puede diluirse en el efecto de escala de ancho de banda y almacenamiento, acercándose a un coste marginal cercano a cero.
En la era de la computación en la nube también existió un esquema similar de “gratis/bajo costo para expandirse”, pero las unidades de facturación en la nube rápidamente se convirtieron en CPU, almacenamiento, ancho de banda y solicitudes, y los clientes se acostumbraron a pagar “por uso”. La nube puede cobrar porque entrega recursos claros y acuerdos de nivel de servicio (SLA). Sin embargo, cuando la industria aún está en una “guerra de precios de modelos”, Zhitu ha mostrado señales de aumento de precios, lo que indica que en la era de los grandes modelos, la unidad de medición pasa de ser tráfico (usuarios activos diarios/tiempo) a tokens (consumo en inferencia), y el consumo de tokens se vuelve una necesidad en cada vez más escenarios.
Cambios en la era de los grandes modelos: los tokens se convierten en “insumos de producción medibles”, dejando de ser “tráfico gratuito”
Los grandes modelos convierten servicios como “diálogo, codificación y generación de contenido”, que parecen ser ofrecidos por proveedores de software, en servicios de inferencia en línea que dependen fuertemente del poder de cómputo. Para los fabricantes de modelos, cada respuesta consume GPU, memoria, ancho de banda y electricidad; para los usuarios, cada vez que “hacen que el modelo piense más, escriban un código más largo o ejecuten una tarea más compleja”, implica un mayor consumo de tokens, que se convierte en la nueva unidad de medición. Zhitu, anteriormente, limitó la venta de su Coding Plan debido a un crecimiento de usuarios que generaba tensión en la capacidad de cómputo, lo que llevó a una “venta limitada”, formando un ciclo típico de oferta y demanda: aumento de demanda a corto plazo → restricción rígida de recursos (limitando flujo o cantidad) → aumento de precios.
Cuando ocurren picos de congestión y tensión en los recursos, el aumento de precios funciona como un mecanismo para filtrar la demanda, protegiendo mejor la experiencia del usuario que una simple limitación sin distinción. Además, los costos de los fabricantes de modelos siguen estrechamente relacionados con la oferta de GPU, la utilización y la optimización de inferencias. La subida de precios y una fijación de precios más racional en niveles escalonados pueden sacar a los fabricantes de modelos de la trampa de “cuanto mayor, peor la pérdida”, mejorando la rentabilidad y la calidad del flujo de caja.
La demanda de tokens en un contexto de “inflación”
La “inflación de tokens” no significa que los tokens en sí sean más caros, sino que la estructura del consumo de tokens por usuario en un período de tiempo aumenta de manera estructural. Las razones principales de este aumento en la demanda de tokens son:
De “preguntas y respuestas” a “trabajo real”: Hasta ahora, los usuarios ya no se conforman con respuestas simples, sino que quieren que el modelo reescriba código, modifique archivos, genere documentos y realice pruebas, entre otras tareas. Los escenarios de programación se caracterizan por “contexto largo, múltiples iteraciones y gran volumen de salida”, lo que implica un alto consumo de tokens. La declaración de Zhitu también confirma que los desarrolladores dependen de sus modelos para soporte de codificación, lo que acelera el crecimiento en el consumo de tokens.
De “una sola ronda” a “múltiples rondas con agentes”: Zhitu posiciona a GLM-5 como un modelo de nueva generación para escenarios de codificación y agentes; el 12 de febrero, MiniMax-WP (00100) lanzó su modelo de programación insignia M2.5, diseñado nativamente para escenarios de agentes, siendo el primer modelo de producción en el mundo para estos casos. La capacidad de M2.5 para programación y rendimiento de agentes (Coding & Agentic) se compara directamente con Claude Opus 4.6. Los agentes planifican, buscan, ejecutan y reflexionan activamente, realizando múltiples llamadas al modelo, lo que naturalmente aumenta el consumo de tokens paso a paso.
Aumento en la intensidad de inferencia: “Pensar más profundamente y realizar inferencias en cadenas más largas” incrementa significativamente el consumo de tokens en la salida y en los procesos intermedios. Para los desarrolladores, esto suele traducirse en mayores tasas de éxito y menos retrabajo, y los usuarios están dispuestos a “quemar más tokens a cambio de mayor eficiencia”.
Esto implica que los tokens dejan de ser un “tráfico” de coste marginal casi cero en internet tradicional, para convertirse en un “combustible” imprescindible en tareas de producción.
Recomendaciones de inversión
La computación en la nube se está transformando gradualmente en “venta de recursos”, mientras que los fabricantes de grandes modelos se convierten en “vendedores de tokens y resultados”. La subida de precios del Plan de Codificación GLM de Zhitu refleja un cambio en la lógica de fijación de precios de la industria: cuando el consumo en inferencia se convierte en un insumo de producción, los fabricantes de modelos tienen la oportunidad de transformar la “escasez de poder de cómputo” en beneficios y flujo de caja mediante precios escalonados y productos por suscripción. Se recomienda seguir atento a:
Proveedores de nube y infraestructura de poder de cómputo: El gasto en TI impulsado por IA y la inversión en infraestructura aún están en una fase de crecimiento, beneficiándose del aumento continuo en GPU, almacenamiento y ancho de banda de red.
Fabricantes de grandes modelos: Cuando puedan mantener la retención de suscripciones y la expansión de participación empresarial en escenarios de alto ROI como programación, agentes y procesos empresariales, y convertir de manera estable el “uso de tokens” en valor entregado que ahorra tiempo, esfuerzo y retrabajo, tendrán la capacidad de atravesar la competencia de código abierto y la guerra de precios.
Herramientas de seguridad, gobernanza y protección en tiempo de ejecución: A medida que las empresas integran IA en sus flujos de trabajo, los riesgos de filtración de datos y de autorización indebida impulsarán la necesidad de “plataformas de seguridad/ gobernanza de IA” como un requisito básico.
A corto plazo, se observará la mejora marginal impulsada por los aumentos de precios y la demanda (inflación de tokens); a mediano plazo, el seguimiento de la participación de las empresas y la retención de suscripciones para renovar y expandir; y a largo plazo, la adopción de herramientas de gobernanza que abrirán un mercado adicional de “firewalls de IA”.
Advertencias de riesgo
Las transformaciones en la hoja de ruta tecnológica conllevan incertidumbre; la competencia en la industria se intensifica.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Guolian Minsheng Securities: La demanda de tokens en medio de la "inflación" Observación a corto plazo de la mejora marginal impulsada por el aumento de precios y la demanda de los fabricantes de modelos a gran escala
La APP de Zhitong Finance ha sabido que, según un informe de investigación publicado por Guolian Minsheng Securities, la computación en la nube gradualmente se está convirtiendo en un “venta de recursos”, mientras que los fabricantes de grandes modelos se transforman en “vendedores de tokens y resultados”. La subida de precios del Plan de Codificación GLM de Zhitu (02513) refleja un cambio en la lógica de fijación de precios de la industria: cuando el razonamiento pasa a ser un insumo de producción, los fabricantes de modelos tienen la oportunidad de convertir la “escasez de poder de cómputo” en beneficios y flujo de caja mediante precios escalonados y productos por suscripción. Observando a corto plazo la mejora marginal impulsada por los aumentos de precios y la demanda (inflación de tokens), a mediano plazo el seguimiento de la participación de las empresas y la retención de suscripciones para renovar y expandir, y a largo plazo la adopción de herramientas de gobernanza que traerán un mercado adicional de “firewalls de IA”.
Las principales ideas de Guolian Minsheng Securities son las siguientes:
Evento: El 12 de febrero, Zhitu anunció en sus canales oficiales un aumento en el precio de suscripción del Plan de Codificación GLM, con un incremento “de al menos un 30%”.
Anteriormente, los proveedores de nube en el extranjero también aumentaron sus precios este mes, como Google Cloud, que elevó sus tarifas en Norteamérica en un 100%, y en Europa y Asia también se ajustaron al alza; al mismo tiempo, AWS aumentó sus precios en aproximadamente un 15%. En conjunto, la demanda de tokens por “inflación” no solo favorece la computación en la nube, sino que también otorga a los fabricantes de modelos mayor poder de negociación.
Rompiendo con la ruta gratuita tradicional de internet
La ruta típica del software en internet tradicional es primero ofrecerlo gratis para ampliar la base de usuarios, usando “cantidad y duración del usuario” para obtener poder de negociación, y luego monetizar a través de publicidad, suscripciones, servicios de valor añadido y comisiones por transacciones. La razón subyacente de la gratuidad es que el coste marginal es extremadamente bajo. Es decir, cada usuario adicional o clic adicional puede diluirse en el efecto de escala de ancho de banda y almacenamiento, acercándose a un coste marginal cercano a cero.
En la era de la computación en la nube también existió un esquema similar de “gratis/bajo costo para expandirse”, pero las unidades de facturación en la nube rápidamente se convirtieron en CPU, almacenamiento, ancho de banda y solicitudes, y los clientes se acostumbraron a pagar “por uso”. La nube puede cobrar porque entrega recursos claros y acuerdos de nivel de servicio (SLA). Sin embargo, cuando la industria aún está en una “guerra de precios de modelos”, Zhitu ha mostrado señales de aumento de precios, lo que indica que en la era de los grandes modelos, la unidad de medición pasa de ser tráfico (usuarios activos diarios/tiempo) a tokens (consumo en inferencia), y el consumo de tokens se vuelve una necesidad en cada vez más escenarios.
Cambios en la era de los grandes modelos: los tokens se convierten en “insumos de producción medibles”, dejando de ser “tráfico gratuito”
Los grandes modelos convierten servicios como “diálogo, codificación y generación de contenido”, que parecen ser ofrecidos por proveedores de software, en servicios de inferencia en línea que dependen fuertemente del poder de cómputo. Para los fabricantes de modelos, cada respuesta consume GPU, memoria, ancho de banda y electricidad; para los usuarios, cada vez que “hacen que el modelo piense más, escriban un código más largo o ejecuten una tarea más compleja”, implica un mayor consumo de tokens, que se convierte en la nueva unidad de medición. Zhitu, anteriormente, limitó la venta de su Coding Plan debido a un crecimiento de usuarios que generaba tensión en la capacidad de cómputo, lo que llevó a una “venta limitada”, formando un ciclo típico de oferta y demanda: aumento de demanda a corto plazo → restricción rígida de recursos (limitando flujo o cantidad) → aumento de precios.
Cuando ocurren picos de congestión y tensión en los recursos, el aumento de precios funciona como un mecanismo para filtrar la demanda, protegiendo mejor la experiencia del usuario que una simple limitación sin distinción. Además, los costos de los fabricantes de modelos siguen estrechamente relacionados con la oferta de GPU, la utilización y la optimización de inferencias. La subida de precios y una fijación de precios más racional en niveles escalonados pueden sacar a los fabricantes de modelos de la trampa de “cuanto mayor, peor la pérdida”, mejorando la rentabilidad y la calidad del flujo de caja.
La demanda de tokens en un contexto de “inflación”
La “inflación de tokens” no significa que los tokens en sí sean más caros, sino que la estructura del consumo de tokens por usuario en un período de tiempo aumenta de manera estructural. Las razones principales de este aumento en la demanda de tokens son:
De “preguntas y respuestas” a “trabajo real”: Hasta ahora, los usuarios ya no se conforman con respuestas simples, sino que quieren que el modelo reescriba código, modifique archivos, genere documentos y realice pruebas, entre otras tareas. Los escenarios de programación se caracterizan por “contexto largo, múltiples iteraciones y gran volumen de salida”, lo que implica un alto consumo de tokens. La declaración de Zhitu también confirma que los desarrolladores dependen de sus modelos para soporte de codificación, lo que acelera el crecimiento en el consumo de tokens.
De “una sola ronda” a “múltiples rondas con agentes”: Zhitu posiciona a GLM-5 como un modelo de nueva generación para escenarios de codificación y agentes; el 12 de febrero, MiniMax-WP (00100) lanzó su modelo de programación insignia M2.5, diseñado nativamente para escenarios de agentes, siendo el primer modelo de producción en el mundo para estos casos. La capacidad de M2.5 para programación y rendimiento de agentes (Coding & Agentic) se compara directamente con Claude Opus 4.6. Los agentes planifican, buscan, ejecutan y reflexionan activamente, realizando múltiples llamadas al modelo, lo que naturalmente aumenta el consumo de tokens paso a paso.
Aumento en la intensidad de inferencia: “Pensar más profundamente y realizar inferencias en cadenas más largas” incrementa significativamente el consumo de tokens en la salida y en los procesos intermedios. Para los desarrolladores, esto suele traducirse en mayores tasas de éxito y menos retrabajo, y los usuarios están dispuestos a “quemar más tokens a cambio de mayor eficiencia”.
Esto implica que los tokens dejan de ser un “tráfico” de coste marginal casi cero en internet tradicional, para convertirse en un “combustible” imprescindible en tareas de producción.
Recomendaciones de inversión
La computación en la nube se está transformando gradualmente en “venta de recursos”, mientras que los fabricantes de grandes modelos se convierten en “vendedores de tokens y resultados”. La subida de precios del Plan de Codificación GLM de Zhitu refleja un cambio en la lógica de fijación de precios de la industria: cuando el consumo en inferencia se convierte en un insumo de producción, los fabricantes de modelos tienen la oportunidad de transformar la “escasez de poder de cómputo” en beneficios y flujo de caja mediante precios escalonados y productos por suscripción. Se recomienda seguir atento a:
Proveedores de nube y infraestructura de poder de cómputo: El gasto en TI impulsado por IA y la inversión en infraestructura aún están en una fase de crecimiento, beneficiándose del aumento continuo en GPU, almacenamiento y ancho de banda de red.
Fabricantes de grandes modelos: Cuando puedan mantener la retención de suscripciones y la expansión de participación empresarial en escenarios de alto ROI como programación, agentes y procesos empresariales, y convertir de manera estable el “uso de tokens” en valor entregado que ahorra tiempo, esfuerzo y retrabajo, tendrán la capacidad de atravesar la competencia de código abierto y la guerra de precios.
Herramientas de seguridad, gobernanza y protección en tiempo de ejecución: A medida que las empresas integran IA en sus flujos de trabajo, los riesgos de filtración de datos y de autorización indebida impulsarán la necesidad de “plataformas de seguridad/ gobernanza de IA” como un requisito básico.
A corto plazo, se observará la mejora marginal impulsada por los aumentos de precios y la demanda (inflación de tokens); a mediano plazo, el seguimiento de la participación de las empresas y la retención de suscripciones para renovar y expandir; y a largo plazo, la adopción de herramientas de gobernanza que abrirán un mercado adicional de “firewalls de IA”.
Advertencias de riesgo
Las transformaciones en la hoja de ruta tecnológica conllevan incertidumbre; la competencia en la industria se intensifica.