Le modèle national domine OpenRouter : explosion du nombre d'appels de tokens, la programmation et les agents intelligents deviennent les clés de la victoire

2026-02-24 02:32:20

Pendant la période du Nouvel An chinois, l’utilisation des grands modèles nationaux a été particulièrement intense. Selon les dernières données hebdomadaires d’OpenRouter, le total des tokens des dix principaux modèles de la plateforme s’élève à environ 8,7 trillions, dont 5,3 trillions pour les modèles chinois, représentant 61%.

Les trois modèles avec le plus grand volume d’appels de tokens cette semaine sont tous des grands modèles nationaux, à savoir Minimax M2.5, Kimi K2.5 et GLM-5, avec des variations respectives de +197%, -20% et +158% par rapport à la semaine précédente. Parmi eux, MiniMax M2.5 se hisse en tête avec 2,45 trillions de tokens, suivi de Kimi K2.5 avec 1,21 trillion, tandis que GLM-5 et DeepSeek V3.2 occupent respectivement la troisième et la cinquième place.

OpenRouter est la plus grande plateforme d’agrégation d’API de grands modèles au monde, offrant aux développeurs une interface API unifiée pour accéder à des centaines de grands modèles linguistiques mondiaux. Ses fonctionnalités principales incluent l’appel multi-modèles, l’optimisation intelligente du routage et un classement transparent des performances, visant à résoudre la complexité de l’intégration de plusieurs modèles et les blocages des fournisseurs.

D’après les données de cette plateforme, la programmation (Coding) et les agents intelligents (Agent) deviennent les deux principaux axes de compétition pour les grands modèles.

L’ensemble des appels de tokens sur OpenRouter a récemment connu une forte hausse. L’équipe officielle confirme que M2.5 a stimulé la demande d’appels incrémentiels dans la plage de 100K à 1M de textes longs, une zone typique pour les flux de travail des agents intelligents.

En termes de volume d’appels de tokens, les trois principaux grands modèles nationaux sur cette plateforme se concentrent sur l’amélioration des capacités de programmation et l’automatisation des tâches des agents (Agent), représentant une avancée majeure pour l’application des grands modèles nationaux début 2026.

MiniMax Technology a publié le 13 février le MiniMax M2.5, présenté comme le premier modèle de production conçu nativement pour les scénarios d’agents intelligents. En seulement sept jours après sa sortie, ses appels ont dépassé 3,07 trillions de tokens. Grâce à ses performances exceptionnelles dans la programmation et les flux de travail des agents, ainsi qu’à ses coûts très faibles, il est devenu le choix privilégié des développeurs.

Moonshot AI a lancé le 27 janvier KimiK2.5, un modèle utilisant une architecture multimodale native capable de gérer jusqu’à 100 “agents doubles” en parallèle, augmentant l’efficacité des tâches complexes de 3 à 10 fois. Ce modèle domine plusieurs classements spécialisés (comme la programmation et l’appel d’outils), avec un volume d’appels bien supérieur à Gemini 3 et Claude. Selon Pengpai News, moins d’un mois après sa sortie, Kimi a généré plus de revenus en 20 jours que le total annuel de 2025, principalement grâce à une croissance rapide du nombre d’utilisateurs payants mondiaux et d’appels API, notamment à l’étranger.

ZhiPu a lancé le 12 février le GLM-5, un modèle dont la taille des paramètres a été encore augmentée, utilisant une attention sparse, conçu spécifiquement pour les systèmes complexes et les tâches longues des agents. Avec des avantages comme la gratuité et une fenêtre de contexte de 200K, ce modèle a connu une croissance rapide de ses utilisateurs après sa sortie. ZhiPu a également mis en place des mesures telles que la limitation des ventes et la hausse des prix pour le plan Coding, et a annoncé la recherche d’un “partenaire en puissance de calcul” sur tout le web lors du Nouvel An chinois.

Avec l’approfondissement des scénarios d’application de l’IA, les utilisateurs passent de questions simples à des flux de travail complexes, tels que la reconstruction de code, la réécriture de fichiers ou la génération de documents, et la popularisation du mode agent entraîne une tendance claire d’“inflation” de la consommation de tokens.

Tout en améliorant leurs performances, les modèles nationaux restent compétitifs en termes de rapport qualité-prix. Par exemple, par rapport à Claude Opus 4.6, MiniMax M2.5 et GLM-5 offrent des avantages de coût significatifs : pour l’entrée, le prix est de 0,3 dollar par million de tokens pour MiniMax M2.5 et GLM-5, contre 5 dollars pour Claude Opus 4.6, soit environ 16,7 fois plus cher ; pour la sortie, MiniMax M2.5 coûte 1,1 dollar, GLM-5 2,55 dollars, tandis que Claude Opus 4.6 atteint 25 dollars, soit respectivement environ 22,7 et 9,8 fois plus cher.

Ces modèles nationaux ne reflètent pas entièrement la situation des appels de tokens des fabricants locaux. Selon Haitong International Securities, les données montrent que le volume quotidien d’appels de tokens du grand modèle de Volcano Engine est passé de 20 trillions à la fin 2024 à 63 trillions à la fin 2025 ; les clients externes d’Aliyun ont également approché 5 trillions par jour en 2025, avec un objectif d’au moins 15-20 trillions en 2026, tandis que les activités internes visent à augmenter de 16-17 trillions à 100 trillions par jour. À l’échelle de l’industrie, la consommation totale de tokens par jour en Chine est passée de 100 milliards début 2024 à plus de 30 trillions à la mi-2025, et en février 2026, la consommation quotidienne totale des grands modèles principaux a atteint environ 180 trillions.

Selon un rapport récent de Dongguan Securities, avec l’amélioration des capacités de programmation et d’agents intelligents des modèles nationaux, leur volume d’appels a fortement augmenté. La Chine pourrait accélérer la mise en œuvre des applications et la croissance de la consommation de tokens.

Longjiang Securities a précédemment indiqué qu’avec la maturation progressive des modèles de programmation et multimodaux, les scénarios d’application en aval pourraient véritablement s’ouvrir, générant une forte demande de tokens de haute qualité. En se référant aux lois de développement de l’industrie de l’IA à l’étranger, il faut environ deux ans entre l’investissement en capital et l’explosion de la demande de tokens. La plupart des grands acteurs locaux ont commencé leur cycle d’investissement en IA en 2024, avec un retard d’environ un an par rapport à l’étranger. Par conséquent, les revenus des fournisseurs cloud locaux ont déjà commencé à croître, tandis que l’explosion réelle du nombre de tokens est attendue pour 2026.

(Article source : Caixin)

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.