Im Februar explosionsartiger Anstieg! Chinas AI-Nutzungsvolumen übertrifft erstmals die USA, vier große Modelle dominieren die Top 5 weltweit, die Nachfrage nach inländischer Rechenleistung erlebt ein exponentielles Wachstum

Im Februar verzeichnete China einen explosionsartigen Anstieg bei der Nutzung von KI-Modellen, erstmals übertraf es die USA.

Laut OpenRouter, der weltweit größten Plattform für die Aggregation von KI-Modell-APIs, lag die Nutzung chinesischer Modelle in der Woche vom 9. bis 15. Februar bei 4,12 Billionen Token, was erstmals die US-Modelle mit 2,94 Billionen Token übertraf.

In der Woche vom 16. bis 22. Februar stieg die wöchentliche Nutzung chinesischer Modelle weiter auf 5,16 Billionen Token, ein Anstieg um 127 % innerhalb von drei Wochen, während die Nutzung der US-Modelle auf 2,7 Billionen Token sank. Gleichzeitig belegen vier der fünf weltweit führenden Modelle in der Nutzungsliste chinesische Modelle, was auf eine starke Wachstumsdynamik hinweist, die nicht auf einzelne populäre Produkte beschränkt ist, sondern auf das kollektive Aufsteigen chinesischer KI-Anbieter.

Token ist die kleinste Einheit, mit der KI-Modelle Text verarbeiten. Im Vergleich zur Nutzerzahl ist die Token-Nutzung ein wichtiger Indikator für die tatsächliche Nutzung, Nutzerbindung und den kommerziellen Wert eines KI-Modells.

Chinesische Modellanbieter erobern den Weltmarkt durch schnelle Iteration und Kostenvorteile, während die Nachfrage nach inländischer Rechenleistung exponentiell wächst.

Neuverteilung der Rangliste: Chinesische Token-Nutzung überholt erstmals die USA, vier große Modelle dominieren

OpenRouter vereint Hunderte von großen Sprachmodellen weltweit und hat über 5 Millionen Entwicklernutzer. Es gilt als der aktuell größte API-aggregator für KI-Modelle. Daher wird die API-Nutzungsstatistik als der ehrlichste „Wetterhahn“ für globale KI-Anwendungstrends angesehen, da sie direkt die Wahl der Entwickler widerspiegelt und die Beliebtheit sowie Wettbewerbsfähigkeit der Modelle in der Praxis zeigt.

Bemerkenswert ist, dass die Nutzerbasis dieser Plattform hauptsächlich aus ausländischen Entwicklern besteht, wobei US-Nutzer 47,17 % ausmachen, während chinesische Entwickler nur 6,01 % stellen. Dies ermöglicht eine objektivere Einschätzung der Attraktivität chinesischer KI-Modelle auf globaler Ebene.

Ein Daily Economic News-Reporter (im Folgenden „Reporter“) hat die OpenRouter-Daten ausgewertet und festgestellt, dass die Nutzung großer Modelle weltweit im vergangenen Jahr eine erstaunliche explosionsartige Steigerung erlebt hat. In der Woche vom 3. bis 9. März 2025 lag die wöchentliche Nutzung der Top 10 Modelle bei nur 1,24 Billionen Token. Bis Mitte Februar 2026 war diese Zahl auf 13,95 Billionen Token angestiegen – eine Verzehnfachung innerhalb weniger Monate.

Im Jahr 2025 war das US-Modell der Haupttreiber des Marktwachstums, mit fast 70 % Anteil an der Gesamtwoche-Nutzung der Top 10 Modelle, während chinesische Modelle weniger als 20 % ausmachten. Doch ab 2026 zeigte sich eine Trendwende: Das Wachstum der US-Modelle verlangsamte sich, während chinesische Modelle in eine „rasante“ Wachstumsphase eintraten.

Daten zeigen, dass in der ersten Februarwoche 2026 (2. bis 8. Februar) die Nutzung chinesischer Modelle bereits auf 2,27 Billionen Token angestiegen war, was ein klares Signal für die Verfolgung war.

Nur eine Woche später, in der Woche vom 9. bis 15. Februar, erreichte die Nutzung chinesischer Modelle mit 4,12 Billionen Token einen historischen Höchststand und überholte erstmals die US-Modelle mit 2,94 Billionen Token.

Dieses Momentum hielt an: In der Woche vom 16. bis 22. Februar stieg die Nutzung chinesischer Modelle auf 5,16 Billionen Token, was innerhalb von drei Wochen einen Zuwachs von 127 % bedeutet und den Vorsprung weiter ausbaute.

Dieses starke Wachstum basiert nicht auf einzelnen populären Produkten, sondern auf dem kollektiven Aufstieg chinesischer KI-Unternehmen.

Die Wochenrangliste vom 16. bis 22. Februar 2026 zeigt, dass vier der fünf Top-Modelle von chinesischen Anbietern stammen: MiniMax M2.5, Kimi K2.5 von Yue Zhi An, GLM-5 von Zhipu und V3.2 von DeepSeek. Zusammen machen diese vier Modelle 85,7 % der Top 5-Nutzung aus.

Genauer gesagt, wurde das Modell M2.5 von MiniMax, das am 13. Februar 2026 veröffentlicht wurde, innerhalb weniger Tage zum Spitzenreiter der Wochen-Nutzungsstatistik. In der Woche vom 9. bis 15. Februar trug allein M2.5 mit 1,44 Billionen Token zu den insgesamt 3,21 Billionen Token bei, die in dieser Woche auf der Plattform genutzt wurden.

Das Kimi K2.5-Modell, veröffentlicht am 27. Januar, profitierte von seiner multimodalen Architektur und der starken Agenten-Parallelausführung, was die Nutzung kontinuierlich steigerte. Es kann bis zu 100 „Agenten-Doubles“ parallel steuern, um komplexe Aufgaben 3- bis 10-mal effizienter zu bewältigen. Medienberichten zufolge hat Kimi, nur einen Monat nach Veröffentlichung von Kimi K2.5, bereits mehr Einnahmen erzielt als im gesamten Jahr 2025, was auf die steigende Zahl zahlender Nutzer und die erhöhte API-Nutzung zurückzuführen ist.

Das Flaggschiff-Modell GLM-5 von Zhipu, veröffentlicht am 12. Februar, profitierte von einem 200K-Context-Fenster und tiefgehender Optimierung für Langzeit-Agentenaufgaben, was zu einem raschen Nutzerwachstum führte. Bereits in der ersten Woche nach dem Start erreichte die Nutzung 0,8 Billionen Token.

Im vergangenen Jahr war Alibaba Qianwen zwar weniger häufig in den Top-Listen vertreten, doch ein gemeinsamer Bericht von a16z und OpenRouter zeigt, dass die gesamte Token-Nutzung aller Modelle von Alibaba mit 5,59 Billionen die zweitgrößte weltweit ist, nur hinter DeepSeek mit 14,37 Billionen.

Laut einem Bericht von der Marktforschungsfirma Frost & Sullivan dominieren im chinesischen B2B-Markt für große Modelle im zweiten Halbjahr 2025 die Qwen-Modelle mit einem Anteil von 32,1 % an der täglichen Token-Nutzung, fast doppelt so viel wie im ersten Halbjahr (17,7 %). Damit wächst der Vorsprung gegenüber ByteDance Doubao (21,3 %) und DeepSeek (18,4 %).

Zur Entwicklung der chinesischen KI-Großmodelle äußerte sich Professor Hu Yanping von der Shanghai University of Finance and Economics in einem Interview mit dem Daily Economic News und sprach von einer „AI-China-Group“.

Er ist der Ansicht, dass eine hohe Konzentration im Industriesektor nicht immer vorteilhaft ist. Es sei besser, mehrere führende Unternehmen zu haben, die ein breites technisches Ökosystem bilden, anstatt nur wenige Oligopole. Das fördere Innovation, Talententwicklung und die kollektive Wettbewerbsfähigkeit im US-chinesischen KI-Kampf.

Der Partner von Andreessen Horowitz (a16z), Martin Casado, beobachtet, dass in Silicon Valley bei KI-Start-ups, die nach Finanzierung suchen, 80 % der Kernmodelle auf chinesischen Open-Source-Architekturen basieren.

Wettbewerbsvorteil: Warum sind chinesische Token so günstig im Vergleich zu den US-Modellen?

Der Grund, warum chinesische Modelle in kurzer Zeit weltweit so beliebt wurden, liegt neben ihrer Leistung, die internationale Spitzenmodelle erreicht oder übertrifft, vor allem in den äußerst wettbewerbsfähigen Kosten.

Ein Blick auf die Preise auf OpenRouter zeigt: Bei der Verarbeitung von Eingaben (Input) kosten MiniMax M2.5 und Zhipu GLM-5 jeweils nur 0,3 USD pro Million Token. Im Vergleich dazu kostet das US-Model Claude Opus4.6 etwa 5 USD pro Million Token – das ist etwa 16,7-mal teurer.

Bei der Generierung von Ausgaben (Output) sind die Unterschiede noch deutlicher: MiniMax M2.5 kostet 1,1 USD pro Million Token, Zhipu GLM-5 2,55 USD, während Claude Opus4.6 bei 25 USD liegt – das sind etwa 22,7- bzw. 9,8-mal höhere Kosten.

Diese erheblichen Kostendifferenzen beeinflussen direkt die wirtschaftlichen Überlegungen der Entwickler bei der API-Auswahl.

Der Kostenvorteil basiert vor allem auf architektonischer Innovation. Frost & Sullivan-Director Li Qing erklärt, dass die „Mixture-of-Experts (MoE)“-Architektur eine der Hauptursachen ist, warum chinesische Modelle die Inferenzkosten deutlich senken können. Modelle wie DeepSeek und Alibaba’s Tongyi Qianwen 3.5-Plus setzen bereits breit auf MoE.

Das MoE-Design teilt ein großes Modell in mehrere kleinere „Experten-Netzwerke“ und ein „Gate-Netzwerk“. Obwohl die Gesamtparameterzahl sehr hoch sein kann (z.B. Hundert Milliarden Parameter), entscheidet das Gate-Netzwerk intelligent, welche Experten für eine Aufgabe aktiviert werden, sodass nur ein Teil der Experten bei der Berechnung beteiligt ist.

Dieses „bedarfsgerechte Aktivieren“ reduziert die Rechen- und Hardwarekosten erheblich. Studien zeigen, dass der Einsatz von MoE-Architekturen die Speicherauslastung beim Inferencing um 60 % senken und die Verarbeitungsgeschwindigkeit (Token pro Zeiteinheit) um bis zu 19-fach steigern kann. Diese technologische Effizienzsteigerung ist die fundamentale Ursache für die Kostenvorteile.

Neben architektonischer Innovation verfolgt chinesische KI-Industrie auch eine vertikale Integration, um die Kosten pro Token weiter zu senken. Dabei werden Modell-Algorithmen, Cloud-Infrastruktur und KI-Chips tief integriert und optimiert, um Hardware- und Software-Kompatibilität zu verbessern und die Rechenleistung maximal auszunutzen.

Li Qing nennt als Beispiel das „Tongyi-Cloud-Chip“-System von Alibaba, das durch eine hochoptimierte Ressourcensteuerung die Infrastrukturkosten für KI-Dienste deutlich senkt. Solche systemweiten Optimierungen tragen dazu bei, die Token-Erstellungskosten weiter zu reduzieren.

JPMorgan prognostiziert in einem Forschungsbericht, dass die chinesische Token-Nutzung zwischen 2025 und 2030 mit einer jährlichen Wachstumsrate von 330 % steigen wird, was in nur fünf Jahren eine 370-fache Steigerung bedeutet.

Wertwandel: Token werden vom Internet-„Traffic“ zum „Brennstoff“ in der KI-Ära

Der exponentielle Anstieg des Token-Verbrauchs spiegelt nicht nur das Wachstum der Nutzerzahlen und -dauer wider, sondern vor allem eine fundamentale Veränderung im Nutzungsverhalten. KI wandelt sich vom einfachen Frage-Antwort-Tool zu einem produktiven Werkzeug, das tief in Arbeitsprozesse eingebunden ist und komplexe Aufgaben bewältigt.

Laut einem kürzlich veröffentlichten Bericht von Guolian Minsheng Securities ist das Konzept der „Token-Inflation“ entstanden. Es beschreibt nicht, dass Token teurer werden, sondern dass der Verbrauch pro Nutzer und Zeiteinheit strukturell steigt. Dieser Trend wird durch drei Kernentwicklungen getrieben:

Erstens: Nutzer wollen zunehmend „arbeiten“ statt nur „fragen“, etwa beim Umschreiben von Code, Erstellen von Dokumenten oder Testläufen. Programmieraufgaben sind durch „langen Kontext, Mehrfach-Iterationen und große Outputs“ gekennzeichnet und verbrauchen viele Token.

Zweitens: Die Verbreitung von KI-Agenten verstärkt den Token-Verbrauch. Agenten planen, suchen, führen aus und reflektieren mehrfach, was den Token-Verbrauch Schritt für Schritt erhöht.

Drittens: Die Komplexität der Inferencing-Prozesse steigt. Tiefere Überlegungen und längere Ketten von Schlussfolgerungen erhöhen den Token-Verbrauch bei Ausgaben und Zwischenschritten. Für Entwickler bedeutet das oft höhere Erfolgsraten und weniger Nacharbeit, da sie bereit sind, mehr Token zu investieren, um Effizienz zu gewinnen.

Diese Veränderungen bedeuten, dass Token nicht mehr nur „Traffic“ mit nahezu null Grenzkosten im Internet sind, sondern unverzichtbarer „Brennstoff“ bei der Ausführung produktiver Aufgaben.

Diese Entwicklung deckt sich mit Einschätzungen führender Halbleiterhersteller. Nvidia-CEO Jensen Huang betonte am 26. Februar in der Quartalskonferenz wiederholt: „Rechenleistung ist Einkommen“, „Inferencing ist Einkommen“. Ohne Rechenkapazität keine Token-Produktion, ohne Token kein Umsatz. Im KI-Zeitalter bestimmt die Inferencing-Leistung direkt die Einkommensfähigkeit der Kunden, und die Kernkompetenz liegt in der effizienten Generierung kommerziell nutzbarer Token. Angesichts der zunehmenden Stromknappheit in Rechenzentren ist „Performance per Watt“ zum entscheidenden Maß für Effizienz und Umsatz geworden.

Li Qing erklärt gegenüber dem Daily Economic News, dass sich das Geschäftsmodell für KI-Dienste von früher rein „nach Volumen“ zunehmend zu einer „Kraftstoff-+Ergebnis“-Mischform entwickelt. Während Token als „Kraftstoff“ durch technologische Fortschritte und Skaleneffekte günstiger werden, sind Unternehmen zunehmend bereit, für direkte „Ergebnisse“ zu bezahlen, was zu mehr abonnementbasierten Geschäftsmodellen führt.

Zukünftig wird die Preisgestaltung für KI-Dienste höchstwahrscheinlich hochgradig maßgeschneidert und flexibel sein. Die Komplexität der Aufgaben im Zeitalter der Agenten macht eine einheitliche Preisgestaltung unmöglich. Faktoren wie Rechenaufwand, Aufrufhäufigkeit, Mehrschritt-Schlussfolgerungen oder Planungen werden die Preise beeinflussen. Ein mehrdimensionales, dynamisches Preissystem wird die Norm.

(Quelle: Daily Economic News)

Original anzeigen
Diese Seite kann Inhalte Dritter enthalten, die ausschließlich zu Informationszwecken bereitgestellt werden (keine Zusicherungen oder Garantien), und sie sind nicht als Billigung der darin geäußerten Ansichten durch Gate oder als finanzielle bzw. fachliche Beratung zu verstehen. Weitere Informationen finden Sie im Haftungsausschluss.
  • Angebot
  • Kommentieren
  • Reposten
  • Teilen
Kommentieren
0/400
Keine Kommentare
  • Anheften

Handeln Sie jederzeit und überall mit Kryptowährungen
qrCode
Scannen, um die Gate App herunterzuladen
Community
Deutsch
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский язык
  • Français
  • Deutsch
  • Português (Portugal)
  • ภาษาไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)