この動きは、世界のトップチップメーカーの見解とも一致しています。**NVIDIAの黄仁勋CEOは2月26日の決算説明会で、「計算は収益」「推論は収益」と繰り返し強調しました。**彼は、「計算能力がなければTokenは生成できず、Tokenがなければ収益は増えない」と指摘し、AI時代において推論性能は直接的に収益力を左右し、その核心は高効率な商用化可能なTokenの生成にあると述べています。世界的なデータセンターの電力逼迫が深刻化する中、「性能/ワット(Performance per Watt)」は、AIサービスの効率と収益性を測る重要な指標となっています。
2月に爆発的な増加!中国のAI呼び出し量が初めてアメリカを超え、4つの大規模モデルが世界トップ5を独占。国内の計算能力需要は指数関数的に増加している。
2023年2月、中国のAIモデルの呼び出し量が爆発的に増加し、初めてアメリカを超えました。
世界最大のAIモデルAPI集約プラットフォームOpenRouterのデータによると、9日から15日までの週、中国のモデルの呼び出し量は4.12兆Tokenに達し、アメリカの2.94兆Tokenを初めて上回りました。
16日から22日までの週、中国のモデルの週呼び出し量はさらに5.16兆Tokenに急増し、3週間で127%増加しました。一方、同時期のアメリカのモデル呼び出し量は2.7兆Tokenに減少しています。同時に、世界の呼び出し量ランキング上位5モデルのうち、中国のモデルが4つを占めており、この強力な成長エネルギーは、単一のヒット商品に依存するものではなく、中国のAI企業群の集団的台頭によるものです。
TokenはAIモデルがテキストを処理する最小単位です。ユーザー数と比較して、Token呼び出し量はAIモデルの使用強度、ユーザーの粘着性、商業価値をより正確に反映する重要な指標です。
中国のモデル企業は、迅速なイテレーションとコスト優位性を武器に世界市場を席巻しており、国産の計算能力需要は指数関数的に増加しています。
ランキングの変動:中国Token呼び出し量がアメリカを超え、4つの大型モデルがトップを独占
**OpenRouterプラットフォームは、世界中の数百種類の大規模言語モデルを集約し、500万人以上の開発者ユーザーを持つ、現在世界最大のAIモデルAPI集約プラットフォームです。**したがって、そのAPI呼び出し量のデータは、世界のAI応用展開の最もリアルな“晴雨表”と見なされており、開発者の“足で投票”する選択を直接反映し、モデルの実用性と競争力を示しています。
注目すべきは、このプラットフォームのユーザーは主に海外の開発者であり、**米国ユーザーの比率は47.17%に達し、中国の開発者はわずか6.01%です。**これにより、ランキングのデータは中国AIモデルの世界的な実際の魅力をより客観的に反映しています。
『每日経済新聞』の記者(以下、毎経記者)がOpenRouterのデータを整理したところ、世界の大規模モデルのToken呼び出し量は過去1年で驚くべき爆発的成長を遂げています。2025年3月3日から9日の週、同プラットフォームのトップ10モデルの週呼び出し量はわずか1.24兆Tokenでした。しかし、2026年2月中旬にはこの数字は13.95兆Tokenに急上昇し、わずか1年足らずで10倍以上に増加しました。
2025年、米国モデルが市場成長の主な原動力であり、Tokenの週呼び出し量はプラットフォームのトップ10モデルの総量の約7割を占めていました。一方、中国モデルの比率は2割未満でした。しかし、2026年に入り、米国モデルの成長速度は鈍化し始め、中国モデルは“狂飙”モードに突入しました。
データによると、2026年2月の第1週(2日から8日)、中国モデルの週呼び出し量は2.27兆Tokenに達し、強力な追撃の兆しを示しました。
わずか1週間後の2月9日から15日の週、中国モデルは4.12兆Tokenの驚異的な呼び出し量で、同時期の米国モデルの2.94兆Tokenを超え、歴史的な追い越しを実現しました。
この勢いは止まらず、2月16日の週には中国モデルの週呼び出し量はさらに5.16兆Tokenに達し、3週間で127%増加。リードをさらに拡大しています。
この強力な成長エネルギーは、単一のヒット商品に依存するものではなく、中国AI企業群の集団的台頭によるものです。
2026年2月16日から22日の週のランキングでは、**プラットフォームの呼び出し量上位5モデルのうち、4つが中国企業のもので、MiniMaxのM2.5、月之暗面のKimi K2.5、智谱のGLM-5、DeepSeekのV3.2です。**これら4モデルは、Top5の総呼び出し量の85.7%を占めています。
具体的には、MiniMaxが2026年2月13日にリリースしたM2.5モデルは、リリースから1週間足らずで週呼び出し量トップに躍り出ました。2月9日から15日の週、OpenRouterの総呼び出し量は3.21兆Tokenに急増し、そのうちM2.5だけで1.44兆Tokenの驚異的な増加をもたらしました。
月之暗面が1月27日にリリースしたKimi K2.5モデルは、多モーダルアーキテクチャと強力なエージェントの並列処理能力により呼び出し量が連続して急増しました。このモデルは最大100の“エージェント分身”を並列で動作させ、複雑なタスク処理効率を3倍から10倍に向上させます。メディア報道によると、KimiはKimi K2.5のリリース後1か月未満で、2025年の年間総収入を超える収益を上げており、その成長はグローバルの有料ユーザーとAPI呼び出し量の増加によるものです。
智谱のフラッグシップモデルGLM-5は、2月12日にリリースされ、超長文のコンテキストウィンドウ(200K)と長距離エージェントタスクの深い最適化により、ユーザ規模が高速に拡大し、呼び出し量はリリース初週に0.8兆Tokenに達しました。
過去1年、Alibabaの千問は個別モデルのランキング頻度は高くありませんでしたが、a16zとOpenRouterの共同レポートによると、その全シリーズのToken呼び出し量は5.59兆に達し、世界第2位です。1位はDeepSeekの14.37兆です。
コンサルティング会社Frost & Sullivanのレポートによると、中国の大規模モデルのBtoB市場では、2025年後半、千問(Qwen)シリーズの1日あたりのToken呼び出し量の比率は32.1%で、トップに立ち、前年同期の17.7%をほぼ倍増させ、ByteDanceの豆包(21.3%)、DeepSeek(18.4%)をリードしています。
中国のAI大規模モデルの構図について、上海財経大学の特任教授胡延平は、毎経記者のインタビューで「AI中国団」と表現しました。
彼は、「産業市場の集中度は高いほど良いとは限らない」と述べ、多数のトップ企業が広範な技術産業クラスターを形成しており、少数の寡頭勢力に偏らないことは、競争とイノベーション、人才エコシステムの構築にとって良いことであり、中米のAI競争においても集団的優位を形成しやすいと指摘しています。
著名なベンチャーキャピタルのAndreessen Horowitz(a16z)のパートナー、Martin Casadoは、「今やシリコンバレーで資金調達を求めるAIスタートアップの80%が中国のオープンソースモデルを使用している」と観察しています。
競争力:コストは米国AIの1/10未満、中国Tokenはなぜ安いのか?
中国モデルが短期間で世界の開発者を席巻できた理由は、性能が国際トップクラスに肩を並べるか超えるだけでなく、その圧倒的なコスト競争力にあります。
OpenRouterプラットフォームの価格を例にとると、中国モデルのコスト優位性は一目瞭然です。
入力情報(Input)の処理段階では、MiniMaxのM2.5と智谱のGLM-5はともに100万Tokenあたり0.3ドルです。対照的に、海外の主流モデルClaude Opus4.6の価格は5ドル/百万Tokenと高く、中国のこれら2モデルの約16.7倍です。
出力(Output)の段階では、コスト差はさらに大きく、MiniMax M2.5の出力価格は1.1ドル/百万Token、智谱のGLM-5は2.55ドル/百万Tokenですが、Claude Opus4.6は25ドル/百万Tokenに跳ね上がり、前者2つの約22.7倍と9.8倍です。
この巨大なコスト差は、開発者のAPI選択に直接的な経済的影響を与えます。
この顕著なコスト差は、まずアルゴリズムのアーキテクチャ革新に起因します。
Frost & Sullivanの中国総監の李慶は、毎経記者のインタビューで、「Mixture-of-Experts(MoE)」アーキテクチャを代表とする技術路線が、中国モデルの推論コストを大幅に削減できる主な理由の一つだと分析しています。現在、ランキング上のDeepSeekやAlibabaの通义千問3.5-Plusなど、多くのモデルが広くMoEアーキテクチャを採用しています。
MoEアーキテクチャの巧みな点は、大きなモデルを複数の比較的小さな“エキスパートネットワーク”と“ゲートネットワーク”に分割することにあります。モデルの総パラメータ数は非常に多く(数千億パラメータを持つことも)、知識の蓄積と能力の上限を保証しつつ、実際のタスク処理時には、ゲートネットワークがタスクの性質を判断し、最も関連性の高い一部のエキスパートネットワークだけを呼び出して計算に参加させる仕組みです。
この“必要に応じて活性化”する方式は、従来の密なモデル(全パラメータを呼び出す)と比べて、計算量とハードウェアリソースの要求を大きく削減します。データによると、**MoEアーキテクチャを採用することで、推論時のGPUメモリ使用量を60%削減し、推論スループット(単位時間あたりのToken処理数)を19倍向上させることが可能です。**この技術的なコスト削減と効率化が、コスト優位性の根幹です。
さらに、中国のAI企業は“垂直統合”の道も積極的に模索しており、各Tokenのコスト圧縮を追求しています。その核心は、上層のモデルアルゴリズム、中層のクラウドインフラ、下層のAIチップを深く一体化して最適化し、ハードとソフトの適合問題を解決し、計算能力を最大限に引き出すことにあります。
李慶は、Alibabaの“通义-クラウド-チップ”システムを例に、こうした垂直統合モデルが、極限まで計算資源を効率的に利用し、AIサービスの基盤インフラコストを大きく削減できると説明しています。このシステムレベルの最適化により、Tokenの生成コストもさらに低減しています。
JPモルガンのリサーチレポートは、中国市場について非常に楽観的な予測を示し、2025年から2030年までの間に、中国のToken消費量の年平均成長率は驚異の330%に達し、わずか5年で370倍に増加すると予測しています。
価値の質的変化:Tokenはインターネットの“流量”からAI時代の“燃料”へ
Token消費量の指数関数的な増加は、表面上はユーザ規模と使用時間の拡大を示しますが、その背後にある根本的な推進力は、AIの使用パターンの根本的な変化です。AIは単なる情報提供や日常会話の“問答ツール”から、仕事の流れに深く関与し、複雑なタスクを処理できる“生産性ツール”へと進化しています。
国民民生証券の最新レポートでは、「Tokenインフレ」という概念を提唱しています。これは、Token自体の価格上昇を意味するのではなく、単位時間・単位ユーザあたりのToken消費構造が体系的に増加していることを指します。レポートは、この現象を三つの主要なトレンドに帰しています。
一つは、ユーザのコアニーズが浅い“問答”から深い“作業”へとシフトしていることです。コードの再構築、ファイルの書き換え、ドキュメント生成、テスト実行など、AIを活用した作業はTokenを大量に消費します。
二つ目は、**AIエージェント技術の普及と進化により、Tokenの消費が拡大していることです。**エージェントは積極的に計画・検索・実行・反省を行い、複数回モデルを呼び出すため、Tokenの消費はステップごとに積み上がります。
三つ目は、**推論の強度の増加です。**より深い思考や長い推論チェーンは、出力や中間過程のToken消費を著しく増加させます。しかし、開発者にとっては、これにより成功率が高まり、やり直しが少なくなるため、ユーザは“効率を上げるためにToken投入を増やす”ことを厭わなくなっています。
これらの変化は、Tokenが従来のインターネット時代のほぼコストゼロの“流量”ではなく、タスク実行に不可欠な“燃料”へと変わることを意味します。
この動きは、世界のトップチップメーカーの見解とも一致しています。**NVIDIAの黄仁勋CEOは2月26日の決算説明会で、「計算は収益」「推論は収益」と繰り返し強調しました。**彼は、「計算能力がなければTokenは生成できず、Tokenがなければ収益は増えない」と指摘し、AI時代において推論性能は直接的に収益力を左右し、その核心は高効率な商用化可能なTokenの生成にあると述べています。世界的なデータセンターの電力逼迫が深刻化する中、「性能/ワット(Performance per Watt)」は、AIサービスの効率と収益性を測る重要な指標となっています。
李慶は、毎経記者に対し、「AIサービスのビジネスモデルは、従来の単純な“従量課金”から、“燃料+成果”のハイブリッドモデルへと進化している」と述べました。**一方、“燃料”としてのTokenの単価は、技術進歩と規模効果により継続的に低下し、**もう一方で、AIが“問答”ツールから“作業”の生産性ツールへと変わることで、企業は直接的な“成果”に対してより支払う意欲を持つようになり、サブスクリプション型のビジネスモデルが増加しています。
李慶は、今後のAIサービスの価格設定は、より高度にカスタマイズされ、柔軟になると予測しています。彼女は、「エージェント時代の到来により、タスクの複雑さは多様化し、単一の価格モデルではすべてのビジネスニーズをカバーできなくなる」と述べ、計算消費、呼び出し頻度、多段推論や計画を伴う高コスト操作などが価格に影響を与える要素となり、多次元的で動的な価格体系が主流になるだろう」と予測しています。
(出典:每日経済新聞)