Ledakan Februari! Volume panggilan AI China pertama kali mengalahkan Amerika Serikat Empat model besar mendominasi lima besar global Permintaan daya komputasi domestik sedang mengalami pertumbuhan eksponensial
Pada bulan Februari, volume panggilan model AI di China mengalami lonjakan eksponensial, pertama kali melampaui Amerika Serikat.
Platform agregasi API model AI terbesar di dunia, OpenRouter, menunjukkan bahwa pada minggu 9-15 Februari, model-model China dengan volume panggilan sebesar 4,12 triliun Token, pertama kali melampaui model-model AS yang sebesar 2,94 triliun Token.
Pada minggu 16-22 Februari, volume panggilan mingguan model-model China semakin meningkat menjadi 5,16 triliun Token, naik 127% dalam tiga minggu, sementara volume panggilan model-model AS selama periode yang sama turun menjadi 2,7 triliun Token. Pada saat yang sama, dari lima model teratas secara global berdasarkan jumlah panggilan, empat di antaranya berasal dari China. Gelombang pertumbuhan yang kuat ini bukan bergantung pada satu produk unggulan saja, melainkan merupakan kebangkitan kolektif dari para vendor AI China.
Token adalah unit terkecil yang diproses oleh model AI dalam teks. Dibandingkan dengan jumlah pengguna, volume panggilan Token adalah indikator yang lebih akurat untuk mencerminkan intensitas penggunaan model AI, keterikatan pengguna, dan nilai bisnisnya.
Vendor model AI China sedang merebut pangsa pasar global melalui iterasi cepat dan keunggulan biaya, sementara permintaan daya komputasi domestik mengalami pertumbuhan eksponensial.
Perubahan Papan Catur: Volume Panggilan Token China Melampaui AS, Empat Model Besar Mendominasi
Platform OpenRouter mengumpulkan ratusan model bahasa besar dari seluruh dunia, dengan lebih dari 5 juta pengguna pengembang, menjadikannya platform agregasi API model AI terbesar di dunia saat ini. Oleh karena itu, data volume panggilan API-nya dianggap sebagai indikator paling nyata untuk memahami tren penerapan AI secara global, karena langsung mencerminkan pilihan “suara kaki” para pengembang, serta tingkat popularitas dan daya saing model dalam aplikasi nyata.
Perlu dicatat bahwa mayoritas pengguna platform ini adalah pengembang dari luar negeri, dengan proporsi pengguna dari AS mencapai 47,17%, sedangkan pengembang dari China hanya 6,01%, sehingga data peringkat ini lebih objektif dalam mencerminkan daya tarik nyata model AI China di tingkat global.
Dalam analisis data dari Daily Economic News (disebut sebagai wartawan ME), ditemukan bahwa volume panggilan Token dari model-model besar di seluruh dunia mengalami lonjakan luar biasa dalam satu tahun terakhir. Pada minggu 3-9 Maret 2025, sepuluh model teratas di platform ini hanya memiliki volume panggilan sebesar 1,24 triliun Token. Hingga pertengahan Februari 2026, angka ini melonjak menjadi 13,95 triliun Token, meningkat lebih dari 10 kali lipat dalam waktu kurang dari satu tahun.
Pada tahun 2025, model-model AS menjadi kekuatan utama pertumbuhan pasar, dengan volume panggilan Token mingguan yang pernah mencapai hampir 70% dari total sepuluh model teratas di platform, sementara model-model China saat itu hanya menyumbang kurang dari 20%. Namun, memasuki tahun 2026, pertumbuhan model-model AS mulai menunjukkan tanda-tanda kelelahan, sementara model-model China memasuki “mode balapan” yang agresif.
Data menunjukkan bahwa pada minggu pertama Februari 2026 (tanggal 2-8 Februari), volume panggilan mingguan model-model China telah melonjak ke 2,27 triliun Token, mengirimkan sinyal kuat untuk kejar-kejaran.
Hanya satu minggu kemudian, pada minggu 9-15 Februari, model-model China dengan volume panggilan sebesar 4,12 triliun Token secara resmi melampaui model-model AS yang sebesar 2,94 triliun Token, mencapai lompatan sejarah.
Gelombang ini tidak berhenti di situ; pada minggu 16-22 Februari, volume panggilan mingguan model-model China bahkan meningkat lagi menjadi 5,16 triliun Token, dengan pertumbuhan 127% dalam tiga minggu, memperbesar keunggulan kompetitifnya.
Kekuatan pertumbuhan ini bukan bergantung pada satu produk unggulan saja, melainkan merupakan kebangkitan kolektif dari para vendor AI China.
Data minggu 16-22 Februari 2026 menunjukkan bahwa dari lima model teratas berdasarkan volume panggilan, empat di antaranya berasal dari vendor China, yaitu MiniMax M2.5, Kimi K2.5 dari Yue Zhi An Mian, GLM-5 dari Zhipu, dan V3.2 dari DeepSeek. Keempat model ini menyumbang 85,7% dari total volume panggilan Top 5.
Secara spesifik, model M2.5 dari MiniMax yang dirilis pada 13 Februari 2026, dalam waktu kurang dari satu minggu langsung menduduki posisi teratas dalam daftar volume panggilan mingguan. Pada minggu 9-15 Februari, dari total volume panggilan platform OpenRouter sebesar 3,21 triliun Token yang melonjak tajam, model M2.5 menyumbang 1,44 triliun Token, angka yang luar biasa.
Model Kimi K2.5 dari Yue Zhi An Mian yang dirilis pada 27 Januari, berkat arsitektur multimodal asli dan kemampuan paralel pengolahan Agen yang kuat, mengalami lonjakan panggilan secara berkelanjutan. Model ini mampu mengatur hingga 100 “Agent duplikat” secara paralel, meningkatkan efisiensi penanganan tugas kompleks hingga 3-10 kali lipat. Menurut laporan media, pendapatan kumulatif Kimi dalam kurang dari satu bulan setelah peluncuran Kimi K2.5 telah melebihi total pendapatan tahun 2025, didorong oleh lonjakan pengguna berbayar global dan volume panggilan API.
Model GLM-5 dari Zhipu, yang dirilis setelah 12 Februari, dengan jendela konteks super panjang 200K dan optimasi mendalam untuk tugas Agent jangka panjang, mengalami pertumbuhan pengguna yang pesat, dan volume panggilannya meningkat menjadi 0,8 triliun Token dalam minggu pertama peluncuran.
Selama satu tahun terakhir, meskipun model Alibaba Qianwen tidak sering masuk daftar, laporan gabungan dari a16z dan OpenRouter menunjukkan bahwa total volume panggilan Token dari seluruh rangkaian modelnya mencapai 5,59 triliun, menempati posisi kedua secara global setelah DeepSeek yang sebesar 14,37 triliun.
Laporan dari perusahaan riset Frost & Sullivan menunjukkan bahwa di pasar model besar B2B di China, pada paruh kedua 2025, model seri Qwen menyumbang 32,1% dari volume panggilan Token harian, menempati posisi pertama, hampir dua kali lipat dari 17,7% di paruh pertama, dan memperlebar keunggulan dibanding ByteDoubao (21,3%) dan DeepSeek (18,4%).
Mengenai pola pasar model besar AI China, Profesor Khusus Universitas Ekonomi dan Keuangan Shanghai, Hu Yanping, menyebutnya sebagai “Tim China AI.”
Dia berpendapat bahwa, konsentrasi pasar industri tidak selalu lebih tinggi lebih baik, melainkan keberadaan beberapa perusahaan utama yang membentuk komunitas teknologi industri yang luas, bukan hanya dua atau tiga perusahaan monopoli, adalah hal yang baik untuk inovasi kompetitif dan ekosistem talenta, serta membantu membentuk keunggulan kluster dalam kompetisi AI China-AS.
Martin Casado, mitra dari perusahaan modal ventura terkenal Andreessen Horowitz (a16z), mengamati bahwa, sekarang, dalam Silicon Valley, 80% dari model-model utama yang digunakan dalam pitch startup AI adalah model open-source dari China.
Daya Saing: Biaya Kurang dari 1/10 dari AI AS, Mengapa Token China Lebih Murah?
Model-model China mampu merebut perhatian pengembang global dalam waktu singkat, selain performa yang setara bahkan melampaui model-model internasional terkemuka, keunggulan biaya yang sangat kompetitif adalah kekuatan inti yang tak terbantahkan.
Sebagai contoh, harga yang diumumkan di platform OpenRouter menunjukkan bahwa keunggulan biaya model-model China sangat jelas.
Dalam proses pengolahan input data, MiniMax M2.5 dan Zhipu GLM-5 masing-masing dihargai 0,3 USD per juta Token. Sebagai pembanding, produk sejenis dari luar negeri, Claude Opus4.6, harganya mencapai 5 USD per juta Token, sekitar 16,7 kali lipat dari kedua model China tersebut.
Dalam proses menghasilkan output, perbedaan biaya lebih mencolok. Harga output MiniMax M2.5 adalah 1,1 USD per juta Token, GLM-5 dari Zhipu adalah 2,55 USD, sedangkan Claude Opus4.6 melonjak ke 25 USD per juta Token, masing-masing sekitar 22,7 kali dan 9,8 kali lipat dari model China.
Perbedaan biaya sebesar ini secara langsung memengaruhi pertimbangan ekonomi pengembang dalam memilih API.
Perbedaan biaya yang mencolok ini terutama berasal dari inovasi arsitektur algoritma.
Li Qing, Direktur China dari Frost & Sullivan, dalam wawancara dengan ME, menjelaskan bahwa arsitektur “Mixture-of-Experts (MoE)” adalah salah satu alasan utama model-model China mampu secara signifikan menurunkan biaya inferensi. Saat ini, model-model seperti DeepSeek dan Tongyi Qianwen 3.5-Plus dari Alibaba sudah secara luas mengadopsi arsitektur MoE.
Keunggulan arsitektur MoE terletak pada kemampuannya membagi satu model besar menjadi beberapa “jaringan ahli” yang relatif kecil dan satu “jaringan pengatur” (gating network). Meskipun jumlah parameter totalnya sangat besar (misalnya ratusan miliar), memastikan kapasitas pengetahuan dan kemampuan maksimal, saat menangani satu tugas, jaringan pengatur akan secara cerdas menilai sifat tugas tersebut dan hanya mengaktifkan sebagian kecil dari jaringan ahli yang paling relevan.
Model “aktif sesuai kebutuhan” ini, dibandingkan dengan model padat tradisional yang mengaktifkan seluruh parameter setiap kali proses, secara drastis mengurangi jumlah perhitungan dan kebutuhan sumber daya hardware. Data menunjukkan bahwa, menggunakan arsitektur MoE dapat mengurangi penggunaan memori GPU selama inferensi hingga 60%, dan meningkatkan throughput inferensi (jumlah Token yang diproses per satuan waktu) hingga 19 kali lipat. Inovasi dari sumber teknologi ini adalah dasar utama dari keunggulan biaya tersebut.
Selain inovasi arsitektur algoritma, vendor AI China juga aktif mengeksplorasi jalur “integrasi vertikal” untuk lebih menekan biaya per Token. Ide utamanya adalah mengintegrasikan secara mendalam desain algoritma model tingkat atas, infrastruktur cloud tingkat menengah, dan chip AI tingkat bawah secara kolaboratif dan terintegrasi, sehingga mengatasi masalah kompatibilitas perangkat lunak dan perangkat keras, serta memaksimalkan pemanfaatan daya komputasi.
Li Qing memberi contoh sistem “Tongyi-Cloud-Core” dari Alibaba, yang mampu melakukan penjadwalan daya komputasi secara optimal dari atas ke bawah, memanfaatkan sumber daya perangkat keras secara efisien, dan secara signifikan menurunkan biaya infrastruktur di balik layanan AI. Pengoptimalan sistem ini memungkinkan biaya pembuatan Token semakin ditekan.
JPMorgan dalam laporan risetnya memproyeksikan bahwa dari 2025 hingga 2030, konsumsi Token di pasar China akan tumbuh dengan tingkat pertumbuhan majemuk tahunan (CAGR) sebesar 330%, mencapai 370 kali lipat dalam lima tahun.
Transformasi Nilai: Token dari “Lalu Lintas” Internet Menjadi “Bahan Bakar” Era AI
Lonjakan eksponensial konsumsi Token tampak sebagai pertumbuhan jumlah pengguna dan durasi penggunaan, tetapi kekuatan pendorong yang lebih mendalam adalah perubahan fundamental dalam pola penggunaan AI oleh pengguna. Peran AI sedang berevolusi dari sekadar alat tanya jawab yang memberikan informasi sederhana dan hiburan harian, menjadi alat produktivitas yang mampu secara mendalam terlibat dalam alur kerja dan menangani tugas kompleks.
Dalam laporan terbaru, Securities firm Mandiri Securities memperkenalkan konsep “Inflasi Token.” Ini bukan berarti harga Token menjadi lebih mahal, melainkan struktur konsumsi Token per pengguna dalam satu waktu dan satu unit pengguna secara struktural meningkat. Fenomena ini dikaitkan dengan tiga tren utama.
Pertama, kebutuhan inti pengguna beralih dari sekadar “tanya jawab” ke “kerja nyata,” yaitu semakin banyak menggunakan AI untuk merekayasa ulang kode, mengubah dokumen, menghasilkan laporan, dan menjalankan pengujian. Skenario pemrograman secara alami memiliki karakteristik “konteks panjang, iterasi berulang, output besar,” yang sangat menguras Token.
Kedua, kemunculan dan adopsi teknologi Agen AI memperbesar konsumsi Token. Agen akan secara aktif merencanakan, mencari, mengeksekusi, dan merefleksikan, melakukan panggilan model berulang kali, sehingga konsumsi Token secara bertahap bertambah sesuai langkah.
Ketiga, adalah peningkatan intensitas inferensi. Pemikiran mendalam yang lebih panjang dan penalaran berantai akan secara signifikan meningkatkan konsumsi Token untuk output dan proses intermediate. Tetapi bagi pengembang, ini sering kali meningkatkan tingkat keberhasilan dan mengurangi pekerjaan ulang, sehingga pengguna bersedia “menambah investasi Token” demi efisiensi.
Serangkaian perubahan ini menandakan bahwa Token bukan lagi “lalu lintas” dengan biaya marginal hampir nol seperti di era internet, melainkan “bahan bakar” yang esensial saat menjalankan tugas produksi.
Tren ini sejalan dengan pandangan produsen chip terkemuka global. CEO Nvidia, Jensen Huang, dalam panggilan pendapatan 26 Februari, berulang kali menegaskan satu poin utama: “Computing equals revenue,” “Inference equals revenue.” Ia menekankan bahwa tanpa daya komputasi, tidak mungkin menghasilkan Token; tanpa Token, tidak akan ada pertumbuhan pendapatan. Dalam era AI, performa inferensi secara langsung menentukan kemampuan pendapatan pelanggan, dan inti dari inferensi adalah menghasilkan Token yang dapat dikomersialkan secara efisien. Di tengah tantangan daya listrik pusat data global yang semakin meningkat, “Performa per Watt” menjadi indikator utama efisiensi layanan AI dan potensi pendapatannya.
Li Qing kepada wartawan ME menyatakan bahwa, model bisnis layanan AI sedang bertransformasi dari sekadar “berbasis biaya” menjadi model campuran “bahan bakar + hasil.” Di satu sisi, sebagai “bahan bakar,” harga Token akan terus menurun seiring kemajuan teknologi dan skala ekonomi; di sisi lain, karena AI bertransformasi dari alat tanya jawab menjadi alat produktivitas yang mampu “kerja nyata,” perusahaan akan lebih bersedia membayar langsung untuk “hasil,” yang akan mendorong munculnya lebih banyak model bisnis berbasis langganan.
Li Qing juga memprediksi bahwa ke depan, penetapan harga layanan AI akan semakin disesuaikan secara tinggi dan fleksibel. Ia menyatakan bahwa kedatangan era Agen berarti tingkat kompleksitas tugas yang sangat beragam, sehingga model penetapan harga tunggal tidak akan mampu memenuhi semua kebutuhan bisnis. Ke depan, faktor-faktor seperti konsumsi komputasi, frekuensi panggilan, apakah tugas melibatkan multi-langkah penalaran atau perencanaan, akan menjadi faktor penentu harga, dan sistem penetapan harga multi-dimensi dan dinamis akan menjadi arus utama.
(Sumber artikel: Daily Economic News)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Ledakan Februari! Volume panggilan AI China pertama kali mengalahkan Amerika Serikat Empat model besar mendominasi lima besar global Permintaan daya komputasi domestik sedang mengalami pertumbuhan eksponensial
Pada bulan Februari, volume panggilan model AI di China mengalami lonjakan eksponensial, pertama kali melampaui Amerika Serikat.
Platform agregasi API model AI terbesar di dunia, OpenRouter, menunjukkan bahwa pada minggu 9-15 Februari, model-model China dengan volume panggilan sebesar 4,12 triliun Token, pertama kali melampaui model-model AS yang sebesar 2,94 triliun Token.
Pada minggu 16-22 Februari, volume panggilan mingguan model-model China semakin meningkat menjadi 5,16 triliun Token, naik 127% dalam tiga minggu, sementara volume panggilan model-model AS selama periode yang sama turun menjadi 2,7 triliun Token. Pada saat yang sama, dari lima model teratas secara global berdasarkan jumlah panggilan, empat di antaranya berasal dari China. Gelombang pertumbuhan yang kuat ini bukan bergantung pada satu produk unggulan saja, melainkan merupakan kebangkitan kolektif dari para vendor AI China.
Token adalah unit terkecil yang diproses oleh model AI dalam teks. Dibandingkan dengan jumlah pengguna, volume panggilan Token adalah indikator yang lebih akurat untuk mencerminkan intensitas penggunaan model AI, keterikatan pengguna, dan nilai bisnisnya.
Vendor model AI China sedang merebut pangsa pasar global melalui iterasi cepat dan keunggulan biaya, sementara permintaan daya komputasi domestik mengalami pertumbuhan eksponensial.
Perubahan Papan Catur: Volume Panggilan Token China Melampaui AS, Empat Model Besar Mendominasi
Platform OpenRouter mengumpulkan ratusan model bahasa besar dari seluruh dunia, dengan lebih dari 5 juta pengguna pengembang, menjadikannya platform agregasi API model AI terbesar di dunia saat ini. Oleh karena itu, data volume panggilan API-nya dianggap sebagai indikator paling nyata untuk memahami tren penerapan AI secara global, karena langsung mencerminkan pilihan “suara kaki” para pengembang, serta tingkat popularitas dan daya saing model dalam aplikasi nyata.
Perlu dicatat bahwa mayoritas pengguna platform ini adalah pengembang dari luar negeri, dengan proporsi pengguna dari AS mencapai 47,17%, sedangkan pengembang dari China hanya 6,01%, sehingga data peringkat ini lebih objektif dalam mencerminkan daya tarik nyata model AI China di tingkat global.
Dalam analisis data dari Daily Economic News (disebut sebagai wartawan ME), ditemukan bahwa volume panggilan Token dari model-model besar di seluruh dunia mengalami lonjakan luar biasa dalam satu tahun terakhir. Pada minggu 3-9 Maret 2025, sepuluh model teratas di platform ini hanya memiliki volume panggilan sebesar 1,24 triliun Token. Hingga pertengahan Februari 2026, angka ini melonjak menjadi 13,95 triliun Token, meningkat lebih dari 10 kali lipat dalam waktu kurang dari satu tahun.
Pada tahun 2025, model-model AS menjadi kekuatan utama pertumbuhan pasar, dengan volume panggilan Token mingguan yang pernah mencapai hampir 70% dari total sepuluh model teratas di platform, sementara model-model China saat itu hanya menyumbang kurang dari 20%. Namun, memasuki tahun 2026, pertumbuhan model-model AS mulai menunjukkan tanda-tanda kelelahan, sementara model-model China memasuki “mode balapan” yang agresif.
Data menunjukkan bahwa pada minggu pertama Februari 2026 (tanggal 2-8 Februari), volume panggilan mingguan model-model China telah melonjak ke 2,27 triliun Token, mengirimkan sinyal kuat untuk kejar-kejaran.
Hanya satu minggu kemudian, pada minggu 9-15 Februari, model-model China dengan volume panggilan sebesar 4,12 triliun Token secara resmi melampaui model-model AS yang sebesar 2,94 triliun Token, mencapai lompatan sejarah.
Gelombang ini tidak berhenti di situ; pada minggu 16-22 Februari, volume panggilan mingguan model-model China bahkan meningkat lagi menjadi 5,16 triliun Token, dengan pertumbuhan 127% dalam tiga minggu, memperbesar keunggulan kompetitifnya.
Kekuatan pertumbuhan ini bukan bergantung pada satu produk unggulan saja, melainkan merupakan kebangkitan kolektif dari para vendor AI China.
Data minggu 16-22 Februari 2026 menunjukkan bahwa dari lima model teratas berdasarkan volume panggilan, empat di antaranya berasal dari vendor China, yaitu MiniMax M2.5, Kimi K2.5 dari Yue Zhi An Mian, GLM-5 dari Zhipu, dan V3.2 dari DeepSeek. Keempat model ini menyumbang 85,7% dari total volume panggilan Top 5.
Secara spesifik, model M2.5 dari MiniMax yang dirilis pada 13 Februari 2026, dalam waktu kurang dari satu minggu langsung menduduki posisi teratas dalam daftar volume panggilan mingguan. Pada minggu 9-15 Februari, dari total volume panggilan platform OpenRouter sebesar 3,21 triliun Token yang melonjak tajam, model M2.5 menyumbang 1,44 triliun Token, angka yang luar biasa.
Model Kimi K2.5 dari Yue Zhi An Mian yang dirilis pada 27 Januari, berkat arsitektur multimodal asli dan kemampuan paralel pengolahan Agen yang kuat, mengalami lonjakan panggilan secara berkelanjutan. Model ini mampu mengatur hingga 100 “Agent duplikat” secara paralel, meningkatkan efisiensi penanganan tugas kompleks hingga 3-10 kali lipat. Menurut laporan media, pendapatan kumulatif Kimi dalam kurang dari satu bulan setelah peluncuran Kimi K2.5 telah melebihi total pendapatan tahun 2025, didorong oleh lonjakan pengguna berbayar global dan volume panggilan API.
Model GLM-5 dari Zhipu, yang dirilis setelah 12 Februari, dengan jendela konteks super panjang 200K dan optimasi mendalam untuk tugas Agent jangka panjang, mengalami pertumbuhan pengguna yang pesat, dan volume panggilannya meningkat menjadi 0,8 triliun Token dalam minggu pertama peluncuran.
Selama satu tahun terakhir, meskipun model Alibaba Qianwen tidak sering masuk daftar, laporan gabungan dari a16z dan OpenRouter menunjukkan bahwa total volume panggilan Token dari seluruh rangkaian modelnya mencapai 5,59 triliun, menempati posisi kedua secara global setelah DeepSeek yang sebesar 14,37 triliun.
Laporan dari perusahaan riset Frost & Sullivan menunjukkan bahwa di pasar model besar B2B di China, pada paruh kedua 2025, model seri Qwen menyumbang 32,1% dari volume panggilan Token harian, menempati posisi pertama, hampir dua kali lipat dari 17,7% di paruh pertama, dan memperlebar keunggulan dibanding ByteDoubao (21,3%) dan DeepSeek (18,4%).
Mengenai pola pasar model besar AI China, Profesor Khusus Universitas Ekonomi dan Keuangan Shanghai, Hu Yanping, menyebutnya sebagai “Tim China AI.”
Dia berpendapat bahwa, konsentrasi pasar industri tidak selalu lebih tinggi lebih baik, melainkan keberadaan beberapa perusahaan utama yang membentuk komunitas teknologi industri yang luas, bukan hanya dua atau tiga perusahaan monopoli, adalah hal yang baik untuk inovasi kompetitif dan ekosistem talenta, serta membantu membentuk keunggulan kluster dalam kompetisi AI China-AS.
Martin Casado, mitra dari perusahaan modal ventura terkenal Andreessen Horowitz (a16z), mengamati bahwa, sekarang, dalam Silicon Valley, 80% dari model-model utama yang digunakan dalam pitch startup AI adalah model open-source dari China.
Daya Saing: Biaya Kurang dari 1/10 dari AI AS, Mengapa Token China Lebih Murah?
Model-model China mampu merebut perhatian pengembang global dalam waktu singkat, selain performa yang setara bahkan melampaui model-model internasional terkemuka, keunggulan biaya yang sangat kompetitif adalah kekuatan inti yang tak terbantahkan.
Sebagai contoh, harga yang diumumkan di platform OpenRouter menunjukkan bahwa keunggulan biaya model-model China sangat jelas.
Dalam proses pengolahan input data, MiniMax M2.5 dan Zhipu GLM-5 masing-masing dihargai 0,3 USD per juta Token. Sebagai pembanding, produk sejenis dari luar negeri, Claude Opus4.6, harganya mencapai 5 USD per juta Token, sekitar 16,7 kali lipat dari kedua model China tersebut.
Dalam proses menghasilkan output, perbedaan biaya lebih mencolok. Harga output MiniMax M2.5 adalah 1,1 USD per juta Token, GLM-5 dari Zhipu adalah 2,55 USD, sedangkan Claude Opus4.6 melonjak ke 25 USD per juta Token, masing-masing sekitar 22,7 kali dan 9,8 kali lipat dari model China.
Perbedaan biaya sebesar ini secara langsung memengaruhi pertimbangan ekonomi pengembang dalam memilih API.
Perbedaan biaya yang mencolok ini terutama berasal dari inovasi arsitektur algoritma.
Li Qing, Direktur China dari Frost & Sullivan, dalam wawancara dengan ME, menjelaskan bahwa arsitektur “Mixture-of-Experts (MoE)” adalah salah satu alasan utama model-model China mampu secara signifikan menurunkan biaya inferensi. Saat ini, model-model seperti DeepSeek dan Tongyi Qianwen 3.5-Plus dari Alibaba sudah secara luas mengadopsi arsitektur MoE.
Keunggulan arsitektur MoE terletak pada kemampuannya membagi satu model besar menjadi beberapa “jaringan ahli” yang relatif kecil dan satu “jaringan pengatur” (gating network). Meskipun jumlah parameter totalnya sangat besar (misalnya ratusan miliar), memastikan kapasitas pengetahuan dan kemampuan maksimal, saat menangani satu tugas, jaringan pengatur akan secara cerdas menilai sifat tugas tersebut dan hanya mengaktifkan sebagian kecil dari jaringan ahli yang paling relevan.
Model “aktif sesuai kebutuhan” ini, dibandingkan dengan model padat tradisional yang mengaktifkan seluruh parameter setiap kali proses, secara drastis mengurangi jumlah perhitungan dan kebutuhan sumber daya hardware. Data menunjukkan bahwa, menggunakan arsitektur MoE dapat mengurangi penggunaan memori GPU selama inferensi hingga 60%, dan meningkatkan throughput inferensi (jumlah Token yang diproses per satuan waktu) hingga 19 kali lipat. Inovasi dari sumber teknologi ini adalah dasar utama dari keunggulan biaya tersebut.
Selain inovasi arsitektur algoritma, vendor AI China juga aktif mengeksplorasi jalur “integrasi vertikal” untuk lebih menekan biaya per Token. Ide utamanya adalah mengintegrasikan secara mendalam desain algoritma model tingkat atas, infrastruktur cloud tingkat menengah, dan chip AI tingkat bawah secara kolaboratif dan terintegrasi, sehingga mengatasi masalah kompatibilitas perangkat lunak dan perangkat keras, serta memaksimalkan pemanfaatan daya komputasi.
Li Qing memberi contoh sistem “Tongyi-Cloud-Core” dari Alibaba, yang mampu melakukan penjadwalan daya komputasi secara optimal dari atas ke bawah, memanfaatkan sumber daya perangkat keras secara efisien, dan secara signifikan menurunkan biaya infrastruktur di balik layanan AI. Pengoptimalan sistem ini memungkinkan biaya pembuatan Token semakin ditekan.
JPMorgan dalam laporan risetnya memproyeksikan bahwa dari 2025 hingga 2030, konsumsi Token di pasar China akan tumbuh dengan tingkat pertumbuhan majemuk tahunan (CAGR) sebesar 330%, mencapai 370 kali lipat dalam lima tahun.
Transformasi Nilai: Token dari “Lalu Lintas” Internet Menjadi “Bahan Bakar” Era AI
Lonjakan eksponensial konsumsi Token tampak sebagai pertumbuhan jumlah pengguna dan durasi penggunaan, tetapi kekuatan pendorong yang lebih mendalam adalah perubahan fundamental dalam pola penggunaan AI oleh pengguna. Peran AI sedang berevolusi dari sekadar alat tanya jawab yang memberikan informasi sederhana dan hiburan harian, menjadi alat produktivitas yang mampu secara mendalam terlibat dalam alur kerja dan menangani tugas kompleks.
Dalam laporan terbaru, Securities firm Mandiri Securities memperkenalkan konsep “Inflasi Token.” Ini bukan berarti harga Token menjadi lebih mahal, melainkan struktur konsumsi Token per pengguna dalam satu waktu dan satu unit pengguna secara struktural meningkat. Fenomena ini dikaitkan dengan tiga tren utama.
Pertama, kebutuhan inti pengguna beralih dari sekadar “tanya jawab” ke “kerja nyata,” yaitu semakin banyak menggunakan AI untuk merekayasa ulang kode, mengubah dokumen, menghasilkan laporan, dan menjalankan pengujian. Skenario pemrograman secara alami memiliki karakteristik “konteks panjang, iterasi berulang, output besar,” yang sangat menguras Token.
Kedua, kemunculan dan adopsi teknologi Agen AI memperbesar konsumsi Token. Agen akan secara aktif merencanakan, mencari, mengeksekusi, dan merefleksikan, melakukan panggilan model berulang kali, sehingga konsumsi Token secara bertahap bertambah sesuai langkah.
Ketiga, adalah peningkatan intensitas inferensi. Pemikiran mendalam yang lebih panjang dan penalaran berantai akan secara signifikan meningkatkan konsumsi Token untuk output dan proses intermediate. Tetapi bagi pengembang, ini sering kali meningkatkan tingkat keberhasilan dan mengurangi pekerjaan ulang, sehingga pengguna bersedia “menambah investasi Token” demi efisiensi.
Serangkaian perubahan ini menandakan bahwa Token bukan lagi “lalu lintas” dengan biaya marginal hampir nol seperti di era internet, melainkan “bahan bakar” yang esensial saat menjalankan tugas produksi.
Tren ini sejalan dengan pandangan produsen chip terkemuka global. CEO Nvidia, Jensen Huang, dalam panggilan pendapatan 26 Februari, berulang kali menegaskan satu poin utama: “Computing equals revenue,” “Inference equals revenue.” Ia menekankan bahwa tanpa daya komputasi, tidak mungkin menghasilkan Token; tanpa Token, tidak akan ada pertumbuhan pendapatan. Dalam era AI, performa inferensi secara langsung menentukan kemampuan pendapatan pelanggan, dan inti dari inferensi adalah menghasilkan Token yang dapat dikomersialkan secara efisien. Di tengah tantangan daya listrik pusat data global yang semakin meningkat, “Performa per Watt” menjadi indikator utama efisiensi layanan AI dan potensi pendapatannya.
Li Qing kepada wartawan ME menyatakan bahwa, model bisnis layanan AI sedang bertransformasi dari sekadar “berbasis biaya” menjadi model campuran “bahan bakar + hasil.” Di satu sisi, sebagai “bahan bakar,” harga Token akan terus menurun seiring kemajuan teknologi dan skala ekonomi; di sisi lain, karena AI bertransformasi dari alat tanya jawab menjadi alat produktivitas yang mampu “kerja nyata,” perusahaan akan lebih bersedia membayar langsung untuk “hasil,” yang akan mendorong munculnya lebih banyak model bisnis berbasis langganan.
Li Qing juga memprediksi bahwa ke depan, penetapan harga layanan AI akan semakin disesuaikan secara tinggi dan fleksibel. Ia menyatakan bahwa kedatangan era Agen berarti tingkat kompleksitas tugas yang sangat beragam, sehingga model penetapan harga tunggal tidak akan mampu memenuhi semua kebutuhan bisnis. Ke depan, faktor-faktor seperti konsumsi komputasi, frekuensi panggilan, apakah tugas melibatkan multi-langkah penalaran atau perencanaan, akan menjadi faktor penentu harga, dan sistem penetapan harga multi-dimensi dan dinamis akan menjadi arus utama.
(Sumber artikel: Daily Economic News)