Guolian Minsheng Sekuritas: Permintaan Token dalam "Inflasi" Pengamatan Jangka Pendek terhadap Peningkatan Marginal yang Disebabkan oleh Kenaikan Harga dan Permintaan dari Penyedia Model Besar
Aplikasi Zhitong Finance mengetahui bahwa Guolian Minsheng Securities merilis laporan penelitian yang mengatakan bahwa komputasi awan secara bertahap menjadi “sumber daya penjualan”, sementara produsen model besar telah menjadi “menjual bahan bakar token + hasil penjualan”. Kenaikan harga Zhipu (02513) GLM Coding Plan mencerminkan perubahan logika penetapan harga industri:**Ketika konsumsi inferensi menjadi alat produksi, produsen model memiliki kesempatan untuk mengubah “kelangkaan daya komputasi” menjadi laba kotor dan arus kas melalui penetapan harga berjenjang dan produk berlangganan.**Dalam jangka pendek, amati peningkatan marjinal yang disebabkan oleh kenaikan harga dan permintaan (token “inflasi”), lacak pembaruan dan ekspansi yang disebabkan oleh kursi perusahaan dan retensi langganan dalam jangka menengah, dan optimis tentang pasar baru “firewall AI” yang dibawa oleh mempopulerkan alat tata kelola dalam jangka panjang.
Pandangan utama Guolian Minsheng Securities adalah sebagai berikut:
**Acara:**Pada 12 Februari, Zhipu mengumumkan di saluran resminya bahwa mereka akan menaikkan harga berlangganan Paket Pengkodean GLM, peningkatan “setidaknya 30%”.
Sebelumnya, vendor cloud luar negeri menaikkan harga bulan ini, seperti Google
Cloud telah meningkat sebesar 100% di Amerika Utara, dan juga meningkat secara bersamaan di Eropa dan Asia. Pada saat yang sama, harga AWS juga meningkat sekitar 15%. Secara keseluruhan, “inflasi” permintaan token tidak hanya baik untuk daya komputasi awan, tetapi juga memberi produsen model daya tawar.
Menumbangkan jalan bebas ke Internet tradisional
Jalur khas perangkat lunak Internet tradisional adalah pertama-tama menukar gratis untuk skala pengguna, dengan “jumlah dan durasi” untuk daya tawar, dan kemudian memonetisasi dalam iklan, langganan keanggotaan, layanan bernilai tambah, dan komisi transaksi. Artinya, jika ada satu pengguna lagi atau satu klik lagi, biayanya dapat diencerkan oleh efek bandwidth dan skala penyimpanan, sehingga mencapai biaya marjinal sekitar nol.
Di era komputasi awan, ada “harga pertama/harga rendah gratis dan kemudian ekspansi” yang serupa, tetapi unit penagihan cloud dengan cepat menjadi
CPU/penyimpanan/bandwidth/jumlah permintaan, pelanggan juga terbiasa “bayar sesuai pemakaian”. Cloud mengenakan biaya karena memberikan sumber daya dan SLA (perjanjian tingkat layanan antara penyedia layanan dan pelanggan) yang jelas. Namun, ketika industri masih dalam “perang harga model”, Zhipu memiliki sinyal kenaikan harga, yang berarti bahwa “satuan pengukuran” di era model besar telah bergeser dari lalu lintas (DAU/durasi) ke Token (konsumsi inferensi), dan konsumsi Token hanya diperlukan dalam lebih banyak skenario.
Perubahan di era model besar: Token telah menjadi “alat produksi yang terukur” dan bukan lagi “lalu lintas bebas”
Model besar telah mengubah layanan seperti “dialog/menulis kode/menghasilkan konten” yang tampaknya disediakan oleh penyedia perangkat lunak menjadi layanan penalaran online yang sangat bergantung pada daya komputasi. Untuk produsen model, setiap jawaban harus mengkonsumsi GPU, memori video, bandwidth, dan daya; Bagi pengguna, setiap kali “biarkan model berpikir sejenak, menulis kode yang lebih panjang, atau menjalankan tugas yang lebih kompleks” sesuai dengan konsumsi lebih banyak token, sehingga token secara alami menjadi unit pengukuran baru. Zhipu sebelumnya diperketat karena pertumbuhan pengguna, dan daya komputasi diperketat secara bertahap
Plan telah membuat pengaturan “penawaran terbatas”, yang membentuk “rantai penawaran dan permintaan” yang sangat khas dengan kenaikan harga berikutnya: permintaan meningkat secara signifikan dalam jangka pendek→ sumber daya menunjukkan kendala yang kaku (menghasilkan batas/batas aliran) → kenaikan harga.
Ketika kemacetan dan kekurangan sumber daya terjadi selama periode puncak, kenaikan harga adalah mekanisme bagi pabrik model untuk menyaring permintaan, yang dapat melindungi pengalaman pengguna lebih baik daripada “pembatasan aliran tanpa pandang bulu”. Selain itu, sisi biaya produsen model masih sangat terkait dengan pasokan GPU, pemanfaatan, dan pengoptimalan inferensi, dan kenaikan harga/penetapan harga berjenjang yang lebih masuk akal dapat menarik produsen model keluar dari perangkap “semakin besar skalanya, semakin banyak mereka rugi”, yang kondusif untuk meningkatkan kualitas laba kotor dan arus kas.
Permintaan token dalam “inflasi”
“Inflasi token” tidak berarti bahwa token itu sendiri menjadi lebih mahal, tetapi konsumsi token per unit waktu dan per pengguna meningkat secara struktural. Ada beberapa alasan tingginya permintaan token:
**Dari “Q&J” ke “Work”:**Sejak pengembangan model, pengguna tidak lagi puas dengan jawaban sederhana, tetapi mulai membiarkan model memfaktorkan ulang kode, menulis ulang file, menghasilkan dokumen, menjalankan pengujian, dll. Karakteristik skenario pemrograman secara alami adalah “konteks panjang, beberapa iterasi, dan sejumlah besar output”, yang merupakan konsumsi token dalam jumlah besar. Melalui ekspresi Zhipu, juga dikonfirmasi bahwa pengembang mengandalkan model mereka untuk dukungan pengkodean, yang mengarah pada pertumbuhan konsumsi token yang cepat.
**Dari “putaran tunggal” hingga “beberapa putaran agen”:**Zhipu memposisikan GLM-5 sebagai model generasi baru untuk pengkodean dan skenario agen. Pada 12 Februari, MiniMax-WP (00100) juga menandai model pemrograman unggulan terbaru M2.5 yang secara resmi diluncurkan sebagai model kelas produksi pertama di dunia yang dirancang secara asli untuk skenario Agen. Langsung membandingkan pemrograman M2.5 dengan kinerja agen (Coding & Agentic) terhadap Claude
Opus4.6。 Agen akan secara aktif merencanakan, mengambil, mengeksekusi, dan merefleksikan, dan memanggil model beberapa kali, dan konsumsi token secara alami akan terakumulasi selangkah demi selangkah.
**Kekuatan penalaran meningkat:**Lebih “pemikiran mendalam, inferensi tautan yang lebih lama” akan secara signifikan meningkatkan konsumsi token output dan proses perantara. Bagi pengembang, ini sering mengarah pada tingkat keberhasilan yang lebih tinggi dan lebih sedikit pengerjaan ulang, dan pengguna bersedia “membakar lebih banyak token untuk efisiensi”.
Ini berarti bahwa token bukanlah “lalu lintas” dengan biaya marjinal hampir nol di era Internet tradisional, tetapi merupakan “bahan bakar” penting untuk tugas produksi.
Saran investasi
Komputasi awan secara bertahap menjadi “sumber daya penjualan”, sementara produsen model besar telah menjadi “menjual bahan bakar token + hasil penjualan”. Pengkodean GLM spektrum cerdas
Kenaikan harga Plan mencerminkan perubahan logika penetapan harga industri: ketika konsumsi inferensi menjadi alat produksi, produsen model memiliki kesempatan untuk mengubah “kelangkaan daya komputasi” menjadi laba kotor dan arus kas melalui penetapan harga berjenjang dan produk berlangganan. Disarankan untuk terus memperhatikan:
**Vendor Cloud dan Infrastruktur Komputasi:**Pengeluaran TI dan investasi infrastruktur berbasis AI masih dalam siklus naik, dan sisi cloud akan mendapat manfaat dari pertumbuhan berkelanjutan dari “konsumsi yang menyertainya” seperti daya komputasi GPU, penyimpanan, dan I/O jaringan.
**Produsen model besar:**Ketika mereka dapat mempertahankan retensi langganan dan perluasan kursi perusahaan dalam skenario ROI tinggi seperti pemrograman, agen, dan proses perusahaan, dan dapat secara stabil mengubah “penggunaan token” menjadi nilai pengiriman yang menghemat orang, waktu, dan pengerjaan ulang, mereka memiliki kemampuan untuk mengatasi open source dan perang harga.
**Tata kelola keamanan dan alat perlindungan runtime:**Saat perusahaan menanamkan AI ke dalam alur kerja mereka, risiko seperti kebocoran data dan penjangkauan proxy yang berlebihan akan mendorong “platform keamanan AI/platform tata kelola” menjadi lapisan yang kaku.
Dalam jangka pendek, amati peningkatan marjinal yang disebabkan oleh kenaikan harga dan permintaan (token “inflasi”), lacak pembaruan dan ekspansi yang disebabkan oleh kursi perusahaan dan retensi langganan dalam jangka menengah, dan optimis tentang pasar baru “firewall AI” yang dibawa oleh mempopulerkan alat tata kelola dalam jangka panjang.
Peringatan risiko
perubahan rute teknis tidak pasti; Persaingan industri semakin ketat.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Guolian Minsheng Sekuritas: Permintaan Token dalam "Inflasi" Pengamatan Jangka Pendek terhadap Peningkatan Marginal yang Disebabkan oleh Kenaikan Harga dan Permintaan dari Penyedia Model Besar
Aplikasi Zhitong Finance mengetahui bahwa Guolian Minsheng Securities merilis laporan penelitian yang mengatakan bahwa komputasi awan secara bertahap menjadi “sumber daya penjualan”, sementara produsen model besar telah menjadi “menjual bahan bakar token + hasil penjualan”. Kenaikan harga Zhipu (02513) GLM Coding Plan mencerminkan perubahan logika penetapan harga industri:**Ketika konsumsi inferensi menjadi alat produksi, produsen model memiliki kesempatan untuk mengubah “kelangkaan daya komputasi” menjadi laba kotor dan arus kas melalui penetapan harga berjenjang dan produk berlangganan.**Dalam jangka pendek, amati peningkatan marjinal yang disebabkan oleh kenaikan harga dan permintaan (token “inflasi”), lacak pembaruan dan ekspansi yang disebabkan oleh kursi perusahaan dan retensi langganan dalam jangka menengah, dan optimis tentang pasar baru “firewall AI” yang dibawa oleh mempopulerkan alat tata kelola dalam jangka panjang.
Pandangan utama Guolian Minsheng Securities adalah sebagai berikut:
**Acara:**Pada 12 Februari, Zhipu mengumumkan di saluran resminya bahwa mereka akan menaikkan harga berlangganan Paket Pengkodean GLM, peningkatan “setidaknya 30%”. Sebelumnya, vendor cloud luar negeri menaikkan harga bulan ini, seperti Google Cloud telah meningkat sebesar 100% di Amerika Utara, dan juga meningkat secara bersamaan di Eropa dan Asia. Pada saat yang sama, harga AWS juga meningkat sekitar 15%. Secara keseluruhan, “inflasi” permintaan token tidak hanya baik untuk daya komputasi awan, tetapi juga memberi produsen model daya tawar.
Menumbangkan jalan bebas ke Internet tradisional
Jalur khas perangkat lunak Internet tradisional adalah pertama-tama menukar gratis untuk skala pengguna, dengan “jumlah dan durasi” untuk daya tawar, dan kemudian memonetisasi dalam iklan, langganan keanggotaan, layanan bernilai tambah, dan komisi transaksi. Artinya, jika ada satu pengguna lagi atau satu klik lagi, biayanya dapat diencerkan oleh efek bandwidth dan skala penyimpanan, sehingga mencapai biaya marjinal sekitar nol.
Di era komputasi awan, ada “harga pertama/harga rendah gratis dan kemudian ekspansi” yang serupa, tetapi unit penagihan cloud dengan cepat menjadi CPU/penyimpanan/bandwidth/jumlah permintaan, pelanggan juga terbiasa “bayar sesuai pemakaian”. Cloud mengenakan biaya karena memberikan sumber daya dan SLA (perjanjian tingkat layanan antara penyedia layanan dan pelanggan) yang jelas. Namun, ketika industri masih dalam “perang harga model”, Zhipu memiliki sinyal kenaikan harga, yang berarti bahwa “satuan pengukuran” di era model besar telah bergeser dari lalu lintas (DAU/durasi) ke Token (konsumsi inferensi), dan konsumsi Token hanya diperlukan dalam lebih banyak skenario.
Perubahan di era model besar: Token telah menjadi “alat produksi yang terukur” dan bukan lagi “lalu lintas bebas”
Model besar telah mengubah layanan seperti “dialog/menulis kode/menghasilkan konten” yang tampaknya disediakan oleh penyedia perangkat lunak menjadi layanan penalaran online yang sangat bergantung pada daya komputasi. Untuk produsen model, setiap jawaban harus mengkonsumsi GPU, memori video, bandwidth, dan daya; Bagi pengguna, setiap kali “biarkan model berpikir sejenak, menulis kode yang lebih panjang, atau menjalankan tugas yang lebih kompleks” sesuai dengan konsumsi lebih banyak token, sehingga token secara alami menjadi unit pengukuran baru. Zhipu sebelumnya diperketat karena pertumbuhan pengguna, dan daya komputasi diperketat secara bertahap Plan telah membuat pengaturan “penawaran terbatas”, yang membentuk “rantai penawaran dan permintaan” yang sangat khas dengan kenaikan harga berikutnya: permintaan meningkat secara signifikan dalam jangka pendek→ sumber daya menunjukkan kendala yang kaku (menghasilkan batas/batas aliran) → kenaikan harga.
Ketika kemacetan dan kekurangan sumber daya terjadi selama periode puncak, kenaikan harga adalah mekanisme bagi pabrik model untuk menyaring permintaan, yang dapat melindungi pengalaman pengguna lebih baik daripada “pembatasan aliran tanpa pandang bulu”. Selain itu, sisi biaya produsen model masih sangat terkait dengan pasokan GPU, pemanfaatan, dan pengoptimalan inferensi, dan kenaikan harga/penetapan harga berjenjang yang lebih masuk akal dapat menarik produsen model keluar dari perangkap “semakin besar skalanya, semakin banyak mereka rugi”, yang kondusif untuk meningkatkan kualitas laba kotor dan arus kas.
Permintaan token dalam “inflasi”
“Inflasi token” tidak berarti bahwa token itu sendiri menjadi lebih mahal, tetapi konsumsi token per unit waktu dan per pengguna meningkat secara struktural. Ada beberapa alasan tingginya permintaan token:
**Dari “Q&J” ke “Work”:**Sejak pengembangan model, pengguna tidak lagi puas dengan jawaban sederhana, tetapi mulai membiarkan model memfaktorkan ulang kode, menulis ulang file, menghasilkan dokumen, menjalankan pengujian, dll. Karakteristik skenario pemrograman secara alami adalah “konteks panjang, beberapa iterasi, dan sejumlah besar output”, yang merupakan konsumsi token dalam jumlah besar. Melalui ekspresi Zhipu, juga dikonfirmasi bahwa pengembang mengandalkan model mereka untuk dukungan pengkodean, yang mengarah pada pertumbuhan konsumsi token yang cepat.
**Dari “putaran tunggal” hingga “beberapa putaran agen”:**Zhipu memposisikan GLM-5 sebagai model generasi baru untuk pengkodean dan skenario agen. Pada 12 Februari, MiniMax-WP (00100) juga menandai model pemrograman unggulan terbaru M2.5 yang secara resmi diluncurkan sebagai model kelas produksi pertama di dunia yang dirancang secara asli untuk skenario Agen. Langsung membandingkan pemrograman M2.5 dengan kinerja agen (Coding & Agentic) terhadap Claude Opus4.6。 Agen akan secara aktif merencanakan, mengambil, mengeksekusi, dan merefleksikan, dan memanggil model beberapa kali, dan konsumsi token secara alami akan terakumulasi selangkah demi selangkah.
**Kekuatan penalaran meningkat:**Lebih “pemikiran mendalam, inferensi tautan yang lebih lama” akan secara signifikan meningkatkan konsumsi token output dan proses perantara. Bagi pengembang, ini sering mengarah pada tingkat keberhasilan yang lebih tinggi dan lebih sedikit pengerjaan ulang, dan pengguna bersedia “membakar lebih banyak token untuk efisiensi”.
Ini berarti bahwa token bukanlah “lalu lintas” dengan biaya marjinal hampir nol di era Internet tradisional, tetapi merupakan “bahan bakar” penting untuk tugas produksi.
Saran investasi
Komputasi awan secara bertahap menjadi “sumber daya penjualan”, sementara produsen model besar telah menjadi “menjual bahan bakar token + hasil penjualan”. Pengkodean GLM spektrum cerdas Kenaikan harga Plan mencerminkan perubahan logika penetapan harga industri: ketika konsumsi inferensi menjadi alat produksi, produsen model memiliki kesempatan untuk mengubah “kelangkaan daya komputasi” menjadi laba kotor dan arus kas melalui penetapan harga berjenjang dan produk berlangganan. Disarankan untuk terus memperhatikan:
**Vendor Cloud dan Infrastruktur Komputasi:**Pengeluaran TI dan investasi infrastruktur berbasis AI masih dalam siklus naik, dan sisi cloud akan mendapat manfaat dari pertumbuhan berkelanjutan dari “konsumsi yang menyertainya” seperti daya komputasi GPU, penyimpanan, dan I/O jaringan.
**Produsen model besar:**Ketika mereka dapat mempertahankan retensi langganan dan perluasan kursi perusahaan dalam skenario ROI tinggi seperti pemrograman, agen, dan proses perusahaan, dan dapat secara stabil mengubah “penggunaan token” menjadi nilai pengiriman yang menghemat orang, waktu, dan pengerjaan ulang, mereka memiliki kemampuan untuk mengatasi open source dan perang harga.
**Tata kelola keamanan dan alat perlindungan runtime:**Saat perusahaan menanamkan AI ke dalam alur kerja mereka, risiko seperti kebocoran data dan penjangkauan proxy yang berlebihan akan mendorong “platform keamanan AI/platform tata kelola” menjadi lapisan yang kaku.
Dalam jangka pendek, amati peningkatan marjinal yang disebabkan oleh kenaikan harga dan permintaan (token “inflasi”), lacak pembaruan dan ekspansi yang disebabkan oleh kursi perusahaan dan retensi langganan dalam jangka menengah, dan optimis tentang pasar baru “firewall AI” yang dibawa oleh mempopulerkan alat tata kelola dalam jangka panjang.
Peringatan risiko
perubahan rute teknis tidak pasti; Persaingan industri semakin ketat.