Pada 12 Februari, Zhipu merilis GLM-5, yang mengejutkan empat kursi. Laporan teknis dirilis 10 hari kemudian, memberikan gambaran sekilas tentang gen intrinsik model GLM-5.
Yang menarik bukan karena saya menyikat daftar itu lagi, tetapi seluruh ide telah berubah: tidak lagi membandingkan ukuran parameter, tetapi mulai membandingkan kemampuan rekayasa sistem.
Tiga hal yang dilakukan GLM-5 cukup nyata: 1. Model benar-benar dapat menyelesaikan tugas yang kompleks, tidak hanya menulis beberapa baris kode; 2. Efisiensi pelatihan telah naik ke tingkat yang lebih tinggi, dan model super besar bukan lagi permainan pembakaran uang murni; 3. Beradaptasi sepenuhnya dengan chip domestik dari bawah ke kerangka inferensi - ini adalah yang paling penting.
Jika sebelumnya “China mengejar ketinggalan”, sekarang sudah mulai membangun sistem teknisnya sendiri.
Dari “memberikan kode” hingga “melakukan sistem”
Laporan ini mengusulkan pergeseran konseptual: dari Vibe Coding ke Engineeringic Engineering. Yang pertama adalah ketika Anda mengatakan saya akan memberi Anda sepotong kode, dan yang terakhir adalah ketika Anda memberikan tujuan, saya merencanakan dan membongkarnya sendiri, menulis kode dan menyetel alat, men-debug dan mengulang, sampai seluruh sistem selesai.
Fokus GLM-5 tidak lagi pada skor pertanyaan tunggal, tetapi pada:
konteks 200K (volume beberapa ratus halaman dokumen)
Tugas rekayasa perangkat lunak lintas file
Perencanaan koreksi berkelanjutan dalam tugas siklus panjang
Pertahankan konsistensi dalam pemikiran di beberapa putaran interaksi
Misalnya, Vending-Bench 2 membutuhkan “simulasi pengoperasian mesin penjual otomatis selama satu tahun” dan akhirnya melihat saldo akun. GLM-5 adalah model open-source pertama, dekat dengan Claude Opus 4.5. Ini adalah ujian kemampuan pengambilan keputusan jangka panjang, bukan pertanyaan tanya jawab.
Model ini mulai memiliki “kecerdasan tingkat teknik”.
Perhatian jarang: Tidak ada lagi daya komputasi tanpa otak
GLM-5 memiliki 744B parameter (40B diaktifkan) dan telah melatih 28,5 triliun token. Menurut arsitektur tradisional, konsumsi daya komputasi akan meledak.
Inovasi intinya adalah DSA (DeepSeek Sparse Attention). Mekanisme perhatian tradisional “melihat semua isi” dan kompleksitas perhitungan meningkat dengan tingkat kuadrat; DSA secara dinamis menentukan “token mana yang benar-benar penting” dan hanya menghitung bagian-bagian kunci.
Dalam konteks panjang 200K, DSA mengurangi perhitungan perhatian sebesar 1,5-2 kali lipat.
Dan juga – tanpa kerusakan.
Metode perhatian efisien lainnya sering kali mengorbankan presisi, dan DSA memperlancar transisi dengan melanjutkan pra-pelatihan tanpa menurunkan kinerja.
Hasilnya adalah:
Hashrate yang sama → konteks yang lebih panjang
Biaya yang sama → kemampuan penalaran yang lebih tinggi
Perangkat keras yang sama → model yang lebih besar
Bagi China, inovasi efisiensi jauh lebih penting daripada daya komputasi tumpukan.
Memperkuat rekonstruksi arsitektur pembelajaran
Sistem RL GLM-5 telah diubah sepenuhnya.
Generasi dan pelatihan dipisahkan. Model menghasilkan lintasan dan pelatihan berlangsung secara asinkron pada sistem lain. Di masa lalu, Anda harus menunggu tugas paling lambat diselesaikan sebelum melanjutkan pelatihan, tetapi sekarang siapa pun yang menyelesaikan kereta pertama akan dilatih, dan throughputnya akan sangat meningkat. Penting untuk tugas agen jarak jauh.
Algoritma Agent RL asinkron memecahkan masalah tugas yang berlangsung selama berjam-jam dalam rekayasa perangkat lunak nyata. Memperkenalkan:
Model ini dapat belajar secara stabil di lingkungan yang kompleks dan tidak akan mogok karena pergeseran kebijakan.
Terus terang, solusinya adalah “bagaimana membuat model besar terus meningkatkan diri dalam tugas-tugas nyata”.
Langkah kunci yang sebenarnya: beradaptasi dengan daya komputasi domestik
Ini adalah bagian terpenting dari laporan tentang AI China.
GLM-5 secara asli diadaptasi dengan ekosistem GPU domestik dan kompatibel dengan Huawei Ascend, Moore Threads, Haiguang, Cambrian, Kunlun Core, Tianshu Zhixin, dan Suiyuan.
Ini bukan jenis adaptasi yang “bisa berjalan”, tetapi:
Pengoptimalan penjadwalan cache KV
Adaptasi mekanisme komunikasi
Pencocokan pelatihan presisi campuran
Penyelarasan pelatihan persepsi kuantitatif INT4
Pemfaktoran ulang kebijakan paralel terdistribusi
Kesulitan banyak ekosistem chip domestik bukanlah daya komputasi, tetapi tumpukan perangkat lunak.
Pentingnya GLM-5 adalah bahwa GLM-5 tidak dirancang di sekitar satu arsitektur perangkat keras luar negeri, tetapi adaptasi tingkat sistem untuk berbagai platform daya komputasi domestik.
Ini adalah perubahan kualitatif - model besar China telah mulai mengoptimalkan proyek mereka di sekitar ekologi perangkat keras lokal dan tidak lagi dimigrasikan secara pasif.
Menurut laporan tersebut, berkat pengoptimalan ekstrem kolaborasi perangkat lunak dan perangkat keras yang disebutkan di atas, kinerja GLM-5 pada satu node daya komputasi domestik sebanding dengan kluster komputasi yang terdiri dari dua GPU arus utama internasional; Selain itu, biaya penyebaran berkurang secara signifikan sebesar 50% dalam skenario pemrosesan urutan panjang.
Lingkaran tertutup perangkat lunak dan perangkat keras mulai terbentuk
Mengambil jalur teknis GLM-5, ini adalah loop tertutup yang lengkap:
Inovasi Arsitektur Model (DSA)→ Pengoptimalan Efisiensi Pelatihan (RL Asinkron)→ Kompresi Memori dan Komunikasi (ZeRO, Offload Aktivasi)→ Penyelarasan Presisi Rendah (INT4 QAT)→ Adaptasi Mendalam dari Chip Domestik
Ini adalah tautan rekayasa AI domestik yang lengkap.
Di masa lalu, keunggulan AI China ada di lapisan aplikasi, tetapi sekarang telah mulai memasuki pengoptimalan full-stack inovasi arsitektur, rekayasa algoritma, sistem pelatihan, adaptasi chip, dan kerangka kerja inferensi.
Signifikansi sebenarnya dari laporan teknis ini bukan dalam skor tolok ukur, tetapi pada pertama kalinya AI Tiongkok telah menunjukkan daya saing dengan “kemampuan sistem”.
Dari memamerkan keterampilan hingga kedewasaan
Laporan GLM-5 tidak terlalu menekankan “seberapa baik kita daripada siapa”, mengungkapkan secara rinci proses pelatihan, pemilihan algoritma, trade-off teknik, dan eksperimen ablasi. Ini sendiri merupakan tanda kedewasaan.
Ketika sebuah model mulai berbicara tentang pemanfaatan GPU, latensi ekor panjang, multiplexing cache KV, penyelarasan kernel terkuantisasi, dan kontrol lupa bencana - model tidak lagi memamerkan kemampuannya, tetapi melakukan sistem kelas industri.
Bagi China, GLM-5 lebih seperti deklarasi: kita tidak hanya dapat membuat model besar, tetapi juga melakukan adaptasi daya komputasi kita sendiri, dan kita juga dapat membuka keduanya.
Ini adalah lompatan yang sebenarnya.
Peringatan risiko dan penafian
Pasar berisiko, dan investasi perlu berhati-hati. Artikel ini bukan merupakan saran investasi pribadi dan tidak memperhitungkan tujuan investasi tertentu, situasi keuangan, atau kebutuhan pengguna individu. Pengguna harus mempertimbangkan apakah pendapat, pendapat, atau kesimpulan yang terkandung dalam artikel ini konsisten dengan keadaan spesifik mereka. Berinvestasilah sesuai dengan risiko Anda sendiri.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Zhipu merilis detail teknis GLM-5: kecerdasan tingkat engineering, kompatibel dengan daya komputasi domestik
Pada 12 Februari, Zhipu merilis GLM-5, yang mengejutkan empat kursi. Laporan teknis dirilis 10 hari kemudian, memberikan gambaran sekilas tentang gen intrinsik model GLM-5.
Yang menarik bukan karena saya menyikat daftar itu lagi, tetapi seluruh ide telah berubah: tidak lagi membandingkan ukuran parameter, tetapi mulai membandingkan kemampuan rekayasa sistem.
Tiga hal yang dilakukan GLM-5 cukup nyata: 1. Model benar-benar dapat menyelesaikan tugas yang kompleks, tidak hanya menulis beberapa baris kode; 2. Efisiensi pelatihan telah naik ke tingkat yang lebih tinggi, dan model super besar bukan lagi permainan pembakaran uang murni; 3. Beradaptasi sepenuhnya dengan chip domestik dari bawah ke kerangka inferensi - ini adalah yang paling penting.
Jika sebelumnya “China mengejar ketinggalan”, sekarang sudah mulai membangun sistem teknisnya sendiri.
Dari “memberikan kode” hingga “melakukan sistem”
Laporan ini mengusulkan pergeseran konseptual: dari Vibe Coding ke Engineeringic Engineering. Yang pertama adalah ketika Anda mengatakan saya akan memberi Anda sepotong kode, dan yang terakhir adalah ketika Anda memberikan tujuan, saya merencanakan dan membongkarnya sendiri, menulis kode dan menyetel alat, men-debug dan mengulang, sampai seluruh sistem selesai.
Fokus GLM-5 tidak lagi pada skor pertanyaan tunggal, tetapi pada:
Misalnya, Vending-Bench 2 membutuhkan “simulasi pengoperasian mesin penjual otomatis selama satu tahun” dan akhirnya melihat saldo akun. GLM-5 adalah model open-source pertama, dekat dengan Claude Opus 4.5. Ini adalah ujian kemampuan pengambilan keputusan jangka panjang, bukan pertanyaan tanya jawab.
Model ini mulai memiliki “kecerdasan tingkat teknik”.
Perhatian jarang: Tidak ada lagi daya komputasi tanpa otak
GLM-5 memiliki 744B parameter (40B diaktifkan) dan telah melatih 28,5 triliun token. Menurut arsitektur tradisional, konsumsi daya komputasi akan meledak.
Inovasi intinya adalah DSA (DeepSeek Sparse Attention). Mekanisme perhatian tradisional “melihat semua isi” dan kompleksitas perhitungan meningkat dengan tingkat kuadrat; DSA secara dinamis menentukan “token mana yang benar-benar penting” dan hanya menghitung bagian-bagian kunci.
Dalam konteks panjang 200K, DSA mengurangi perhitungan perhatian sebesar 1,5-2 kali lipat.
Dan juga – tanpa kerusakan.
Metode perhatian efisien lainnya sering kali mengorbankan presisi, dan DSA memperlancar transisi dengan melanjutkan pra-pelatihan tanpa menurunkan kinerja.
Hasilnya adalah:
Bagi China, inovasi efisiensi jauh lebih penting daripada daya komputasi tumpukan.
Memperkuat rekonstruksi arsitektur pembelajaran
Sistem RL GLM-5 telah diubah sepenuhnya.
Generasi dan pelatihan dipisahkan. Model menghasilkan lintasan dan pelatihan berlangsung secara asinkron pada sistem lain. Di masa lalu, Anda harus menunggu tugas paling lambat diselesaikan sebelum melanjutkan pelatihan, tetapi sekarang siapa pun yang menyelesaikan kereta pertama akan dilatih, dan throughputnya akan sangat meningkat. Penting untuk tugas agen jarak jauh.
Algoritma Agent RL asinkron memecahkan masalah tugas yang berlangsung selama berjam-jam dalam rekayasa perangkat lunak nyata. Memperkenalkan:
Model ini dapat belajar secara stabil di lingkungan yang kompleks dan tidak akan mogok karena pergeseran kebijakan.
Terus terang, solusinya adalah “bagaimana membuat model besar terus meningkatkan diri dalam tugas-tugas nyata”.
Langkah kunci yang sebenarnya: beradaptasi dengan daya komputasi domestik
Ini adalah bagian terpenting dari laporan tentang AI China.
GLM-5 secara asli diadaptasi dengan ekosistem GPU domestik dan kompatibel dengan Huawei Ascend, Moore Threads, Haiguang, Cambrian, Kunlun Core, Tianshu Zhixin, dan Suiyuan.
Ini bukan jenis adaptasi yang “bisa berjalan”, tetapi:
Kesulitan banyak ekosistem chip domestik bukanlah daya komputasi, tetapi tumpukan perangkat lunak.
Pentingnya GLM-5 adalah bahwa GLM-5 tidak dirancang di sekitar satu arsitektur perangkat keras luar negeri, tetapi adaptasi tingkat sistem untuk berbagai platform daya komputasi domestik.
Ini adalah perubahan kualitatif - model besar China telah mulai mengoptimalkan proyek mereka di sekitar ekologi perangkat keras lokal dan tidak lagi dimigrasikan secara pasif.
Menurut laporan tersebut, berkat pengoptimalan ekstrem kolaborasi perangkat lunak dan perangkat keras yang disebutkan di atas, kinerja GLM-5 pada satu node daya komputasi domestik sebanding dengan kluster komputasi yang terdiri dari dua GPU arus utama internasional; Selain itu, biaya penyebaran berkurang secara signifikan sebesar 50% dalam skenario pemrosesan urutan panjang.
Lingkaran tertutup perangkat lunak dan perangkat keras mulai terbentuk
Mengambil jalur teknis GLM-5, ini adalah loop tertutup yang lengkap:
Inovasi Arsitektur Model (DSA)→ Pengoptimalan Efisiensi Pelatihan (RL Asinkron)→ Kompresi Memori dan Komunikasi (ZeRO, Offload Aktivasi)→ Penyelarasan Presisi Rendah (INT4 QAT)→ Adaptasi Mendalam dari Chip Domestik
Ini adalah tautan rekayasa AI domestik yang lengkap.
Di masa lalu, keunggulan AI China ada di lapisan aplikasi, tetapi sekarang telah mulai memasuki pengoptimalan full-stack inovasi arsitektur, rekayasa algoritma, sistem pelatihan, adaptasi chip, dan kerangka kerja inferensi.
Signifikansi sebenarnya dari laporan teknis ini bukan dalam skor tolok ukur, tetapi pada pertama kalinya AI Tiongkok telah menunjukkan daya saing dengan “kemampuan sistem”.
Dari memamerkan keterampilan hingga kedewasaan
Laporan GLM-5 tidak terlalu menekankan “seberapa baik kita daripada siapa”, mengungkapkan secara rinci proses pelatihan, pemilihan algoritma, trade-off teknik, dan eksperimen ablasi. Ini sendiri merupakan tanda kedewasaan.
Ketika sebuah model mulai berbicara tentang pemanfaatan GPU, latensi ekor panjang, multiplexing cache KV, penyelarasan kernel terkuantisasi, dan kontrol lupa bencana - model tidak lagi memamerkan kemampuannya, tetapi melakukan sistem kelas industri.
Bagi China, GLM-5 lebih seperti deklarasi: kita tidak hanya dapat membuat model besar, tetapi juga melakukan adaptasi daya komputasi kita sendiri, dan kita juga dapat membuka keduanya.
Ini adalah lompatan yang sebenarnya.
Peringatan risiko dan penafian