智谱 công bố chi tiết kỹ thuật của GLM-5: trí tuệ thông minh cấp kỹ thuật, phù hợp với sức mạnh tính toán nội địa

SnapshotLaborer · 2026-02-22T11:25:44+00:00

Việc ra mắt GLM-5 đánh dấu bước tiến quan trọng của AI Trung Quốc trong lĩnh vực kiến trúc mô hình và thích ứng phần cứng nội địa. Những đổi mới bao gồm cơ chế chú ý thưa và học tăng cường bất đồng bộ, nâng cao đáng kể hiệu quả đào tạo và khả năng hệ thống, thể hiện trí tuệ kỹ thuật mạnh mẽ. Đồng thời, GLM-5 hoàn toàn phù hợp với sức mạnh tính toán nội địa, thúc đẩy AI Trung Quốc tiến tới tối ưu toàn bộ chuỗi công nghệ, đánh dấu sự chuyển đổi từ việc bắt kịp sang hệ thống công nghệ độc lập.

SnapshotLaborer

2026-02-22 11:25:44

Đang tạo bản tóm tắt

Ngày 12 tháng 2, Zhipu ra mắt GLM-5, gây chấn động toàn ngành. Chỉ sau 10 ngày, báo cáo kỹ thuật đã được công bố, cho phép mọi người nhìn rõ hơn về gene nội tại của mô hình GLM-5.

Điều thú vị không phải là lại lập được thành tích mới trên các bảng xếp hạng, mà là toàn bộ tư duy đã thay đổi: không còn so sánh về kích thước tham số nữa, mà bắt đầu so sánh khả năng kỹ thuật hệ thống.

Ba điểm chính của GLM-5 đều rất thực chất: 1. Mô hình thực sự có thể hoàn thành các nhiệm vụ phức tạp, không chỉ viết vài dòng mã; 2. Hiệu quả huấn luyện đã tiến một bước, mô hình siêu lớn không còn chỉ là trò chơi tiêu tiền; 3. Từ nền tảng đến khung suy luận đều phù hợp toàn diện với chip nội địa — đây là điểm then chốt.

Nếu trước đây là “Trung Quốc đang bắt kịp”, thì giờ đã bắt đầu xây dựng hệ thống công nghệ riêng của mình.

Từ “Viết mã” đến “Xây hệ thống”

Báo cáo đã đề cập đến một sự chuyển đổi khái niệm: từ Vibe Coding sang Agentic Engineering. Trước đây là bạn nói một câu tôi viết một đoạn mã, còn bây giờ là bạn đưa ra mục tiêu, tôi tự lập kế hoạch phân tích, viết mã, điều chỉnh công cụ, thử nghiệm, lặp lại cho đến khi hoàn thiện toàn bộ hệ thống.

Điểm trọng tâm của GLM-5 không còn là điểm số từng câu hỏi nữa, mà là:

Context 200K (số lượng tài liệu hàng trăm trang)

Nhiệm vụ phần mềm xuyên tệp

Lập kế hoạch và điều chỉnh liên tục trong các nhiệm vụ dài hạn

Giữ sự nhất quán trong suy nghĩ qua nhiều vòng tương tác

Ví dụ, Vending-Bench 2 yêu cầu “Mô phỏng quản lý tự động bán hàng trong một năm”, cuối cùng là xem số dư tài khoản. Trong các mô hình mã nguồn mở, GLM-5 đứng đầu, gần bằng Claude Opus 4.5. Điều này kiểm tra khả năng ra quyết định dài hạn, không phải câu hỏi và trả lời.

Mô hình đã bắt đầu có “trí tuệ cấp kỹ thuật”.

Chú ý phân tán: Không còn tiêu tốn vô tội vạ tài nguyên tính toán

GLM-5 có 744B tham số (kích hoạt 40B), đã huấn luyện 28.5 nghìn tỷ token. Theo kiến trúc truyền thống, tiêu thụ năng lượng sẽ bùng nổ.

Điểm sáng tạo cốt lõi là DSA (DeepSeek Sparse Attention). Cơ chế chú ý truyền thống “xem tất cả nội dung”, độ phức tạp tính toán tăng theo bình phương; DSA động xác định “tài liệu nào thực sự quan trọng”, chỉ tính phần then chốt.

Trong bối cảnh dài 200K, DSA giảm lượng tính toán chú ý xuống 1.5–2 lần.

Hơn nữa — không tổn thất.

Các phương pháp chú ý hiệu quả khác thường hy sinh độ chính xác, nhưng DSA qua quá trình huấn luyện tiếp tục mượt mà, hiệu năng không giảm sút.

Kết quả là:

Cùng mức tính toán → có thể xử lý dài hơn
Cùng chi phí → khả năng suy luận cao hơn
Cùng phần cứng → mô hình lớn hơn

Đối với Trung Quốc, đổi mới về hiệu suất còn quan trọng hơn nhiều so với tăng cường năng lực tính toán.

Cấu trúc học tăng cường

Hệ thống RL của GLM-5 đã được cải tiến toàn diện.

Phân tách sinh và huấn luyện. Quá trình sinh mô hình và huấn luyện diễn ra trên hệ thống khác nhau, bất đồng bộ. Trước đây phải chờ nhiệm vụ chậm nhất hoàn thành mới tiếp tục huấn luyện, giờ đây ai hoàn thành trước sẽ được huấn luyện trước, tăng năng suất rõ rệt. Điều này đặc biệt quan trọng đối với các nhiệm vụ Agent dài hạn.

Thuật toán RL bất đồng bộ cho Agent giải quyết vấn đề nhiệm vụ kéo dài hàng giờ trong thực tế phần mềm. Đưa vào các kỹ thuật như:

Token-in-Token-out (tránh sai số do phân tách lại)
Lấy mẫu quan trọng hai phía
Tối ưu hóa định tuyến KV cache theo DP-aware

Mô hình có thể học ổn định trong môi trường phức tạp, không bị sụp đổ do lệch chiến lược.

Nói cách khác, đây là giải pháp cho câu hỏi “Làm thế nào để mô hình lớn tự cải thiện liên tục trong nhiệm vụ thực tế”.

Bước thực sự then chốt: phù hợp hóa với năng lực tính toán nội địa

Báo cáo quan trọng nhất đối với AI Trung Quốc nằm ở đây.

GLM-5 đã được tối ưu hóa hoàn toàn cho hệ sinh thái GPU nội địa, đã tương thích với Huawei Ascend, Mô Thần, Hải Quang, Cambrian, Kunlun, Tianshu, Suiyuan.

Không chỉ là “chạy được”, mà còn:

Tối ưu hóa điều phối KV cache
Thích ứng cơ chế truyền thông
Phù hợp huấn luyện hỗn hợp chính xác
Đồng bộ hóa huấn luyện lượng tử INT4
Tái cấu trúc chiến lược phân tán song song

Nhiều khó khăn trong hệ sinh thái chip nội địa không phải do năng lực tính toán, mà là do phần mềm.

Ý nghĩa của GLM-5 là: không chỉ thiết kế xoay quanh một kiến trúc phần cứng nước ngoài duy nhất, mà hướng tới đa nền tảng nội địa, xây dựng hệ thống phù hợp toàn diện.

Đây là bước biến đổi chất lượng — mô hình lớn của Trung Quốc bắt đầu tối ưu hệ thống dựa trên phần cứng nội địa, không còn bị động chuyển đổi nữa.

Báo cáo cho biết, nhờ tối ưu phần mềm và phần cứng cực kỳ phối hợp, hiệu suất của GLM-5 trên một nút tính nội địa đã đủ sức cạnh tranh với cụm tính gồm hai GPU quốc tế hàng đầu; hơn nữa, trong các kịch bản xử lý chuỗi dài, chi phí triển khai còn giảm tới 50%.

Chu trình khép kín phần mềm-hardware đang hình thành

Phân tích lộ trình công nghệ của GLM-5 thành một vòng khép kín hoàn chỉnh:

Đổi mới kiến trúc mô hình (DSA) → Tối ưu hiệu quả huấn luyện (RL bất đồng bộ) → Nén bộ nhớ và truyền thông (ZeRO, unload hoạt động) → Đồng bộ lượng tử chính xác (INT4 QAT) → Phù hợp chip nội địa

Đây là chuỗi hệ thống toàn diện cho AI nội địa.

Trước đây, lợi thế của AI Trung Quốc nằm ở ứng dụng, giờ đã bắt đầu tiến vào đổi mới kiến trúc, kỹ thuật thuật toán, hệ thống huấn luyện, phù hợp chip, khung suy luận — toàn bộ chuỗi giá trị.

Ý nghĩa thực sự của báo cáo này không nằm ở điểm số benchmark, mà ở chỗ lần đầu tiên AI Trung Quốc thể hiện sức mạnh cạnh tranh dựa trên “khả năng hệ thống”.

Từ “khoe khả năng” đến “chín muồi”

Báo cáo của GLM-5 không quá nhấn mạnh “chúng tôi mạnh hơn ai”, mà tiết lộ chi tiết quá trình huấn luyện, lựa chọn thuật toán, cân nhắc kỹ thuật, các thử nghiệm ablation. Điều này đã thể hiện sự chín chắn.

Khi một mô hình bắt đầu bàn về tỷ lệ sử dụng GPU, độ trễ dài, tái sử dụng KV cache, căn chỉnh kernel lượng tử, kiểm soát quên cục bộ — nó đã không còn chỉ là khoe khả năng, mà đang xây dựng hệ thống công nghiệp.

Đối với Trung Quốc, GLM-5 giống như một tuyên ngôn: chúng tôi không chỉ có thể làm mô hình lớn, còn có thể phù hợp phần cứng nội địa, và kết nối hai yếu tố này thành một hệ thống thống nhất.

Đây mới là bước vượt qua thực sự.

Cảnh báo rủi ro và điều khoản miễn trừ

Thị trường có rủi ro, đầu tư cần thận trọng. Bài viết này không phải là lời khuyên đầu tư cá nhân, cũng chưa xem xét các mục tiêu, tình hình tài chính hoặc nhu cầu đặc thù của từng người dùng. Người đọc cần tự cân nhắc xem các ý kiến, quan điểm hoặc kết luận trong bài phù hợp với hoàn cảnh của mình hay không. Đầu tư theo đó, chịu trách nhiệm về quyết định của mình.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

2 thích