Zhipu publie les détails techniques de GLM-5 : intelligence de niveau ingénierie, adaptée à la puissance de calcul nationale

robot
Création du résumé en cours

Le 12 février, Zhipu a lancé le GLM-5, qui a surpris les quatre sièges. Le rapport technique a été publié 10 jours plus tard, offrant un aperçu des gènes intrinsèques du modèle GLM-5.

Ce qui est intéressant, ce n’est pas que j’aie repassé la liste, mais que toute l’idée a changé : ne plus comparer la taille des paramètres, mais commencer à comparer la capacité d’ingénierie système.

Les trois choses que fait GLM-5 sont bien réelles : 1. Le modèle peut vraiment accomplir des tâches complexes, pas seulement écrire quelques lignes de code ; 2. L’efficacité de l’entraînement a atteint un niveau supérieur, et le modèle super-large n’est plus un jeu purement rentable ; 3. S’adapter pleinement aux puces domestiques, du bas jusqu’au cadre d’inférence – c’est le plus critique.

Si auparavant c’était « la Chine rattrape son retard », elle a maintenant commencé à construire son propre système technique.

De « donner du code » à « faire le système »

Le rapport propose un changement conceptuel : du Vibe Coding à l’Ingénierie Agentique. La première est quand vous dites que je vais vous donner un morceau de code, et la seconde est quand vous donnez l’objectif : je la planifie et la démonte moi-même, j’écris du code et ajuste des outils, je débogage et itére, jusqu’à ce que tout le système soit terminé.

L’objectif de GLM-5 n’est plus mis sur les scores à une seule question, mais sur :

contexte de 200K (le volume de quelques centaines de pages de documents)

Tâches d’ingénierie logicielle à fichiers croisés

Planification continue des corrections dans les tâches à long cycle

Maintenir la cohérence dans la réflexion sur plusieurs phases d’interaction

Par exemple, Vending-Bench 2 exige « simuler l’utilisation d’un distributeur automatique pendant un an » et enfin examiner le solde du compte. GLM-5 est le premier modèle open source, proche de Claude Opus 4.5. Il s’agit d’un test de capacité à prendre des décisions à long terme, pas d’une question de questions-réponses.

Le modèle commence à avoir une « intelligence de niveau ingénieur ».

Attention limitée : fini la puissance de calcul sans cervelle

GLM-5 dispose de 744 milliards de paramètres (40 milliards activés) et a entraîné 28,5 billions de jetons. Selon l’architecture traditionnelle, la consommation d’énergie de calcul explosera.

L’innovation principale est la DSA (DeepSeek Sparse Attention). Le mécanisme traditionnel de l’attention « examine tous les contenus » et la complexité du calcul augmente au niveau carré ; La DSA détermine dynamiquement « quels jetons sont vraiment importants » et ne compte que les parties clés.

Dans un contexte de 200 000 km, la DSA réduit le calcul de l’attention de 1,5 à 2 fois.

Et aussi – sans dommage.

D’autres méthodes d’attention efficaces sacrifient souvent la précision, et la DSA facilite la transition en poursuivant la pré-entraînement sans dégrader la performance.

Le résultat est :

  • Même taux de hachage → contexte plus long
  • Même coût → meilleure capacité de raisonnement
  • Même matériel → modèle plus grand

Pour la Chine, l’innovation en matière d’efficacité est bien plus importante que la puissance de calcul en tas.

Renforcer la reconstruction de l’architecture de l’apprentissage

Le système RL du GLM-5 a été complètement remanié.

La génération et la formation sont découplées. Le modèle génère une trajectoire et l’entraînement se déroule de manière asynchrone sur un autre système. Autrefois, il fallait attendre que la tâche la plus lente soit terminée avant de poursuivre la formation, mais maintenant, celui qui termine les premiers trains sera formé, et le débit sera grandement amélioré. Essentiel pour les tâches d’agent à distance.

L’algorithme asynchrone Agent RL résout le problème des tâches qui durent des heures en ingénierie logicielle réelle. Introduction :

  • Token-in-token-out-out (éviter les erreurs de re-segmentation)
  • Échantillonnage bilatéral d’importance
  • Cache KV d’optimisation de routes conscient du DP

Le modèle peut apprendre de manière stable dans des environnements complexes et ne plante pas à cause des changements de politique.

Pour être franc, la solution est « comment faire en sorte que les grands modèles continuent à s’améliorer dans de vraies tâches ».

La véritable étape clé : s’adapter à la puissance de calcul domestique

C’est la partie la plus importante du rapport sur l’IA chinoise.

GLM-5 est adapté nativement à l’écosystème GPU domestique et est compatible avec Huawei Ascend, Moore Threads, Haiguang, Cambrian, Kunlun Core, Tianshu Zhixin et Suiyuan.

Ce n’est pas le genre d’adaptation qui « peut tourner », mais :

  • Optimisation de la planification du cache KV
  • Adaptation du mécanisme de communication
  • Appariement d’entraînement à précision mixte
  • Alignement quantitatif de perception INT4
  • Refactoring de politique parallèle distribué

La difficulté de nombreux écosystèmes domestiques de puces ne réside pas dans la puissance de calcul, mais dans les piles logicielles.

L’importance du GLM-5 réside dans le fait qu’il n’est pas conçu autour d’une architecture matérielle unique à l’étranger, mais plutôt d’une adaptation au niveau système pour diverses plateformes de puissance informatique domestiques.

C’est un changement qualitatif : les grands modèles chinois ont commencé à optimiser leurs projets autour de l’écologie matérielle locale et ne migrent plus passivement.

Selon le rapport, grâce à l’optimisation extrême mentionnée ci-dessus de la collaboration logicielle-matérielle, les performances de GLM-5 sur un seul nœud de puissance informatique domestique sont comparables à celles d’un cluster informatique composé de deux GPU internationaux grand public ; De plus, le coût de déploiement est significativement réduit de 50 % dans les scénarios de traitement à longue séquence.

Une boucle fermée entre logiciels et matériels prend forme

En suivant la voie technique du GLM-5, il s’agit d’une boucle fermée complète :

Innovation en architecture de modèles (DSA) → optimisation de l’efficacité de l’entraînement (RL asynchrone)→ compression mémoire et communication (ZeRO, décharge d’activation)→ alignement basse précision (INT4 QAT)→ adaptation profonde des puces domestiques

C’est un lien complet pour l’ingénierie IA domestique.

Par le passé, l’avantage de l’IA de la Chine se trouvait au niveau applicatif, mais elle a maintenant commencé à s’implanter dans l’optimisation complète de l’innovation architecturale, de l’ingénierie algorithmique, des systèmes d’entraînement, de l’adaptation des puces et du cadre d’inférence.

La véritable signification de ce rapport technique ne réside pas dans un score de référence, mais dans la première fois que l’IA chinoise a montré une compétitivité avec les « capacités du système ».

De la mise en valeur des compétences à la maturité

Le rapport GLM-5 ne surestime pas « à quel point nous sommes meilleurs que qui », révélant en détail le processus d’entraînement, la sélection des algorithmes, les compromis d’ingénierie et les expériences d’ablation. Cela est en soi un signe de maturité.

Quand un modèle commence à parler d’utilisation du GPU, de latence à longue traîne, de multiplexage du cache KV, d’alignement quantifié du noyau et de contrôle catastrophique oublié – il ne montre plus ses capacités, mais fait des systèmes de qualité industrielle.

Pour la Chine, le GLM-5 ressemble davantage à une déclaration : nous pouvons non seulement créer de grands modèles, mais aussi adapter notre propre puissance de calcul, et nous pouvons aussi ouvrir les deux.

C’est le vrai saut.

Avertissement et avertissement de risque

        Le marché est risqué, et l’investissement doit être prudent. Cet article ne constitue pas un conseil d’investissement personnel et ne prend pas en compte les objectifs d’investissement spécifiques, la situation financière ou les besoins des utilisateurs individuels. Les utilisateurs doivent réfléchir à la question de savoir si les opinions, opinions ou conclusions contenues dans cet article sont cohérentes avec leur situation spécifique. Investissez en conséquence à vos risques et périls.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler

Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)