12 февраля, Zhipu выпустила GLM-5, вызвав сенсацию. Через 10 дней появился технический отчет, позволяющий заглянуть в внутренние гены модели GLM-5.
Интересно не только то, что она снова побила рекорды, а в целом изменился подход: больше не сравнивают параметры, а начинают оценивать системную инженерную способность.
Три ключевых достижения GLM-5 — очень практичны: 1. модель действительно способна выполнять сложные задачи, а не просто писать несколько строк кода; 2. уровень эффективности обучения поднялся на новый уровень, огромные модели больше не только игра в деньги; 3. полностью адаптирована под отечественные чипы — это самое важное.
Если раньше говорили, что «Китай догоняет», то сейчас уже строит свою собственную технологическую систему.
От «предоставления кода» к «созданию систем»
В отчете предложена концептуальная смена: от Vibe Coding к Agentic Engineering. Первый — это когда ты говоришь «напиши код», второй — когда ты ставишь цель, я сам планирую, разбираю, пишу код, настраиваю инструменты, отлаживаю и итеративно довожу систему до готовности.
Главный акцент GLM-5 уже не на баллах за отдельные задачи, а на:
Контекст около 200 тысяч токенов (несколько сотен страниц документов)
Межфайловые задачи программной инженерии
Постоянное планирование и корректировка в длительных задачах
Многократные циклы взаимодействия для поддержания согласованности мышления
Например, Vending-Bench 2 требует «моделировать автомат по продаже за год», в итоге — проверить баланс счета. GLM-5 в открытом доступе — первая модель, приближающаяся по возможностям к Claude Opus 4.5. Это тест долгосрочного принятия решений, а не вопрос-ответ.
Модель уже обладает «инженерным интеллектом».
Разреженное внимание: больше не бессмысленно тратить вычислительные ресурсы
GLM-5 содержит 744 миллиарда параметров (активных 40 миллиардов), обучена на 285 триллионах токенов. При традиционной архитектуре расход вычислений взрывается.
Ключевое нововведение — DSA (DeepSeek разреженное внимание). Традиционное внимание «смотрит на всё», сложность растет квадратично; DSA динамически определяет, какие токены действительно важны, и считает только их.
При длине контекста около 200 тысяч токенов DSA снижает объем вычислений внимания в 1.5–2 раза.
И — без потерь.
Другие эффективные методы внимания обычно жертвуют точностью, а DSA, продолжая предварительное обучение, обеспечивает плавный переход без деградации производительности.
Результат:
при одинаковых вычислительных ресурсах — более длинный контекст
при одинаковых затратах — более мощное рассуждение
при использовании того же оборудования — более крупная модель
Для Китая важнее эффективность, чем просто увеличение мощности.
Реконструкция архитектуры обучения с подкреплением
Генерация и обучение теперь разъединены. Модель генерирует траекторию, обучение происходит асинхронно в отдельной системе. Раньше приходилось ждать завершения самого медленного задания, сейчас — кто быстрее завершил, тот и обучается, что значительно повышает пропускную способность. Это критично для задач долгосрочного агента.
Асинхронные алгоритмы RL позволяют стабильно обучать в сложных программных средах, не давая стратегии сбиться.
В сущности, речь идет о том, как заставить большую модель постоянно самоулучшаться в реальных задачах.
Самый важный шаг — адаптация под отечественные вычислительные платформы
Самая важная часть отчета для Китая.
GLM-5 изначально адаптирована под отечественную GPU-экосистему, уже совместима с Huawei Ascend, Moore Threads, Hygon, Cambricon, Kunlun, TianNum, Suiyuan.
Это не просто «может работать», а полноценная системная адаптация, включающая:
Многие сложности отечественной экосистемы — не в вычислительной мощности, а в программном стеке.
Значение GLM-5 в том, что она создается не вокруг одного зарубежного аппаратного стандарта, а ориентирована на множество отечественных платформ, делая системную интеграцию.
Это качественный скачок — китайские крупные модели начинают оптимизировать инженерные решения под собственное аппаратное обеспечение, а не просто переносить зарубежные решения.
Благодаря максимально эффективной синергии аппаратного и программного обеспечения, GLM-5 на одной отечественной вычислительной ноде уже способна конкурировать по производительности с кластером из двух международных GPU; более того, в задачах обработки длинных последовательностей стоимость развертывания снизилась на 50%.
Закрытый цикл аппаратного и программного обеспечения формируется
Анализируя путь GLM-5, можно выделить полноценный замкнутый цикл:
Инновации в архитектуре модели (DSA) → оптимизация эффективности обучения (асинхронное RL) → сжатие памяти и коммуникаций (ZeRO, выгрузка активаций) → согласование с низкоточной точностью (INT4 QAT) → глубокая адаптация под отечественные чипы
Это целая цепочка отечественной AI-индустрии.
Раньше преимущества Китая в AI проявлялись на уровне приложений, а сейчас начинается полномасштабное развитие в области архитектурных инноваций, алгоритмических решений, систем обучения, адаптации под чипы и оптимизации инференса.
Истинное значение этого отчета — не в каких-то бенчмарках, а в том, что впервые в Китае AI демонстрирует конкурентоспособность на системном уровне.
От демонстрации возможностей к зрелости
Отчет по GLM-5 не сосредоточен на «насколько мы лучше», а подробно раскрывает процессы обучения, выбор алгоритмов, инженерные компромиссы и абляционные эксперименты. Это и есть проявление зрелости.
Когда модель начинает говорить о GPU-использовании, задержках на длинных цепочках, повторном использовании KV-кеша, выравнивании квантовых ядер, контроле за катастрофическим забыванием — она уже не просто демонстрирует возможности, а создает промышленную систему.
Для Китая GLM-5 — это скорее заявление: мы не только можем создавать крупные модели, но и разрабатывать собственные аппаратные решения, и интегрировать их вместе.
Это настоящий прорыв.
Предупреждение о рисках и отказ от ответственности
Рынок подвержен рискам, инвестиции требуют осторожности. Настоящий материал не является индивидуальной инвестиционной рекомендацией и не учитывает особенности финансового положения или целей конкретного пользователя. Пользователь сам несет ответственность за соответствие мнений, взглядов или выводов своим условиям.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Компания Zhipu опубликовала технические детали GLM-5: инженерный уровень интеллекта, совместимый с отечественными вычислительными мощностями.
12 февраля, Zhipu выпустила GLM-5, вызвав сенсацию. Через 10 дней появился технический отчет, позволяющий заглянуть в внутренние гены модели GLM-5.
Интересно не только то, что она снова побила рекорды, а в целом изменился подход: больше не сравнивают параметры, а начинают оценивать системную инженерную способность.
Три ключевых достижения GLM-5 — очень практичны: 1. модель действительно способна выполнять сложные задачи, а не просто писать несколько строк кода; 2. уровень эффективности обучения поднялся на новый уровень, огромные модели больше не только игра в деньги; 3. полностью адаптирована под отечественные чипы — это самое важное.
Если раньше говорили, что «Китай догоняет», то сейчас уже строит свою собственную технологическую систему.
От «предоставления кода» к «созданию систем»
В отчете предложена концептуальная смена: от Vibe Coding к Agentic Engineering. Первый — это когда ты говоришь «напиши код», второй — когда ты ставишь цель, я сам планирую, разбираю, пишу код, настраиваю инструменты, отлаживаю и итеративно довожу систему до готовности.
Главный акцент GLM-5 уже не на баллах за отдельные задачи, а на:
Например, Vending-Bench 2 требует «моделировать автомат по продаже за год», в итоге — проверить баланс счета. GLM-5 в открытом доступе — первая модель, приближающаяся по возможностям к Claude Opus 4.5. Это тест долгосрочного принятия решений, а не вопрос-ответ.
Модель уже обладает «инженерным интеллектом».
Разреженное внимание: больше не бессмысленно тратить вычислительные ресурсы
GLM-5 содержит 744 миллиарда параметров (активных 40 миллиардов), обучена на 285 триллионах токенов. При традиционной архитектуре расход вычислений взрывается.
Ключевое нововведение — DSA (DeepSeek разреженное внимание). Традиционное внимание «смотрит на всё», сложность растет квадратично; DSA динамически определяет, какие токены действительно важны, и считает только их.
При длине контекста около 200 тысяч токенов DSA снижает объем вычислений внимания в 1.5–2 раза.
И — без потерь.
Другие эффективные методы внимания обычно жертвуют точностью, а DSA, продолжая предварительное обучение, обеспечивает плавный переход без деградации производительности.
Результат:
Для Китая важнее эффективность, чем просто увеличение мощности.
Реконструкция архитектуры обучения с подкреплением
RL-система GLM-5 претерпела кардинальные изменения.
Генерация и обучение теперь разъединены. Модель генерирует траекторию, обучение происходит асинхронно в отдельной системе. Раньше приходилось ждать завершения самого медленного задания, сейчас — кто быстрее завершил, тот и обучается, что значительно повышает пропускную способность. Это критично для задач долгосрочного агента.
Асинхронные алгоритмы RL позволяют стабильно обучать в сложных программных средах, не давая стратегии сбиться.
В сущности, речь идет о том, как заставить большую модель постоянно самоулучшаться в реальных задачах.
Самый важный шаг — адаптация под отечественные вычислительные платформы
Самая важная часть отчета для Китая.
GLM-5 изначально адаптирована под отечественную GPU-экосистему, уже совместима с Huawei Ascend, Moore Threads, Hygon, Cambricon, Kunlun, TianNum, Suiyuan.
Это не просто «может работать», а полноценная системная адаптация, включающая:
Многие сложности отечественной экосистемы — не в вычислительной мощности, а в программном стеке.
Значение GLM-5 в том, что она создается не вокруг одного зарубежного аппаратного стандарта, а ориентирована на множество отечественных платформ, делая системную интеграцию.
Это качественный скачок — китайские крупные модели начинают оптимизировать инженерные решения под собственное аппаратное обеспечение, а не просто переносить зарубежные решения.
Благодаря максимально эффективной синергии аппаратного и программного обеспечения, GLM-5 на одной отечественной вычислительной ноде уже способна конкурировать по производительности с кластером из двух международных GPU; более того, в задачах обработки длинных последовательностей стоимость развертывания снизилась на 50%.
Закрытый цикл аппаратного и программного обеспечения формируется
Анализируя путь GLM-5, можно выделить полноценный замкнутый цикл:
Инновации в архитектуре модели (DSA) → оптимизация эффективности обучения (асинхронное RL) → сжатие памяти и коммуникаций (ZeRO, выгрузка активаций) → согласование с низкоточной точностью (INT4 QAT) → глубокая адаптация под отечественные чипы
Это целая цепочка отечественной AI-индустрии.
Раньше преимущества Китая в AI проявлялись на уровне приложений, а сейчас начинается полномасштабное развитие в области архитектурных инноваций, алгоритмических решений, систем обучения, адаптации под чипы и оптимизации инференса.
Истинное значение этого отчета — не в каких-то бенчмарках, а в том, что впервые в Китае AI демонстрирует конкурентоспособность на системном уровне.
От демонстрации возможностей к зрелости
Отчет по GLM-5 не сосредоточен на «насколько мы лучше», а подробно раскрывает процессы обучения, выбор алгоритмов, инженерные компромиссы и абляционные эксперименты. Это и есть проявление зрелости.
Когда модель начинает говорить о GPU-использовании, задержках на длинных цепочках, повторном использовании KV-кеша, выравнивании квантовых ядер, контроле за катастрофическим забыванием — она уже не просто демонстрирует возможности, а создает промышленную систему.
Для Китая GLM-5 — это скорее заявление: мы не только можем создавать крупные модели, но и разрабатывать собственные аппаратные решения, и интегрировать их вместе.
Это настоящий прорыв.
Предупреждение о рисках и отказ от ответственности