智谱发布GLM-5技术细节:مهارة ذكية على مستوى الهندسة، تتوافق مع القدرة الحاسوبية المحلية

robot
إنشاء الملخص قيد التقدم

في 12 فبراير، أطلقت شركة زيبور نموذج GLM-5، وحقق إنجازًا مذهلاً. وبعد عشرة أيام، صدر التقرير الفني الذي أتاح للناس نظرة على الجينات الداخلية لنموذج GLM-5.

المثير للاهتمام ليس فقط أن النموذج تصدر قوائم الترتيب مرة أخرى، بل أن الفكرة الكاملة قد تغيرت: لم يعد الأمر يقارن حجم المعلمات، بل بدأ يقارن قدرات الهندسة النظامية.

ثلاثة إنجازات حققها GLM-5 تعتبر واقعية جدًا: 1. النموذج أصبح قادرًا على إتمام مهام معقدة، وليس مجرد كتابة بضعة أسطر من الكود؛ 2. مستوى كفاءة التدريب ارتفع، والنماذج الضخمة لم تعد مجرد لعبة إنفاق أموال؛ 3. التوافق الشامل من الأساس إلى إطار الاستنتاج مع المعالجات الصينية — وهو الأهم.

إذا كانت المرحلة السابقة تتعلق بـ “الصين تلاحق”، فإن الآن بدأت ببناء نظامها التقني الخاص.

من “توفير الكود” إلى “بناء النظام”

أشار التقرير إلى تحول في المفهوم: من Vibe Coding إلى الهندسة الوكيلة (Agentic Engineering). الأول هو أن تقول كلمة وأحصل على قطعة كود، والثاني هو أن تحدد هدفًا، وأقوم أنا بالتخطيط والتفكيك، وكتابة الكود، وضبط الأدوات، والتكرار حتى يتم إنجاز النظام بالكامل.

لم يعد الأمر مجرد تحسينات على الأداء، بل أصبح التركيز على:

سياق يبلغ حوالي 200 ألف كلمة (مئات الصفحات من الوثائق)

مهام هندسية برمجية عبر ملفات متعددة

تخطيط وتعديل مستمر خلال مهام طويلة الأمد

تفاعل متعدد الجولات للحفاظ على اتساق التفكير

على سبيل المثال، يتطلب Vending-Bench 2 “محاكاة تشغيل آلة بيع تلقائية لمدة سنة”، وأخيرًا يتم فحص رصيد الحساب. النموذج GLM-5 يتصدر النماذج المفتوحة، ويقترب من Claude Opus 4.5. هذا الاختبار يقيس القدرة على اتخاذ القرارات طويلة الأمد، وليس مجرد أسئلة وأجوبة.

بدأ النموذج يظهر “ذكاءً هندسيًا”.

الانتباه المتناثر: لا نستهلك الحوسبة بلا تفكير

يحتوي GLM-5 على 744 مليار معلمة (نشط 40 مليار)، وتم تدريبه على 28.5 تريليون وحدة رمزية. وفقًا للهندسة التقليدية، فإن استهلاك الحوسبة سيكون هائلًا.

الابتكار الأساسي هو تقنية DSA (الانتباه المتناثر DeepSeek). آلية الانتباه التقليدية “ترى كل المحتوى”، وتزداد تعقيداتها بمعدل تربيعي؛ أما DSA فتقوم بتحديد ديناميكي لـ “أي الرموز مهمة حقًا”، وتحسب فقط الأجزاء الحيوية.

عند سياق طويل يبلغ 200 ألف كلمة، يقلل DSA من حجم حسابات الانتباه بمقدار 1.5 إلى 2 مرة.

والأهم — بدون خسارة في الأداء.

طرق الانتباه الفعالة الأخرى غالبًا ما تضحي بالدقة، لكن DSA يمر بعملية تدريبات مسبقة مستمرة لتمهيد الطريق، دون تدهور في الأداء.

النتيجة هي:

  • نفس الحوسبة → سياق أطول
  • نفس التكلفة → قدرات استنتاج أعلى
  • نفس الأجهزة → نماذج أكبر

بالنسبة للصين، فإن الابتكار في الكفاءة أهم بكثير من مجرد زيادة الحوسبة.

إعادة هيكلة إطار التعلم المعزز

أُجري تعديل شامل على نظام التعلم المعزز (RL) في GLM-5.

فصل بين التوليد والتدريب. يتتبع النموذج مسار التوليد، ويُجرى التدريب على نظام آخر بشكل غير متزامن. سابقًا، كان يتعين انتظار إتمام المهام الأبطأ، الآن يتم التدريب حسب من ينتهي أولًا، مما يرفع الإنتاجية بشكل كبير. وهو أمر حاسم لمهام الوكيل طويلة المدى.

كما أن خوارزمية RL غير المتزامنة للوكيل حلت مشكلة استمرار المهام لعدة ساعات في بيئة البرمجيات الحقيقية. وتم إدخال:

  • تقنية Token-in-Token-out (لتجنب أخطاء إعادة التقسيم)
  • أهمية مزدوجة للعينات
  • تحسين توجيه ذاكرة KV مع وعي بـ DP

النموذج يستطيع التعلم بشكل مستقر في بيئات معقدة، ولن ينهار بسبب انحراف الاستراتيجية.

باختصار، الحل هو “كيف نجعل النموذج الكبير يواصل تحسين نفسه في المهام الحقيقية”.

خطوة حاسمة: التوافق مع الحوسبة المحلية

أهم جزء في التقرير بالنسبة للصين هو هذا.

تمت تهيئة GLM-5 للعمل بشكل أصلي مع بيئة المعالجات الصينية، وهو متوافق الآن مع معالجات هواوي شينتنج، ومورث تيرث، وهيكوي، وكرمجي، وكونلون، وتينس ديجي، وسويورين.

ليس مجرد “تشغيل”، بل أن:

  • تحسين جدولة ذاكرة KV
  • تكييف آليات الاتصال
  • مطابقة التدريب باستخدام الدقة المختلطة
  • مواءمة تدريب التكميم INT4
  • إعادة هيكلة استراتيجيات التوازي الموزع

الكثير من تحديات بيئة المعالجات الصينية ليست في القدرة الحسابية، بل في البرمجيات.

مغزى GLM-5 هو أنه ليس تصميمًا يعتمد على بنية معالجات أجنبية واحدة، بل نظام متكامل موجه لدعم منصات الحوسبة المحلية المتنوعة.

وهذا تحول نوعي — إذ بدأت النماذج الكبيرة في الصين بالتركيز على تحسينات هندسية تعتمد على الهياكل المحلية، وليس مجرد نقل وتبني.

ويذكر التقرير أن بفضل هذا التنسيق المثالي بين البرمجيات والأجهزة، فإن أداء GLM-5 على عقدة حوسبة محلية واحدة يضاهي أداء مجموعة حوسبة تتكون من جهازين من معالجات GPU العالمية، وليس ذلك فحسب، بل إن تكلفة نشره في سيناريوهات المعالجة طويلة السلسلة انخفضت بنسبة 50%.

دورة مغلقة بين البرمجيات والأجهزة تتشكل

عند تحليل مسار تقنية GLM-5، يتضح أنه دورة مغلقة كاملة:

ابتكار بنية النموذج (DSA) → تحسين كفاءة التدريب (RL غير المتزامن) → ضغط الذاكرة والاتصالات (ZeRO، إلغاء تحميل التنشيط) → مواءمة الدقة المنخفضة (QAT باستخدام INT4) → التوافق العميق مع المعالجات المحلية

هذه سلسلة كاملة من عمليات بناء الذكاء الاصطناعي المحلية.

في السابق، كانت ميزة الصين في التطبيقات، والآن بدأت تدخل في ابتكار البنى، والهندسة الخوارزمية، وأنظمة التدريب، وتوافق المعالجات، وأطر الاستنتاج.

المغزى الحقيقي لهذا التقرير ليس في نتائج اختبار معيارية، بل في أن الذكاء الاصطناعي الصيني بدأ يعرض قدراته من خلال “نظام متكامل”.

من التباهي إلى النضج

لم يركز تقرير GLM-5 على أن “نحن أفضل من غيرنا”، بل كشف عن تفاصيل عملية التدريب، واختيارات الخوارزميات، والتوازنات الهندسية، والتجارب التدميرية. وهذا بحد ذاته علامة على النضج.

عندما يبدأ النموذج في الحديث عن معدل استغلال GPU، وتأخير الذيل الطويل، وإعادة استخدام ذاكرة KV، ومحاذاة نوى التكميم، والسيطرة على النسيان الكارثي — فهو لم يعد مجرد عرض قدرات، بل أصبح نظامًا صناعيًا متكاملًا.

بالنسبة للصين، فإن GLM-5 هو بمثابة إعلان: نحن لا نكتفي ببناء نماذج ضخمة فحسب، بل نمتلك القدرة على التوافق مع الحوسبة المحلية، ونستطيع ربط الاثنين معًا.

وهذا هو فعلاً قفزة نوعية.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$2.39Kعدد الحائزين:0
    0.00%
  • القيمة السوقية:$0.1عدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.37Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$0.1عدد الحائزين:0
    0.00%
  • القيمة السوقية:$2.46Kعدد الحائزين:1
    0.00%
  • تثبيت