المصدر: TokenPost
العنوان الأصلي: 中 딥시크, 잔차 연결 넘는 차세대 AI 아키텍처 ‘mHC’ 공개
الرابط الأصلي: https://www.tokenpost.kr/news/ai/320188
أعلنت مؤسسة DeepSeek(ديبسيك)، وهي جهة أبحاث الذكاء الاصطناعي في الصين، عن تقنية جديدة يمكنها تحسين أداء تعلم الذكاء الاصطناعي بشكل كبير. تُعرف هذه التقنية باسم ‘mHC(Manifold-Constrained Hyper-Connections)’، وهي بنية تتجاوز طريقة ‘الاتصال المتبقي(residual connection)’ الضرورية لنماذج اللغة الكبيرة(LLM) ونماذج الإدراك البصري، مما أدى إلى تحسين دقة التعلم وكفاءة الأجهزة على حد سواء.
يُعد mHC تحسينًا لطريقة ‘الاتصالات الفائقة(Hyper-Connections)’ التقليدية. كانت الاتصالات الفائقة تُستخدم بشكل رئيسي لنقل المعلومات بين طبقات النموذج بشكل أكثر كفاءة، لكنها لم تُستخدم على نطاق واسع في بيئات التشغيل الفعلية بسبب قيود تقنية. تمكنت ديبسيك من تجاوز هذه القيود من خلال دمج مفهوم ‘المانيفولد(manifold)’. المانيفولد هو مساحة ذات بنية متعددة الطبقات من الناحية الرياضية، ويمكن أن تتراوح من أشكال بسيطة كالدائرة إلى هياكل معقدة تتجاوز الأبعاد الثلاثة. أوضحت ديبسيك أن mHC يلعب دورًا رئيسيًا في ضمان استقرار واتساق تدرجات الخطأ(gradient) الناتجة أثناء تدريب النموذج، باستخدام بنية تعتمد على المانيفولد.
اختبرت ديبسيك أداء هذا الهيكل من خلال تدريب ثلاثة نماذج لامحدودة الحجم، تحتوي على 3 مليارات، 9 مليارات، و27 مليار معلمة، باستخدام بنية mHC، وقارنتها مع نماذج مماثلة تعتمد على الاتصالات الفائقة. ووفقًا للشركة، أظهرت نماذج mHC أداءً متفوقًا في 8 معايير قياسية بشكل ثابت. كما كانت أكثر كفاءة من حيث استهلاك الذاكرة أثناء التدريب، مع تقليل الحمل على الأجهزة بنسبة تصل إلى 6.27%.
قال فريق ديبسيك: “من خلال فهم أعمق للعلاقة بين بنية المانيفولد وخوارزميات التحسين، يمكن لـ mHC أن يتجاوز حدود نماذج الذكاء الاصطناعي الحالية ويفتح طرقًا جديدة لتصميم البنى التحتية للجيل القادم.” وأكدوا على الأهمية التقنية لهذه التطورات.
تُعد هذه الإعلان ذات أهمية خاصة في ظل الحركة العالمية الحالية لإعادة تقييم بنى تعلم الذكاء الاصطناعي. منذ أن تم إدخال طريقة الاتصالات المتبقية في أبحاث التعلم العميق عام 2015، أصبحت تستخدم على نطاق واسع في نماذج اللغة الكبيرة وتصنيف الصور. تعتمد هذه الطريقة على تمرير إشارة الخطأ من الطبقة الأخيرة إلى الطبقات السابقة، مما يساعد على تصحيح الأخطاء وتحسين الأداء، مع تقليل تشويه المعلومات أثناء النقل.
ومع تزايد حجم نماذج الذكاء الاصطناعي، ظهرت قيود على طريقة الاتصالات المتبقية، مما أدى إلى محاولات متعددة لتحسينها. تُعد تقنية mHC من ديبسيك أحدث تطور في هذا المجال، ومن المتوقع أن تساهم بشكل مباشر في تحسين كفاءة تدريب النماذج، وهو أمر أساسي لصناعة الذكاء الاصطناعي بشكل عام.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تسجيلات الإعجاب 8
أعجبني
8
8
إعادة النشر
مشاركة
تعليق
0/400
PretendingToReadDocs
· منذ 2 س
آه مرة أخرى مع أسلوب DeepSeek الجديد، هل يبدو أن هذا mHC على وشك قلب الأمور رأسًا على عقب؟
---
هل يمكن أن تتجاوز اتصالات 잔차؟ هل هذه التقنية موثوقة حقًا، فقط من خلال النظر إلى الاسم أشعر بالحيرة قليلاً
---
الصين AI تطلق بنية جديدة مرة أخرى، ونحن لا زلنا نعمل على حجم المعلمات هههه
---
هل يمكن أن تعزز كل من LLM والنماذج البصرية؟ أشعر أن الأمر مبالغ فيه قليلاً
---
لماذا هذا الاختصار mHC غير سهل النطق، لا أستطيع تذكره
---
أبحاث DeepSeek تتوالى واحدة تلو الأخرى، ولا نعرف كيف ستكون النتائج الفعلية
---
مرة أخرى مع manifold و hyper، هؤلاء الأشخاص يحبون دائمًا استخدام هذه الكلمات الفاخرة
شاهد النسخة الأصليةرد0
CryptoHistoryClass
· منذ 6 س
بالصراحة، رأيت هذا المخطط من قبل... كانت الاتصالات المتبقية من المفترض أن تكون بنية النهاية في عام 2017. الآن هم "يتجاوزون" ذلك؟ *يتفقد مخططات الأداء التاريخية* ...نعم، نحن بالتأكيد في مرحلة "الاختراق الثوري" من الدورة مرة أخرى. أعطها 18 شهرًا
شاهد النسخة الأصليةرد0
LiquidationWatcher
· منذ 6 س
نعم، ديبسيك تنشر بنية ذكاء اصطناعي جديدة بينما نحن جميعًا نكافح من أجل مراكزنا... تذكر عندما كان الجميع يعتقد أن الاتصالات المتبقية هي النهاية؟ على أي حال، هذه مسألة MHC تبدو شرعية لكن لا أدري، في كل مرة تعلن الصين عن اختراق، يبدأ اضطراب ما بعد الصدمة الخاص بالتصفية في الظهور. شاهدت الكثير من الألعاب التقنية "الثورية" تتعرض للانحراف إلى اللامبالاة في 2022.
شاهد النسخة الأصليةرد0
pvt_key_collector
· منذ 6 س
ها، مرة أخرى تقوم deepseek بابتكار شيء جديد، يبدو أن mHC هذه المرة يبدو رائعًا جدًا
---
هل سئمتم من اللعب بالروابط المتبقية؟ شيء مثير للاهتمام، يجب أن نرى النتائج الفعلية
---
الصين تصدر ورقة بحثية أخرى في الذكاء الاصطناعي، والأسواق الغربية ستتأرجح مرة أخرى
---
كلمة manifold-constrained تبدو غريبة بعض الشيء، شعور بأنها قاسية
---
يمكن استخدام نماذج LLM والنماذج البصرية، إذا تم تطبيقها فعليًا فستكون ضربة قوية لتقليل الأبعاد
---
لا أعلم هل هو ترويج أم حقًا هناك اختراق، انتظر لنرى معايير الأداء
---
هذه المجموعة من deepseek نشطة جدًا مؤخرًا، بعد التمويل بدأوا في نشر أوراق بحثية بشكل مكثف
---
بصراحة، الأمر يتعلق بتحسين الهيكل، هل المنطق الأساسي جديد جدًا؟
---
عادةً يستغرق الأمر نصف سنة لمعرفة ما إذا كانت هذه الأشياء جيدة أم لا، لا تتسرع في التباهي
---
تجاوز الروابط المتبقية؟ يا إلهي، هل سنعيد تعديل المناهج مرة أخرى؟
شاهد النسخة الأصليةرد0
BoredStaker
· منذ 6 س
تباً، هل ديبسيك يبتكر أساليب جديدة مرة أخرى؟ في كل مرة يرسل فيها فريق الصين شيئًا، تبدأ وسائل الإعلام الغربية في التهويل
شاهد النسخة الأصليةرد0
MemeTokenGenius
· منذ 6 س
تفكير عميق، يبدو أن بنية mHC رائعة، لكن الأمر يعتمد على ما يمكن أن تنتجه في الواقع
DeepSeek يطور شيئًا جديدًا، وهو قوي بعض الشيء، هل يمكنه التفوق على النماذج الحالية؟
المهم هو هل يمكن تقليل التكاليف حقًا، فقط البيانات النظرية لا تكفي
هل ستؤدي هذه الموجة من التحديثات التقنية إلى تأثير كبير على شركات GPU الحالية...
mHC و LLM، تبدو محترفة، لكن هل يمكن تطبيقها فعلاً في بيئة web3...嗯
شاهد النسخة الأصليةرد0
PanicSeller
· منذ 6 س
عادوا إلى بنية جديدة، كيف اخترعوا اسم mHC، أشعر وكأنهم يصنعون كلمات في كل مرة
---
DeepSeek يطلق ميزة جديدة، هل يمكنها حقًا تجاوز الاتصالات المتبقية؟ أنا فضولي جدًا
---
الشركات الصينية في مجال الذكاء الاصطناعي تتنافس بشدة، لكن هل يمكن استخدام هذه التقنية فعلاً
---
لم أتمكن من فهم العنوان بعد، لكنه يبدو وكأنه مجموعة من المصطلحات الرياضية
---
إم، مرة أخرى موضوع النماذج الضخمة، ما علاقته بتداول العملات لدينا؟
---
إذا كانت هذه التقنية فعلاً تقلل من تكلفة الحوسبة، فستكون رائعة، حاليًا تدريب النماذج مكلف جدًا
---
العنوان نصفه كوري ونصفه صيني، جعلني أشعر بالدوار قليلاً
---
البنية جيدة، لكن المشكلة من يمكنه استخدامها؟
شاهد النسخة الأصليةرد0
AirdropBlackHole
· منذ 6 س
متسابقو الأعماق يعودون مرة أخرى، تصميم بنية mHC هذه المرة فعلاً مميز، لكن بصراحة، تبدو هذه الأوراق البحثية متشابهة إلى حد كبير
وتيرة DeepSeek، تبدو وكأنها ستكسر بعض الاحتكارات
هل ستكسر حدود أداء LLM؟ لننتظر ونرى
مرة أخرى، مجموعة من المصطلحات التقنية، والتنفيذ الفعلي يعتمد على كيفية التعامل معها لاحقًا
تم الكشف عن بنية الذكاء الاصطناعي القادمة "mHC" التي تتجاوز روابط DeepSke و Residual
المصدر: TokenPost العنوان الأصلي: 中 딥시크, 잔차 연결 넘는 차세대 AI 아키텍처 ‘mHC’ 공개 الرابط الأصلي: https://www.tokenpost.kr/news/ai/320188 أعلنت مؤسسة DeepSeek(ديبسيك)، وهي جهة أبحاث الذكاء الاصطناعي في الصين، عن تقنية جديدة يمكنها تحسين أداء تعلم الذكاء الاصطناعي بشكل كبير. تُعرف هذه التقنية باسم ‘mHC(Manifold-Constrained Hyper-Connections)’، وهي بنية تتجاوز طريقة ‘الاتصال المتبقي(residual connection)’ الضرورية لنماذج اللغة الكبيرة(LLM) ونماذج الإدراك البصري، مما أدى إلى تحسين دقة التعلم وكفاءة الأجهزة على حد سواء.
يُعد mHC تحسينًا لطريقة ‘الاتصالات الفائقة(Hyper-Connections)’ التقليدية. كانت الاتصالات الفائقة تُستخدم بشكل رئيسي لنقل المعلومات بين طبقات النموذج بشكل أكثر كفاءة، لكنها لم تُستخدم على نطاق واسع في بيئات التشغيل الفعلية بسبب قيود تقنية. تمكنت ديبسيك من تجاوز هذه القيود من خلال دمج مفهوم ‘المانيفولد(manifold)’. المانيفولد هو مساحة ذات بنية متعددة الطبقات من الناحية الرياضية، ويمكن أن تتراوح من أشكال بسيطة كالدائرة إلى هياكل معقدة تتجاوز الأبعاد الثلاثة. أوضحت ديبسيك أن mHC يلعب دورًا رئيسيًا في ضمان استقرار واتساق تدرجات الخطأ(gradient) الناتجة أثناء تدريب النموذج، باستخدام بنية تعتمد على المانيفولد.
اختبرت ديبسيك أداء هذا الهيكل من خلال تدريب ثلاثة نماذج لامحدودة الحجم، تحتوي على 3 مليارات، 9 مليارات، و27 مليار معلمة، باستخدام بنية mHC، وقارنتها مع نماذج مماثلة تعتمد على الاتصالات الفائقة. ووفقًا للشركة، أظهرت نماذج mHC أداءً متفوقًا في 8 معايير قياسية بشكل ثابت. كما كانت أكثر كفاءة من حيث استهلاك الذاكرة أثناء التدريب، مع تقليل الحمل على الأجهزة بنسبة تصل إلى 6.27%.
قال فريق ديبسيك: “من خلال فهم أعمق للعلاقة بين بنية المانيفولد وخوارزميات التحسين، يمكن لـ mHC أن يتجاوز حدود نماذج الذكاء الاصطناعي الحالية ويفتح طرقًا جديدة لتصميم البنى التحتية للجيل القادم.” وأكدوا على الأهمية التقنية لهذه التطورات.
تُعد هذه الإعلان ذات أهمية خاصة في ظل الحركة العالمية الحالية لإعادة تقييم بنى تعلم الذكاء الاصطناعي. منذ أن تم إدخال طريقة الاتصالات المتبقية في أبحاث التعلم العميق عام 2015، أصبحت تستخدم على نطاق واسع في نماذج اللغة الكبيرة وتصنيف الصور. تعتمد هذه الطريقة على تمرير إشارة الخطأ من الطبقة الأخيرة إلى الطبقات السابقة، مما يساعد على تصحيح الأخطاء وتحسين الأداء، مع تقليل تشويه المعلومات أثناء النقل.
ومع تزايد حجم نماذج الذكاء الاصطناعي، ظهرت قيود على طريقة الاتصالات المتبقية، مما أدى إلى محاولات متعددة لتحسينها. تُعد تقنية mHC من ديبسيك أحدث تطور في هذا المجال، ومن المتوقع أن تساهم بشكل مباشر في تحسين كفاءة تدريب النماذج، وهو أمر أساسي لصناعة الذكاء الاصطناعي بشكل عام.