الذكاء الاصطناعي يتجه من التعلم الإحصائي الذي يركز على «مطابقة النماذج» نحو نظام قدرات يركز على «الاستنتاج المنهجي»، مع تصاعد أهمية ما بعد التدريب (Post-training) بسرعة. ظهور DeepSeek-R1 يمثل نقلة نوعية في التعلم المعزز في عصر النماذج الكبيرة، مع توافق صناعي حول أن: التدريب المسبق يبني قدرات عامة للنموذج، والتعلم المعزز لم يعد مجرد أداة لمواءمة القيم، بل ثبت قدرته على تحسين جودة سلاسل الاستنتاج والقدرات على اتخاذ قرارات معقدة بشكل منهجي، ويتطور تدريجياً ليصبح مساراً تقنياً يرفع مستوى الذكاء بشكل مستمر.
وفي الوقت نفسه، يعيد Web3 بناء علاقات الإنتاج مع الذكاء الاصطناعي عبر شبكات الحوسبة اللامركزية ونظام الحوافز المشفر، بينما يتوافق الطلب الهيكلي للتعلم المعزز على عينات Rollout، وإشارات المكافأة، والعمليات القابلة للتحقق، بشكل طبيعي مع التعاون في الحوسبة على بلوكشين، وتوزيع الحوافز، والتنفيذ القابل للتحقق. ستقوم هذه الدراسة بتحليل منهجية تدريب الذكاء الاصطناعي ومبادئ تقنية التعلم المعزز، وتوضيح المزايا الهيكلية للتعلم المعزز × Web3، مع تحليل مشاريع مثل Prime Intellect، Gensyn، Nous Research، Gradient، Grail، Fraction AI وغيرها.
مراحل تدريب الذكاء الاصطناعي: التدريب المسبق، التخصيص بالتعليمات، والتوافق بعد التدريب
دورة حياة تدريب نماذج اللغة الكبيرة (LLMs) الحديث غالبًا ما تُقسم إلى ثلاث مراحل رئيسية: التدريب المسبق (Pre-training)، التخصيص بالتعليمات (SFT)، والتوافق بعد التدريب (Post-training/RL). كل منها يقوم بوظائف «بناء نموذج عالمي—حقن قدرات مهمة—تشكيل الاستنتاجات والقيم»، وتركيبها الحسابي، ومتطلبات البيانات، وصعوبة التحقق تحدد مدى توافقها مع البيئة اللامركزية.
· التدريب المسبق (Pre-training): يتم عبر التعلم الذاتي على نطاق واسع لبناء الهيكل الإحصائي للغة والنموذج متعدد الوسائط، وهو أساس قدرات النموذج. يحتاج إلى تدريب على مليارات من النصوص بشكل عالمي ومتزامن، ويعتمد على مجموعات حوسبة متجانسة مكونة من آلاف إلى عشرات الآلاف من وحدات H100، وتكلفتها تمثل 80–95% من التكاليف، وتعد حساسة للغاية للنطاق الترددي وحقوق البيانات، لذا يجب إتمامها في بيئة مركزة جدًا.
· التخصيص بالتعليمات (Supervised Fine-tuning): يستخدم لحقن قدرات مهمة وتنسيقات أوامر، ويستهلك حوالي 5–15% من التكاليف، ويمكن أن يتم تدريب جميع المعلمات أو عبر طرق التخصيص الكفء للمعلمات (PEFT)، مع أن LoRA وQ-LoRA وAdapter تعتبر السائدة صناعيًا، إلا أنه يتطلب تزامن التدرجات، مما يحد من قدرته على اللامركزية بشكل محدود.
· بعد التدريب (Post-training): يتكون من مراحل تكرارية متعددة، وتحدد قدرات النموذج في الاستنتاج، والقيم، والحدود الآمنة، ويشمل أنظمة التعلم المعزز (RLHF، RLAIF، GRPO)، وأيضًا طرق تحسين التفضيلات بدون RL (مثل DPO)، ونماذج المكافأة العملية (PRM). تكون البيانات والتكاليف أقل (5–10%)، وتتركز بشكل رئيسي على Rollout وتحديث السياسات؛ ويدعم بشكل طبيعي التنفيذ غير المتزامن والموزع، حيث لا يحتاج العقد إلى امتلاك كامل الأوزان، مع إمكانيات التحقق من الحسابات والحوافز على السلسلة، مما يجعله أكثر توافقًا مع Web3.
نظرة شاملة على تكنولوجيا التعلم المعزز: الهيكل، الإطار، والتطبيقات
الهيكل المعماري والتشغيلي للتعلم المعزز
يعمل التعلم المعزز (RL) عبر «التفاعل مع البيئة — ردود الفعل بالمكافأة — تحديث السياسات»، ويعتبر هيكلًا تغذيليًا يتكون من الحالة، الإجراء، المكافأة، والسياسة. يتضمن نظام RL الكامل عادةً ثلاثة مكونات: سياسة (Policy)، عينات Rollout، والمتعلم (Learner). تتفاعل السياسات مع البيئة لإنتاج مسارات، ويقوم المتعلم بتحديث السياسات استنادًا إلى إشارات المكافأة، مما يشكل دورة تعلم مستمرة ومتكررة:
شبكة السياسة (Policy): تولد الإجراء استنادًا إلى الحالة، وهي القلب الحاسم لاتخاذ القرار. أثناء التدريب، يتطلب الأمر انتشارًا عكسيًا مركزيًا للحفاظ على الاتساق؛ أثناء الاستنتاج، يمكن توزيعها على عقد مختلفة للتشغيل المتزامن.
عينات Rollout: ينفذ العقد وفقًا للسياسة التفاعلية مع البيئة، ويولد مسارات من الحالة-الإجراء-المكافأة. هذه العملية متوازية للغاية، وتستهلك الحد الأدنى من الاتصال، ولا تتأثر باختلاف الأجهزة، مما يجعلها مثالية للتوسع في بيئة لامركزية.
المتعلم (Learner): يجمع جميع مسارات Rollout ويقوم بتحديث تدرجات السياسات، وهو المكون الأعلى طلبًا في الحوسبة والنطاق الترددي، وغالبًا ما يُحتفظ به مركزيًا أو بشكل خفيف لضمان الاستقرار في التقارب.
إطار مراحل التعلم المعزز (RLHF → RLAIF → PRM → GRPO)
يُقسم التعلم المعزز عادةً إلى خمس مراحل، وهي كما يلي:
مرحلة توليد البيانات (استكشاف السياسة)
تحت شرط المدخلات المحددة، يُولد نموذج السياسة πθ عدة مسارات استنتاج محتملة أو مسارات كاملة، موفرةً أساسًا عينات لتقييم التفضيلات ونمذجة المكافآت، وتحدد مدى استكشاف السياسة.
مرحلة ردود الفعل التفضيلية (RLHF / RLAIF)
· RLHF (التعلم المعزز من التغذية الراجعة البشرية): عبر إجابات متعددة، تصنيف تفضيلات يدوية، تدريب نموذج المكافأة (RM)، وتحسين السياسة باستخدام PPO، لجعل المخرجات تتوافق أكثر مع القيم البشرية، وهو عنصر جوهري في GPT-3.5 → GPT-4.
· RLAIF (التعلم المعزز من تغذية الذكاء الاصطناعي): يستخدم قاضٍ ذكاء اصطناعي أو قواعد دستورية بدلاً من التصنيف اليدوي، لتحقيق التلقائية في جمع التفضيلات، وخفض التكاليف، وزيادة الحجم، وأصبح نمطًا سائدًا في Align لمشاريع مثل Anthropic، OpenAI، DeepSeek.
مرحلة نمذجة المكافأة (Reward Modeling)
تعتمد على التفضيلات لبناء نموذج مكافأة يتعلم كيفية تحويل مخرجات النموذج إلى مكافآت. RM يوضح «ما هو الجواب الصحيح»، PRM يوضح «كيف نستنتج بشكل صحيح».
· RM (نموذج المكافأة): يُقيم جودة الإجابة النهائية ويعطي درجات فقط:
· PRM (نموذج المكافأة للعمليات): لا يقتصر على تقييم الإجابة النهائية، بل يقيم كل خطوة استنتاج، وكل رمز، وكل مقطع منطقي، وهو تقنية رئيسية في OpenAI وDeepSeek-R1، ويهدف إلى «تعليم النموذج كيف يفكر».
مرحلة التحقق من المكافأة (RLVR / Verifiability of Rewards)
عند توليد واستخدام إشارات المكافأة، يتم إدخال «قيود قابلة للتحقق» بحيث تأتي المكافآت من قواعد أو حقائق أو إجماع يمكن استنساخه، بهدف تقليل مخاطر الاحتيال في المكافآت وزيادة الشفافية والقابلية للتوسع في بيئات مفتوحة.
مرحلة تحسين السياسات (Policy Optimization)
تتم تحت إرشاد إشارات نموذج المكافأة، وتحديث معلمات السياسة θ للحصول على سياسة ذات قدرات استنتاجية أعلى، وأمان أكثر، وسلوك أكثر استقرارًا. تشمل الطرق الرئيسية:
· PPO (تحسين السياسات المكانية): هو المُحسن التقليدي لـ RLHF، معروف بالثبات، لكنه يواجه مشاكل في التوافق مع مهام الاستنتاج المعقدة، مثل التردد البطيء والضعف في الاستقرار.
· GRPO (تحسين السياسات النسبي الجماعي): هو ابتكار رئيسي في DeepSeek-R1، يبني نماذج توزيع الأفضلية داخل مجموعات الإجابات بدلًا من الترتيب البسيط، ويحافظ على معلومات نطاق المكافأة، ويُعد أكثر استقرارًا، ومناسبًا بشكل خاص لتحسين سلاسل الاستنتاج، ويعتبر إطارًا مهمًا للتعلم المعزز بعد PPO في سيناريوهات الاستنتاج العميق.
· DPO (تحسين التفضيلات المباشر): طريقة بعد التدريب بدون RL، لا تنتج مسارات ولا تبني نماذج مكافأة، بل تُحسن مباشرة على أساس التفضيلات، منخفضة التكاليف وذات نتائج مستقرة، وتستخدم بشكل واسع في مشاريع مثل Llama وGemma، لكنها لا تعزز قدرات الاستنتاج.
مرحلة نشر السياسات الجديدة (New Policy Deployment)
يُظهر النموذج بعد التحسين قدرات أعلى على توليد سلاسل استنتاج (System-2 Reasoning)، وتصرفات أكثر توافقًا مع تفضيلات البشر أو الذكاء الاصطناعي، وانخفاض في الهلوسة، وزيادة في الأمان. يتعلم النموذج باستمرار من التفضيلات، ويقوم بتحسين العمليات، ويرتقي بجودة القرار، مما يخلق دائرة مغلقة.
تطبيقات التعلم المعزز في الصناعة: خمسة تصنيفات رئيسية
لقد تطور التعلم المعزز من ذكاء الألعاب إلى إطار اتخاد القرار المستقل عبر مختلف الصناعات، ويمكن تصنيف تطبيقاته إلى خمسة مجالات، مع تحقيق تقدمات رئيسية في كل منها:
· الألعاب والاستراتيجيات: هو أول مجالات إثبات فاعليته، حيث أظهر في AlphaGo، AlphaZero، AlphaStar، OpenAI Five قدرات ذكاء قرار تقارب أو تتجاوز خبراء الإنسان، مما وضع الأساس لخوارزميات RL الحديثة.
· الروبوتات والذكاء الجسدي: عبر التحكم المستمر ونمذجة الديناميات والتفاعل مع البيئة، يتعلم الروبوت التحكم في الحركة والأداء عبر مهمات متعددة الوسائط (مثل RT-2، RT-X)، ويقترب بسرعة من التطبيق الصناعي، وهو مسار تقني رئيسي لتفعيل الروبوتات في العالم الحقيقي.
· الاستنتاج الرقمي (Digital Reasoning / System-2 in LLMs): يعزز الجمع بين RL وPRM من تطور النماذج الكبيرة من «محاكاة اللغة» إلى «الاستنتاج الهيكلي»، مع نتائج تشمل DeepSeek-R1، وOpenAI o1/o3، وClaude من Anthropic، وAlphaGeometry، حيث يُحسن مكافأة استمرارية استنتاجات السلسلة، وليس فقط تقييم الإجابة النهائية.
· الاكتشاف العلمي والتحسين الرياضي: يستخدم RL للبحث عن هياكل أو استراتيجيات مثلى في فضاءات بحث واسعة ومعقدة بدون تصنيفات، وحقق نجاحات مثل AlphaTensor، AlphaDev، Fusion RL، وأظهر قدرات استكشافية تتجاوز الحدس البشري.
· القرارات الاقتصادية وأنظمة التداول: يُستخدم RL لتحسين الاستراتيجيات، والسيطرة على المخاطر عالية الأبعاد، وتوليد أنظمة تداول ذاتية التكييف، وهو مكون أساسي في التمويل الذكي.
التوافق الطبيعي بين التعلم المعزز وWeb3
يتمتع التعلم المعزز (RL) وWeb3 بتوافق فطري، لأنهُم أنظمة «مدفوعة بالحوافز» بشكل جوهري. يعتمد RL على إشارات المكافأة لتحسين السياسات، ويعتمد البلوكشين على الحوافز الاقتصادية لتنظيم سلوك المشاركين، مما يجعل آلياتهم متوافقة بشكل طبيعي. الطلب الأساسي للتعلم المعزز — عينات Rollout واسعة النطاق، توزيع المكافآت، والموثوقية — يتطابق مع المزايا الهيكلية لـ Web3.
فصل الاستنتاج عن التدريب
يمكن تقسيم عملية التدريب في RL بوضوح إلى مرحلتين:
· استكشاف Rollout (: يُولد النموذج بناءً على السياسة الحالية بيانات ضخمة، وهو مهمة كثيفة الحوسبة وذات اتصال منخفض. لا يحتاج إلى تواصل متكرر بين العقد، ويُنفذ بشكل متوازي على وحدات GPU المستهلكة في جميع أنحاء العالم.
· تحديث المعلمات ): يستند إلى البيانات المجمعة، ويحتاج إلى عقد مركزية عالية النطاق الترددي لإتمام التحديث.
«فصل الاستنتاج عن التدريب» يتوافق بشكل طبيعي مع البنية اللامركزية للحوسبة غير المتجانسة: يمكن تفويض عمليات Rollout لشبكة مفتوحة عبر رموز، ويتم التسوية عبر رموز تعتمد على المساهمة، بينما يتم الاحتفاظ بتحديث النموذج مركزيًا لضمان الاستقرار.
التحقق القابل للتوثيق (Verifiability)
توفر تقنيات مثل ZK وProof-of-Learning وسائل للتحقق من أن العقد قد أتمت استنتاجات حقيقية، وتحل مشكلة «الصدق» في الشبكة المفتوحة. في المهام الحاسوبية والتفكير الرياضي، يكفي أن يتحقق المدقق من الإجابة ليؤكد عمل العقد، مما يعزز الثقة في نظم RL اللامركزية.
طبقة الحوافز، نظام ردود الفعل القائم على الرموز
يمكن لنظام الرموز على Web3 أن يكافئ مباشرةً مساهمي تغذية التفضيلات وبيانات المكافأة، مما يجعل توليد بيانات التفضيل أكثر شفافية، وقابلة للفوترة، وبدون إذن، ويُعزز من خلال الرهانات والخصم (Staking/Slashing) جودة الردود، مما يخلق سوق ردود أفعال أكثر كفاءة وتوافقًا.
إمكانات التعلم المعزز متعدد الوكلاء (MARL)
يُعتبر البلوكشين بيئة متعددة الوكلاء شفافة ومتطورة بشكل مستمر، حيث تتفاعل الحسابات والعقود والوكيل باستمرار وفقًا للحوافز، مما يمنحها إمكانية بناء بيئات تجريبية واسعة لـ MARL. على الرغم من أن هذه التقنية لا تزال في مراحلها المبكرة، فإن خصائصها مثل الشفافية، والقدرة على التحقق، وقابلية البرمنة للحوافز، توفر مزايا مبدئية لنموها المستقبلي.
تحليل مشاريع Web3 والتعلم المعزز النموذجية
بناءً على الإطار النظري أعلاه، سنقدم تحليلاً موجزًا لأكثر المشاريع تمثيلًا في النظام البيئي:
Prime Intellect: نموذج التعلم المعزز غير المتزامن prime-rl
يسعى Prime Intellect لبناء سوق حوسبة عالمي مفتوح، يخفض عتبة التدريب، ويشجع على التدريب اللامركزي التعاوني، ويطور تكديس تكنولوجي مفتوح للذكاء الفائق. يتضمن النظام: Prime Compute (بيئة حوسبة سحابية/موزعة موحدة)، عائلة نماذج INTELLECT (10B–100B+)، مركز بيئة التعلم المعزز المفتوحة (Environments Hub)، و محرك بيانات اصطناعية كبير (SYNTHETIC-1/2).
العنصر الأساسي للبنية التحتية هو إطار prime-rl، المصمم خصيصًا للبيئة غير المتزامنة والتعلم المعزز، مع مكونات مثل بروتوكول الاتصال OpenDiLoCo، وآلية التحقق TopLoc لضمان سلامة الحساب، وغيرها.
ملخص مكونات البنية التحتية لـ Prime Intellect
الأساس التكنولوجي: إطار prime-rl للتعلم المعزز غير المتزامن
يُعد prime-rl محرك التدريب الأساسي لـ Prime Intellect، مصمم لبيئات لامركزية واسعة النطاق، ويفصل تمامًا بين المُحرك والعميل (Actor–Learner)، لتحقيق سعة عالية في التفاعل واستقرار في التحديث. لا يتزامن المُنفذ (Rollout Worker) والمتعلم (Trainer)، ويمكن للعقد الانضمام أو الانسحاب في أي وقت، طالما يقوم بجلب أحدث السياسات وتحميل البيانات المُنتجة:
· المُنفذ (Actor): مسؤول عن استنتاج النموذج وتوليد البيانات. قام Prime Intellect بدمج محرك استنتاج vLLM على طرف المُنفذ، مع تقنية PagedAttention وسعة المعالجة المستمرة، مما يتيح إنتاج مسارات استنتاج عالية السعة.
· المتعلم (Trainer): مسؤول عن تحسين السياسات. يسحب بشكل غير متزامن البيانات من مخزن التجارب (Experience Buffer) ويقوم بتحديث التدرجات، دون انتظار جميع المُنفذين.
· المنسق (Orchestrator): يدير توزيع الأوزان والبيانات.
الابتكارات الرئيسية لـ prime-rl
· غير متزامن بالكامل (True Asynchrony): يتجنب prime-rl نمط PPO التقليدي المتزامن، ولا ينتظر العقد البطيئة، ولا يتطلب محاذاة الدُفعات، مما يتيح لأي عدد وأي أداء من وحدات GPU الانضمام في أي وقت، مؤسسًا لإمكانية التعلم المعزز اللامركزي.
· دمج متعمق لـ FSDP2 و MoE: عبر تجزئة المعلمات باستخدام FSDP2 وتفعيل MoE بشكل متفرّق، يُمكن prime-rl تدريب نماذج بمليارات من المعلمات بكفاءة، حيث تقوم المُنفذات فقط بتفعيل الخبراء النشطين، مما يقلل بشكل كبير من استهلاك الذاكرة والتكاليف.
· GRPO+ (تحسين السياسات النسبي الجماعي): يحذف Critic، ويقلل من استهلاك الحساب والذاكرة، ويتكيف بشكل طبيعي مع البيئات غير المتزامنة، ويُحسن استقرار التدريب، ويُعتبر إطارًا رئيسيًا للتعلم المعزز في سيناريوهات الاستنتاج العميق.
عائلة نماذج INTELLECT: علامة على نضج تقنية التعلم المعزز اللامركزي
· INTELLECT-1 (10B، أكتوبر 2024): أثبت أن OpenDiLoCo يمكن تدريبه بكفاءة عبر شبكة معقدة عبر ثلاث قارات (معدل الاتصال أقل من 2%، واستخدام قدرات 98%)، مما يكسر الحواجز الفيزيائية للتدريب عبر المناطق.
· INTELLECT-2 (32B، أبريل 2025): كأول نموذج RL بدون إذن، يُثبت أن prime-rl وGRPO+ يمكنهما التوافق مع بيئة غير متزامنة ومتأخرة، ويؤكد إمكانية مشاركة قدرات حوسبة عالمية لتمكين التدريب اللامركزي.
· INTELLECT-3 (106B MoE، نوفمبر 2025): يستخدم بنية Sparse مع تفعيل 12B، ويُدرّب على 512×H200، ويحقق أداء استنتاجي رائد (AIME 90.8%، GPQA 74.4%، MMLU-Pro 81.9%)، ويتجاوز نماذج مركزية مغلقة أكبر حجمًا.
بالإضافة إلى ذلك، أنشأ Prime Intellect عدة بنى تحتية داعمة، مثل OpenDiLoCo الذي يقلل من استهلاك النطاق الترددي بشكل كبير، وTopLoc و Verifiers لإنشاء طبقة تنفيذ موثوقة، وSYNTHETIC لتوليد مسارات استنتاج عالية الجودة، مما يُوفر أساسًا هندسيًا لإنتاج نماذج عالمية متقدمة، ويدخل النظام في مرحلة التطبيق العملي.
Gensyn: النواة الأساسية للتعلم المعزز RL Swarm و SAPO
هدف Gensyn هو تجميع الحوسبة الخاملة في عالم مفتوح وموثوق وغير مركزي، لبناء بنية تدريب AI قابلة للتوسع بشكل غير محدود. يتضمن ذلك طبقة تنفيذ موحدة عبر الأجهزة، وشبكة تنسيق نظير إلى نظير، ونظام تحقق غير موثوق يُعتمد على العقود الذكية مع توزيع المهام والمكافآت تلقائيًا. مع التركيز على خصائص التعلم المعزز، أدخلت Gensyn آليات مثل RL Swarm، وSAPO، وSkipPipe، التي تفصل بين التوليد، التقييم، والتحديث، وتستخدم شبكة من وحدات GPU غير متجانسة لتحقيق التطور الجماعي. النتيجة النهائية ليست مجرد حوسبة، بل ذكاء يمكن التحقق منه (Verifiable Intelligence).
تطبيقات التعلم المعزز في بنية Gensyn
RL Swarm: محرك التعلم المعزز التعاوني غير المركزي
يُظهر RL Swarm نمطًا تعاونيًا جديدًا. فهو لا يقتصر على توزيع المهام، بل يدور حول حلقة «توليد — تقييم — تحديث» لامركزية، تحاكي التعلم الاجتماعي، وتتكرر باستمرار:
· Solvers (المنفذون): مسؤولون عن استنتاج النموذج المحلي وتوليد مسارات Rollout، مع دعم التفاعل غير المتجانس. يدمج Gensyn محرك استنتاج عالي السعة مثل CodeZero على الطرف، ويُنتج مسارات كاملة بدلاً من إجابات فقط.
· Proposers (المقترحون): ينشئون مهامًا ديناميكية (مثل مسائل رياضية، أسئلة برمجية)، مع دعم تنوع المهام وتحديات تتكيف تلقائيًا مع مستوى الصعوبة (Curriculum Learning).
· Evaluators (المقيمون): يستخدمون نموذج حكم ثابت أو قواعد لتقييم المسارات المحلية، وتوليد إشارات مكافأة، ويمكن تدقيقها، مما يقلل من الاحتيال.
هذه العناصر الثلاثة تشكل شبكة P2P لتنظيم التعلم المعزز، دون حاجة إلى إدارة مركزية.
SAPO: خوارزمية تحسين السياسات المعاد تصميمها لبيئة لامركزية
SAPO (Swarm Sampling Policy Optimization) تعتمد على «تشارك عينات Rollout وتصفية العينات بدون تدرجات»، من خلال استخراج عينات Rollout بشكل لامركزي واسع النطاق، واعتبارها إنتاجًا محليًا، مع الحفاظ على استقرار التوافق في بيئة غير متزامنة مع اختلافات زمن استجابة العقد، بعكس PPO وGRPO، يُمكن لـ SAPO العمل بكفاءة على وحدات GPU المستهلكة، ويُقلل من استهلاك النطاق الترددي بشكل كبير.
من خلال RL Swarm وSAPO، أثبت Gensyn أن التعلم المعزز، خاصة في مرحلة ما بعد التدريب (RLVR)، يتوافق تلقائيًا مع البنى اللامركزية — لأنه يعتمد بشكل أكبر على استكشاف واسع النطاق وتنوع أكبر في العينات، بدلاً من التزامن عالي التردد للمعلمات. مع أنظمة التحقق PoL وVerde، يوفر Gensyn مسارًا بديلًا لتدريب نماذج بمليارات التريليونات من المعلمات بدون الاعتماد على عمالقة التكنولوجيا، عبر شبكة من مئات الآلاف من وحدات GPU غير المتجانسة تتطور ذاتيًا.
Nous Research: بيئة التعلم المعزز القابلة للتحقق Atropos
تعمل Nous Research على بناء بنية تحتية معرفية لامركزية ومتطورة ذاتيًا. مكوناتها الأساسية — Hermes، Atropos، DisTrO، Psyche، وWorld Sim — تُنظم في دورة مستمرة من التطور الذكي. بخلاف النموذج التقليدي «تدريب مسبق — تدريب لاحق — استنتاج»، تعتمد Nous على تقنيات RL مثل DPO، GRPO، والرفض الانتقائي، لدمج توليد البيانات، التحقق، التعلم، والاستنتاج في حلقة ردود فعل مستمرة، مما يُنشيء نظامًا بيئيًا AI يتطور ذاتيًا باستمرار.
ملخص مكونات Nous Research
طبقة النموذج: Hermes وتطور قدرات الاستنتاج
سلسلة Hermes تمثل الواجهة الأساسية لنماذج Nous، وتوضح كيف يتغير الاتجاه من التوافق عبر DPO وSFT إلى استراتيجيات RL في الاستنتاج:
· Hermes 1–3: تركز على التوافق عبر أوامر وميزات أولية، وتستخدم DPO بشكل فعال، مع إدخال Atropos للتحقق في Hermes 3.
· Hermes 4 / DeepHermes: تدمج تفكيرًا منطقياً من نوع System-2 عبر وزن النموذج، وتستخدم Test-Time Scaling لتحسين الأداء الرياضي والبرمجي، مع بناء بيانات استنتاج عالية النقاء عبر رفض الانتقاء والتحقق بـ Atropos.
· DeepHermes يستخدم تقنية GRPO بدلاً من PPO، ليتمكن من العمل في بيئة استنتاج RL غير الموزعة، مع دعم شبكة Psyche لبيانات الاستنتاج اللامركزية، مما يُمهد الطريق لانتشار استراتيجيات RL المفتوحة المصدر.
Atropos: بيئة التعلم المعزز القابلة للتحقق
Atropos هو قلب نظام RL في Nous. يُغلف الإدخالات، استدعاء الأدوات، تنفيذ الأكواد، والتفاعل متعدد الجولات في بيئة RL موحدة، ويمكن التحقق مباشرة من صحة المخرجات، وتقديم إشارات مكافأة ثابتة، بدلاً من تصنيف بشري مكلف غير قابل للتوسع. والأهم، أنه يُمثل الحكم في شبكة Psyche، ويُستخدم للتحقق من أن العقد قد حسنت استراتيجيتها، ويدعم إثبات التعلم القابل للمراجعة، ويحل مشكلة موثوقية المكافآت في RL الموزع.
DisTrO وPsyche: طبقة التحسين في التعلم المعزز اللامركزي
التدريب التقليدي لـ RL (مثل RLHF و RLAIF) يعتمد على مراكز عالية النطاق الترددي، وهو عائق رئيسي مفتوح المصدر. يُقلل DisTrO عبر حلول مثل فصل الزخم وضغط التدرجات من تكلفة التواصل، ويُمكن تشغيله عبر الإنترنت، بينما يُنشر Psyche على شبكة blockchain، بحيث يمكن للعقد أداء الاستنتاج والتحقق وتقييم المكافآت وتحديث الأوزان محليًا، مكونًا حلقة RL كاملة.
داخل نظام Nous، يتحقق Atropos من سلاسل التفكير، ويضغط DisTrO على اتصال التدريب، ويُشغل Psyche دورة RL، ويُوفر World Sim بيئة معقدة، وForge يجمع استنتاجات حقيقية، وHermes يُكتب جميع التعلمات في الأوزان. التعلم المعزز هنا ليس مجرد مرحلة تدريب، بل هو بروتوكول رئيسي يربط البيانات، البيئة، النموذج، والبنية التحتية، لكي يُصبح Hermes نظامًا حيًا يُحسن ذاته باستمرار على شبكة الحوسبة المفتوحة.
Gradient Network: هندسة التعلم المعزز عبر Echo
رؤية Gradient الأساسية هي إعادة تشكيل نموذج الحوسبة للذكاء الاصطناعي عبر «طبقة بروتوكولات الذكاء المفتوحة» (Open Intelligence Stack). تتكون تقنية Gradient من بروتوكولات مستقلة ومتعاونة، بدءًا من الاتصال (Parallax، استنتاج موزع)، والتعلم المعزز (Echo)، وشبكة P2P (Lattica)، والأمان والتعاون (SEDM، Massgen، Symphony، CUAHarm)، والتحقق الموثوق (VeriLLM)، والمحاكاة عالية الدقة (Mirage). معًا، تُبني بنية تحتية ذكية لامركزية ومتطورة بشكل مستمر.
Echo — هندسة التدريب المعزز
هو إطار تعلم معزز من Gradient، يهدف إلى فصل عمليات التدريب، الاستنتاج، والبيانات (المكافآت)، بحيث يمكن توليد العينات، وتحديث السياسات، وتقييم المكافآت بشكل مستقل على بيئات متنوعة. يعمل مع عقد استنتاج وتدريب غير متجانسة، ويُحافظ على استقرار التدريب عبر آلية تزامن خفيفة، مما يُخفف من مشاكل استخدام GPU في بيئات DeepSpeed RLHF / VERL، مثل ضعف الاستفادة أو تعطل SPMD.
يعتمد Echo على «الاستنتاج — التدريب بنظام المجموعتين» لتحقيق أقصى استفادة من الحوسبة، حيث تُشغل كل مجموعة بشكل مستقل، ولا تتداخل:
· تعظيم معدل العينات: مجموعة الاستنتاج (Inference Swarm) تتكون من وحدات GPU المستهلكة والأجهزة الطرفية، وتُبنى عبر Parallax باستخدام خط أنابيب (pipeline-parallel) لزيادة السعة، مع التركيز على توليد المسارات.
· تعظيم قوة التدرجات: مجموعة التدريب (Training Swarm) تتكون من وحدات GPU المركزية والعالمية، وتُعنى بتحديث التدرجات، وتزامن المعلمات، وتخصيص LoRA، مع التركيز على عملية التعلم.
لضمان التوافق بين السياسات والبيانات، يُوفر Echo بروتوكولين خفيفي الوزن:
· استرجاع متسلسل (Pull): يفضل الدقة، حيث يُجبر التدريب عقد الاستنتاج على تحديث النموذج قبل استرجاع مسارات جديدة، لضمان حداثة البيانات، ومناسب جدًا للمهام التي تتطلب سياسات حديثة.
· دفع وسحب غير متزامن (Push–Pull): يُشجع على الاستمرار في توليد المسارات مع علامات إصدار، ويُستهلك عن طريق التدريب وفقًا لوتيرته، مع مراقبة المنسق للفروقات في الإصدارات وتحفيز تحديث الأوزان، لتعظيم استغلال الأجهزة.
في الأساس، يُبنى Echo على Parallax، ويستخدم مكونات تدريب موزعة خفيفة مثل VERL(، ويعتمد على LoRA لتقليل تكلفة التزامن بين العقد، مما يُمكن من تشغيل التعلم المعزز بشكل ثابت عبر شبكات غير متجانسة على مستوى العالم.
Grail: نظام Bittensor للتعلم المعزز
يُبنى Grail على آلية إجماع Yuma الفريدة، لإنشاء شبكة ضخمة، متفرقة، غير مستقرة من دوال المكافأة.
يتضمن نظام Covenant AI في بيئة Bittensor خطوط إنتاج متكاملة من التدريب المسبق إلى التدريب اللاحق، منها SN3 Templar للموديلات الأساسية، وSN39 Basilica لسوق الحوسبة الموزعة، وSN81 Grail كطبقة استنتاج قابلة للتحقق، التي تتولى عمليات RLHF / RLAIF، وتُكمل دورة تحسين مغلقة من النموذج إلى التوافق.
يهدف Grail إلى إثبات صحة كل مسار استنتاجي عبر تقنيات تشفير، وربط هوية النموذج، والتوقيعات الهيكلية لتوزيع الرموز، لضمان أن يُكشف عن أي استبدال أو إعادة تشغيل. على هذا الأساس، يُمكن لـ Grail تنفيذ عمليات RLVR / RLAIF قابلة للتحقق، بحيث يُنتج المعدنون مسارات استنتاج متعددة، ويقيمها المقيمون وفقًا للجودة، ويكتبون النتائج على السلسلة، مما يعزز الثقة. تُظهر التجارب أن إطار Grail يُحسن دقة نماذج مثل Qwen2.5-1.5B من 12.7% إلى 47.6%، مؤكداً قدرته على مقاومة الاحتيال وتعزيز القدرات بشكل ملحوظ. يُعد Grail في منظومة Covenant AI حجر أساس الثقة والتنفيذ في RLVR / RLAIF، وهو في مرحلة ما قبل الإطلاق الرسمي.
Fraction AI: التعلم المعزز التنافسي RLFC
يُبنى إطار Fraction AI حول مفهوم التعلم المعزز التنافسي (Reinforcement Learning from Competition)، ويستخدم بيئة لعب ديناميكية مفتوحة، حيث يُبدل نظام المكافآت الثابت والتصنيف اليدوي ببيئة تنافسية وتقييم فوري من قِبل الحكام AI، ويُحسن التوافق عبر ترتيب المنافسين وتقييماتهم، مما يُحوّل عملية التوافق إلى نظام تفاعل متعدد الوكلاء حي.
الفروق الأساسية بين RLHF وRLFC في Fraction AI:
القيمة الأساسية لـ RLFC هي أن المكافآت تأتي من خصوم ومقيمين متغيرين، بدلاً من نموذج واحد ثابت، مما يُحبط استغلال نظام المكافآت، ويُعزز تنوع السياسات ويمنع الوقوع في الأوكار المحلية. يُحدد هيكل Spaces طبيعة اللعبة (صفرية أو غير صفرية)، مما يخلق سلوكًا معقدًا في التفاعل والتعاون.
على مستوى النظام، يُقسّم Fraction AI عملية التدريب إلى أربعة مكونات رئيسية:
· Agents (الوكيل): وحدات سياسة خفيفة تعتمد على LLM مفتوحة المصدر، وتستخدم QLoRA لتوسيع التغييرات، وتُحدث بكلفة منخفضة.
· Spaces (المساحات): بيئات مهمة معزولة، حيث يدفع الوكيل للدخول ويكافأ على الفوز والخسارة.
· AI Judges (الحكام AI): تُبنى عبر RLAIF، وتوفر تقييمات فورية وقابلة للتوسع دون مركزية.
· Proof-of-Learning (إثبات التعلم): يُربط تحديث السياسات بنتائج التنافس، لضمان أن يكون التدريب قابلًا للتحقق، ويمنع الاحتيال.
الهدف من Fraction AI هو إنشاء محرك تطور تفاعلي بين الإنسان والآلة. يُعد المستخدم «المُحسن الأعلى» )Meta-optimizer(، ويقود عمليات الاستكشاف عبر هندسة التعليمات (Prompt Engineering) وضبط المعلمات؛ بينما يُنتج الوكيل بيانات تفضيل عالية الجودة بشكل تلقائي في التنافس الدقيق، وتُحسن عملية التخصيص والتطوير بشكل مستمر.
مقارنة بين بنية مشاريع التعلم المعزز وWeb3
الخلاصة والتطلعات: مسارات وفرص التداخل بين التعلم المعزز وWeb3
بناءً على تحليل المشاريع الرائدَة، يتضح أن رغم تنوع نقاط الدخول (الخوارزميات، والهندسة، والسوق)، فإن البنية الأساسية التي تربط RL وWeb3 تت converg إلى نمط «فصل–تحقق–حوافز» عالي التوافق. وهو ليس مجرد صدفة تقنية، بل نتيجة حتمية لتكييف الشبكات اللامركزية مع خصائص التعلم المعزز الفريدة.
الخصائص العامة للهيكلية المعمارية لـ RL: حل القيود المادية والثقة الأساسية
فصل التدريب والتوليد )Decoupling of Rollouts & Learning( — حسب الطوبولوجيا الحسابية الافتراضية
تُفوض عينات Rollout، عبر شبكات GPU المستهلكة عالميًا، بشكل متزامن ومتوازي، مع تقليل الاتصال بين العقد، وتُركز تحديثات المعلمات على عدد محدود من عقد التدريب، كما في نماذج Prime Intellect وGradient.
طبقة الثقة المدفوعة بالتحقق )Verification-Driven Trust( — البنية التحتية
في شبكات بدون إذن، يجب فرض صحة الحساب عبر تصميمات رياضية وآليات، مثل PoL في Gensyn، وTOPLOC في Prime Intellect، والتوثيق cryptographic في Grail.
الحلقة التحفيزية المشفرة )Tokenized Incentive Loop( — السوق ذاتي التنظيم
تُكوّن موارد الحوسبة، وتوليد البيانات، وترتيب التقييم والمكافآت دائرة مغلقة، مع تحفيز المشاركة، وخصم المخالفين، مما يحافظ على استقرار واستدامة الشبكة في بيئة مفتوحة.
طرق تقنية متميزة: «ثغرات» الاختراق في إطار موحد
رغم التوافق، اختارت المشاريع مسارات تقنية مختلفة:
· رواد الخوارزميات )Nous Research(: يحاولون حل التناقضات الأساسية في التدريب الموزع (مثل محدودية النطاق الترددي) عبر خوارزميات مثل DisTrO، التي تُقلل من استهلاك التواصل آلاف المرات، بهدف تمكين تدريب نماذج ضخمة عبر شبكات منزلية، وهو «تخفيف» محدودية الفيزياء.
· مهندسو الأنظمة )Prime Intellect, Gensyn, Gradient): يركزون على بناء «نظام تشغيل» للذكاء الاصطناعي. مثل ShardCast في Prime Intellect وParallax في Gradient، تُبنى على هندسة عالية لتحقيق أعلى كفاءة في استغلال الشبكات غير المتجانسة.
· خبراء السوق (Bittensor, Fraction AI): يركزون على تصميم دوال المكافأة (Reward Function). من خلال أنظمة تقييم مبتكرة، يُحفزون المعدنين للبحث تلقائيًا عن السياسات المثلى، لتسريع ظهور الذكاء.
المزايا، التحديات، والتوقعات النهائية
في إطار تداخل RL وWeb3، تتضح المزايا على مستوى النظام بشكل رئيسي في إعادة تشكيل التكاليف والهياكل الحاكمة:
· إعادة صياغة التكاليف: الطلب على التكرار بعد التدريب (Post-training) لا نهائي، وWeb3 يمكنه تحفيز حوسبة العالم الخامل بكلفة منخفضة جدًا، وهو ما يصعب على السحابة المركزية منافسته.
· التوافق السيادي (Sovereign Alignment): كسر احتكار الشركات الكبرى لقيم الذكاء الاصطناعي، حيث يمكن للمجتمع التصويت عبر الرموز على «ما هو الجواب الجيد»، وتحقيق حوكمة ديمقراطية.
وفي الوقت نفسه، يواجه النظام قيودًا هيكلية رئيسية:
· جدار النطاق الترددي (Bandwidth Wall): رغم ابتكارات DisTrO، إلا أن التأخير الفيزيائي يحد من تدريب نماذج ضخمة (>70B)، ويقتصر Web3 حاليًا على التخصيص والتش
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
من القوة الحاسوبية إلى الذكاء، خريطة استثمار الذكاء الاصطناعي اللامركزية المدفوعة بالتعلم المعزز
الذكاء الاصطناعي يتجه من التعلم الإحصائي الذي يركز على «مطابقة النماذج» نحو نظام قدرات يركز على «الاستنتاج المنهجي»، مع تصاعد أهمية ما بعد التدريب (Post-training) بسرعة. ظهور DeepSeek-R1 يمثل نقلة نوعية في التعلم المعزز في عصر النماذج الكبيرة، مع توافق صناعي حول أن: التدريب المسبق يبني قدرات عامة للنموذج، والتعلم المعزز لم يعد مجرد أداة لمواءمة القيم، بل ثبت قدرته على تحسين جودة سلاسل الاستنتاج والقدرات على اتخاذ قرارات معقدة بشكل منهجي، ويتطور تدريجياً ليصبح مساراً تقنياً يرفع مستوى الذكاء بشكل مستمر.
وفي الوقت نفسه، يعيد Web3 بناء علاقات الإنتاج مع الذكاء الاصطناعي عبر شبكات الحوسبة اللامركزية ونظام الحوافز المشفر، بينما يتوافق الطلب الهيكلي للتعلم المعزز على عينات Rollout، وإشارات المكافأة، والعمليات القابلة للتحقق، بشكل طبيعي مع التعاون في الحوسبة على بلوكشين، وتوزيع الحوافز، والتنفيذ القابل للتحقق. ستقوم هذه الدراسة بتحليل منهجية تدريب الذكاء الاصطناعي ومبادئ تقنية التعلم المعزز، وتوضيح المزايا الهيكلية للتعلم المعزز × Web3، مع تحليل مشاريع مثل Prime Intellect، Gensyn، Nous Research، Gradient، Grail، Fraction AI وغيرها.
مراحل تدريب الذكاء الاصطناعي: التدريب المسبق، التخصيص بالتعليمات، والتوافق بعد التدريب
دورة حياة تدريب نماذج اللغة الكبيرة (LLMs) الحديث غالبًا ما تُقسم إلى ثلاث مراحل رئيسية: التدريب المسبق (Pre-training)، التخصيص بالتعليمات (SFT)، والتوافق بعد التدريب (Post-training/RL). كل منها يقوم بوظائف «بناء نموذج عالمي—حقن قدرات مهمة—تشكيل الاستنتاجات والقيم»، وتركيبها الحسابي، ومتطلبات البيانات، وصعوبة التحقق تحدد مدى توافقها مع البيئة اللامركزية.
· التدريب المسبق (Pre-training): يتم عبر التعلم الذاتي على نطاق واسع لبناء الهيكل الإحصائي للغة والنموذج متعدد الوسائط، وهو أساس قدرات النموذج. يحتاج إلى تدريب على مليارات من النصوص بشكل عالمي ومتزامن، ويعتمد على مجموعات حوسبة متجانسة مكونة من آلاف إلى عشرات الآلاف من وحدات H100، وتكلفتها تمثل 80–95% من التكاليف، وتعد حساسة للغاية للنطاق الترددي وحقوق البيانات، لذا يجب إتمامها في بيئة مركزة جدًا.
· التخصيص بالتعليمات (Supervised Fine-tuning): يستخدم لحقن قدرات مهمة وتنسيقات أوامر، ويستهلك حوالي 5–15% من التكاليف، ويمكن أن يتم تدريب جميع المعلمات أو عبر طرق التخصيص الكفء للمعلمات (PEFT)، مع أن LoRA وQ-LoRA وAdapter تعتبر السائدة صناعيًا، إلا أنه يتطلب تزامن التدرجات، مما يحد من قدرته على اللامركزية بشكل محدود.
· بعد التدريب (Post-training): يتكون من مراحل تكرارية متعددة، وتحدد قدرات النموذج في الاستنتاج، والقيم، والحدود الآمنة، ويشمل أنظمة التعلم المعزز (RLHF، RLAIF، GRPO)، وأيضًا طرق تحسين التفضيلات بدون RL (مثل DPO)، ونماذج المكافأة العملية (PRM). تكون البيانات والتكاليف أقل (5–10%)، وتتركز بشكل رئيسي على Rollout وتحديث السياسات؛ ويدعم بشكل طبيعي التنفيذ غير المتزامن والموزع، حيث لا يحتاج العقد إلى امتلاك كامل الأوزان، مع إمكانيات التحقق من الحسابات والحوافز على السلسلة، مما يجعله أكثر توافقًا مع Web3.
نظرة شاملة على تكنولوجيا التعلم المعزز: الهيكل، الإطار، والتطبيقات
الهيكل المعماري والتشغيلي للتعلم المعزز
يعمل التعلم المعزز (RL) عبر «التفاعل مع البيئة — ردود الفعل بالمكافأة — تحديث السياسات»، ويعتبر هيكلًا تغذيليًا يتكون من الحالة، الإجراء، المكافأة، والسياسة. يتضمن نظام RL الكامل عادةً ثلاثة مكونات: سياسة (Policy)، عينات Rollout، والمتعلم (Learner). تتفاعل السياسات مع البيئة لإنتاج مسارات، ويقوم المتعلم بتحديث السياسات استنادًا إلى إشارات المكافأة، مما يشكل دورة تعلم مستمرة ومتكررة:
شبكة السياسة (Policy): تولد الإجراء استنادًا إلى الحالة، وهي القلب الحاسم لاتخاذ القرار. أثناء التدريب، يتطلب الأمر انتشارًا عكسيًا مركزيًا للحفاظ على الاتساق؛ أثناء الاستنتاج، يمكن توزيعها على عقد مختلفة للتشغيل المتزامن.
عينات Rollout: ينفذ العقد وفقًا للسياسة التفاعلية مع البيئة، ويولد مسارات من الحالة-الإجراء-المكافأة. هذه العملية متوازية للغاية، وتستهلك الحد الأدنى من الاتصال، ولا تتأثر باختلاف الأجهزة، مما يجعلها مثالية للتوسع في بيئة لامركزية.
المتعلم (Learner): يجمع جميع مسارات Rollout ويقوم بتحديث تدرجات السياسات، وهو المكون الأعلى طلبًا في الحوسبة والنطاق الترددي، وغالبًا ما يُحتفظ به مركزيًا أو بشكل خفيف لضمان الاستقرار في التقارب.
إطار مراحل التعلم المعزز (RLHF → RLAIF → PRM → GRPO)
يُقسم التعلم المعزز عادةً إلى خمس مراحل، وهي كما يلي:
مرحلة توليد البيانات (استكشاف السياسة)
تحت شرط المدخلات المحددة، يُولد نموذج السياسة πθ عدة مسارات استنتاج محتملة أو مسارات كاملة، موفرةً أساسًا عينات لتقييم التفضيلات ونمذجة المكافآت، وتحدد مدى استكشاف السياسة.
مرحلة ردود الفعل التفضيلية (RLHF / RLAIF)
· RLHF (التعلم المعزز من التغذية الراجعة البشرية): عبر إجابات متعددة، تصنيف تفضيلات يدوية، تدريب نموذج المكافأة (RM)، وتحسين السياسة باستخدام PPO، لجعل المخرجات تتوافق أكثر مع القيم البشرية، وهو عنصر جوهري في GPT-3.5 → GPT-4.
· RLAIF (التعلم المعزز من تغذية الذكاء الاصطناعي): يستخدم قاضٍ ذكاء اصطناعي أو قواعد دستورية بدلاً من التصنيف اليدوي، لتحقيق التلقائية في جمع التفضيلات، وخفض التكاليف، وزيادة الحجم، وأصبح نمطًا سائدًا في Align لمشاريع مثل Anthropic، OpenAI، DeepSeek.
مرحلة نمذجة المكافأة (Reward Modeling)
تعتمد على التفضيلات لبناء نموذج مكافأة يتعلم كيفية تحويل مخرجات النموذج إلى مكافآت. RM يوضح «ما هو الجواب الصحيح»، PRM يوضح «كيف نستنتج بشكل صحيح».
· RM (نموذج المكافأة): يُقيم جودة الإجابة النهائية ويعطي درجات فقط:
· PRM (نموذج المكافأة للعمليات): لا يقتصر على تقييم الإجابة النهائية، بل يقيم كل خطوة استنتاج، وكل رمز، وكل مقطع منطقي، وهو تقنية رئيسية في OpenAI وDeepSeek-R1، ويهدف إلى «تعليم النموذج كيف يفكر».
مرحلة التحقق من المكافأة (RLVR / Verifiability of Rewards)
عند توليد واستخدام إشارات المكافأة، يتم إدخال «قيود قابلة للتحقق» بحيث تأتي المكافآت من قواعد أو حقائق أو إجماع يمكن استنساخه، بهدف تقليل مخاطر الاحتيال في المكافآت وزيادة الشفافية والقابلية للتوسع في بيئات مفتوحة.
مرحلة تحسين السياسات (Policy Optimization)
تتم تحت إرشاد إشارات نموذج المكافأة، وتحديث معلمات السياسة θ للحصول على سياسة ذات قدرات استنتاجية أعلى، وأمان أكثر، وسلوك أكثر استقرارًا. تشمل الطرق الرئيسية:
· PPO (تحسين السياسات المكانية): هو المُحسن التقليدي لـ RLHF، معروف بالثبات، لكنه يواجه مشاكل في التوافق مع مهام الاستنتاج المعقدة، مثل التردد البطيء والضعف في الاستقرار.
· GRPO (تحسين السياسات النسبي الجماعي): هو ابتكار رئيسي في DeepSeek-R1، يبني نماذج توزيع الأفضلية داخل مجموعات الإجابات بدلًا من الترتيب البسيط، ويحافظ على معلومات نطاق المكافأة، ويُعد أكثر استقرارًا، ومناسبًا بشكل خاص لتحسين سلاسل الاستنتاج، ويعتبر إطارًا مهمًا للتعلم المعزز بعد PPO في سيناريوهات الاستنتاج العميق.
· DPO (تحسين التفضيلات المباشر): طريقة بعد التدريب بدون RL، لا تنتج مسارات ولا تبني نماذج مكافأة، بل تُحسن مباشرة على أساس التفضيلات، منخفضة التكاليف وذات نتائج مستقرة، وتستخدم بشكل واسع في مشاريع مثل Llama وGemma، لكنها لا تعزز قدرات الاستنتاج.
مرحلة نشر السياسات الجديدة (New Policy Deployment)
يُظهر النموذج بعد التحسين قدرات أعلى على توليد سلاسل استنتاج (System-2 Reasoning)، وتصرفات أكثر توافقًا مع تفضيلات البشر أو الذكاء الاصطناعي، وانخفاض في الهلوسة، وزيادة في الأمان. يتعلم النموذج باستمرار من التفضيلات، ويقوم بتحسين العمليات، ويرتقي بجودة القرار، مما يخلق دائرة مغلقة.
تطبيقات التعلم المعزز في الصناعة: خمسة تصنيفات رئيسية
لقد تطور التعلم المعزز من ذكاء الألعاب إلى إطار اتخاد القرار المستقل عبر مختلف الصناعات، ويمكن تصنيف تطبيقاته إلى خمسة مجالات، مع تحقيق تقدمات رئيسية في كل منها:
· الألعاب والاستراتيجيات: هو أول مجالات إثبات فاعليته، حيث أظهر في AlphaGo، AlphaZero، AlphaStar، OpenAI Five قدرات ذكاء قرار تقارب أو تتجاوز خبراء الإنسان، مما وضع الأساس لخوارزميات RL الحديثة.
· الروبوتات والذكاء الجسدي: عبر التحكم المستمر ونمذجة الديناميات والتفاعل مع البيئة، يتعلم الروبوت التحكم في الحركة والأداء عبر مهمات متعددة الوسائط (مثل RT-2، RT-X)، ويقترب بسرعة من التطبيق الصناعي، وهو مسار تقني رئيسي لتفعيل الروبوتات في العالم الحقيقي.
· الاستنتاج الرقمي (Digital Reasoning / System-2 in LLMs): يعزز الجمع بين RL وPRM من تطور النماذج الكبيرة من «محاكاة اللغة» إلى «الاستنتاج الهيكلي»، مع نتائج تشمل DeepSeek-R1، وOpenAI o1/o3، وClaude من Anthropic، وAlphaGeometry، حيث يُحسن مكافأة استمرارية استنتاجات السلسلة، وليس فقط تقييم الإجابة النهائية.
· الاكتشاف العلمي والتحسين الرياضي: يستخدم RL للبحث عن هياكل أو استراتيجيات مثلى في فضاءات بحث واسعة ومعقدة بدون تصنيفات، وحقق نجاحات مثل AlphaTensor، AlphaDev، Fusion RL، وأظهر قدرات استكشافية تتجاوز الحدس البشري.
· القرارات الاقتصادية وأنظمة التداول: يُستخدم RL لتحسين الاستراتيجيات، والسيطرة على المخاطر عالية الأبعاد، وتوليد أنظمة تداول ذاتية التكييف، وهو مكون أساسي في التمويل الذكي.
التوافق الطبيعي بين التعلم المعزز وWeb3
يتمتع التعلم المعزز (RL) وWeb3 بتوافق فطري، لأنهُم أنظمة «مدفوعة بالحوافز» بشكل جوهري. يعتمد RL على إشارات المكافأة لتحسين السياسات، ويعتمد البلوكشين على الحوافز الاقتصادية لتنظيم سلوك المشاركين، مما يجعل آلياتهم متوافقة بشكل طبيعي. الطلب الأساسي للتعلم المعزز — عينات Rollout واسعة النطاق، توزيع المكافآت، والموثوقية — يتطابق مع المزايا الهيكلية لـ Web3.
فصل الاستنتاج عن التدريب
يمكن تقسيم عملية التدريب في RL بوضوح إلى مرحلتين:
· استكشاف Rollout (: يُولد النموذج بناءً على السياسة الحالية بيانات ضخمة، وهو مهمة كثيفة الحوسبة وذات اتصال منخفض. لا يحتاج إلى تواصل متكرر بين العقد، ويُنفذ بشكل متوازي على وحدات GPU المستهلكة في جميع أنحاء العالم.
· تحديث المعلمات ): يستند إلى البيانات المجمعة، ويحتاج إلى عقد مركزية عالية النطاق الترددي لإتمام التحديث.
«فصل الاستنتاج عن التدريب» يتوافق بشكل طبيعي مع البنية اللامركزية للحوسبة غير المتجانسة: يمكن تفويض عمليات Rollout لشبكة مفتوحة عبر رموز، ويتم التسوية عبر رموز تعتمد على المساهمة، بينما يتم الاحتفاظ بتحديث النموذج مركزيًا لضمان الاستقرار.
التحقق القابل للتوثيق (Verifiability)
توفر تقنيات مثل ZK وProof-of-Learning وسائل للتحقق من أن العقد قد أتمت استنتاجات حقيقية، وتحل مشكلة «الصدق» في الشبكة المفتوحة. في المهام الحاسوبية والتفكير الرياضي، يكفي أن يتحقق المدقق من الإجابة ليؤكد عمل العقد، مما يعزز الثقة في نظم RL اللامركزية.
طبقة الحوافز، نظام ردود الفعل القائم على الرموز
يمكن لنظام الرموز على Web3 أن يكافئ مباشرةً مساهمي تغذية التفضيلات وبيانات المكافأة، مما يجعل توليد بيانات التفضيل أكثر شفافية، وقابلة للفوترة، وبدون إذن، ويُعزز من خلال الرهانات والخصم (Staking/Slashing) جودة الردود، مما يخلق سوق ردود أفعال أكثر كفاءة وتوافقًا.
إمكانات التعلم المعزز متعدد الوكلاء (MARL)
يُعتبر البلوكشين بيئة متعددة الوكلاء شفافة ومتطورة بشكل مستمر، حيث تتفاعل الحسابات والعقود والوكيل باستمرار وفقًا للحوافز، مما يمنحها إمكانية بناء بيئات تجريبية واسعة لـ MARL. على الرغم من أن هذه التقنية لا تزال في مراحلها المبكرة، فإن خصائصها مثل الشفافية، والقدرة على التحقق، وقابلية البرمنة للحوافز، توفر مزايا مبدئية لنموها المستقبلي.
تحليل مشاريع Web3 والتعلم المعزز النموذجية
بناءً على الإطار النظري أعلاه، سنقدم تحليلاً موجزًا لأكثر المشاريع تمثيلًا في النظام البيئي:
Prime Intellect: نموذج التعلم المعزز غير المتزامن prime-rl
يسعى Prime Intellect لبناء سوق حوسبة عالمي مفتوح، يخفض عتبة التدريب، ويشجع على التدريب اللامركزي التعاوني، ويطور تكديس تكنولوجي مفتوح للذكاء الفائق. يتضمن النظام: Prime Compute (بيئة حوسبة سحابية/موزعة موحدة)، عائلة نماذج INTELLECT (10B–100B+)، مركز بيئة التعلم المعزز المفتوحة (Environments Hub)، و محرك بيانات اصطناعية كبير (SYNTHETIC-1/2).
العنصر الأساسي للبنية التحتية هو إطار prime-rl، المصمم خصيصًا للبيئة غير المتزامنة والتعلم المعزز، مع مكونات مثل بروتوكول الاتصال OpenDiLoCo، وآلية التحقق TopLoc لضمان سلامة الحساب، وغيرها.
ملخص مكونات البنية التحتية لـ Prime Intellect
الأساس التكنولوجي: إطار prime-rl للتعلم المعزز غير المتزامن
يُعد prime-rl محرك التدريب الأساسي لـ Prime Intellect، مصمم لبيئات لامركزية واسعة النطاق، ويفصل تمامًا بين المُحرك والعميل (Actor–Learner)، لتحقيق سعة عالية في التفاعل واستقرار في التحديث. لا يتزامن المُنفذ (Rollout Worker) والمتعلم (Trainer)، ويمكن للعقد الانضمام أو الانسحاب في أي وقت، طالما يقوم بجلب أحدث السياسات وتحميل البيانات المُنتجة:
· المُنفذ (Actor): مسؤول عن استنتاج النموذج وتوليد البيانات. قام Prime Intellect بدمج محرك استنتاج vLLM على طرف المُنفذ، مع تقنية PagedAttention وسعة المعالجة المستمرة، مما يتيح إنتاج مسارات استنتاج عالية السعة.
· المتعلم (Trainer): مسؤول عن تحسين السياسات. يسحب بشكل غير متزامن البيانات من مخزن التجارب (Experience Buffer) ويقوم بتحديث التدرجات، دون انتظار جميع المُنفذين.
· المنسق (Orchestrator): يدير توزيع الأوزان والبيانات.
الابتكارات الرئيسية لـ prime-rl
· غير متزامن بالكامل (True Asynchrony): يتجنب prime-rl نمط PPO التقليدي المتزامن، ولا ينتظر العقد البطيئة، ولا يتطلب محاذاة الدُفعات، مما يتيح لأي عدد وأي أداء من وحدات GPU الانضمام في أي وقت، مؤسسًا لإمكانية التعلم المعزز اللامركزي.
· دمج متعمق لـ FSDP2 و MoE: عبر تجزئة المعلمات باستخدام FSDP2 وتفعيل MoE بشكل متفرّق، يُمكن prime-rl تدريب نماذج بمليارات من المعلمات بكفاءة، حيث تقوم المُنفذات فقط بتفعيل الخبراء النشطين، مما يقلل بشكل كبير من استهلاك الذاكرة والتكاليف.
· GRPO+ (تحسين السياسات النسبي الجماعي): يحذف Critic، ويقلل من استهلاك الحساب والذاكرة، ويتكيف بشكل طبيعي مع البيئات غير المتزامنة، ويُحسن استقرار التدريب، ويُعتبر إطارًا رئيسيًا للتعلم المعزز في سيناريوهات الاستنتاج العميق.
عائلة نماذج INTELLECT: علامة على نضج تقنية التعلم المعزز اللامركزي
· INTELLECT-1 (10B، أكتوبر 2024): أثبت أن OpenDiLoCo يمكن تدريبه بكفاءة عبر شبكة معقدة عبر ثلاث قارات (معدل الاتصال أقل من 2%، واستخدام قدرات 98%)، مما يكسر الحواجز الفيزيائية للتدريب عبر المناطق.
· INTELLECT-2 (32B، أبريل 2025): كأول نموذج RL بدون إذن، يُثبت أن prime-rl وGRPO+ يمكنهما التوافق مع بيئة غير متزامنة ومتأخرة، ويؤكد إمكانية مشاركة قدرات حوسبة عالمية لتمكين التدريب اللامركزي.
· INTELLECT-3 (106B MoE، نوفمبر 2025): يستخدم بنية Sparse مع تفعيل 12B، ويُدرّب على 512×H200، ويحقق أداء استنتاجي رائد (AIME 90.8%، GPQA 74.4%، MMLU-Pro 81.9%)، ويتجاوز نماذج مركزية مغلقة أكبر حجمًا.
بالإضافة إلى ذلك، أنشأ Prime Intellect عدة بنى تحتية داعمة، مثل OpenDiLoCo الذي يقلل من استهلاك النطاق الترددي بشكل كبير، وTopLoc و Verifiers لإنشاء طبقة تنفيذ موثوقة، وSYNTHETIC لتوليد مسارات استنتاج عالية الجودة، مما يُوفر أساسًا هندسيًا لإنتاج نماذج عالمية متقدمة، ويدخل النظام في مرحلة التطبيق العملي.
Gensyn: النواة الأساسية للتعلم المعزز RL Swarm و SAPO
هدف Gensyn هو تجميع الحوسبة الخاملة في عالم مفتوح وموثوق وغير مركزي، لبناء بنية تدريب AI قابلة للتوسع بشكل غير محدود. يتضمن ذلك طبقة تنفيذ موحدة عبر الأجهزة، وشبكة تنسيق نظير إلى نظير، ونظام تحقق غير موثوق يُعتمد على العقود الذكية مع توزيع المهام والمكافآت تلقائيًا. مع التركيز على خصائص التعلم المعزز، أدخلت Gensyn آليات مثل RL Swarm، وSAPO، وSkipPipe، التي تفصل بين التوليد، التقييم، والتحديث، وتستخدم شبكة من وحدات GPU غير متجانسة لتحقيق التطور الجماعي. النتيجة النهائية ليست مجرد حوسبة، بل ذكاء يمكن التحقق منه (Verifiable Intelligence).
تطبيقات التعلم المعزز في بنية Gensyn
RL Swarm: محرك التعلم المعزز التعاوني غير المركزي
يُظهر RL Swarm نمطًا تعاونيًا جديدًا. فهو لا يقتصر على توزيع المهام، بل يدور حول حلقة «توليد — تقييم — تحديث» لامركزية، تحاكي التعلم الاجتماعي، وتتكرر باستمرار:
· Solvers (المنفذون): مسؤولون عن استنتاج النموذج المحلي وتوليد مسارات Rollout، مع دعم التفاعل غير المتجانس. يدمج Gensyn محرك استنتاج عالي السعة مثل CodeZero على الطرف، ويُنتج مسارات كاملة بدلاً من إجابات فقط.
· Proposers (المقترحون): ينشئون مهامًا ديناميكية (مثل مسائل رياضية، أسئلة برمجية)، مع دعم تنوع المهام وتحديات تتكيف تلقائيًا مع مستوى الصعوبة (Curriculum Learning).
· Evaluators (المقيمون): يستخدمون نموذج حكم ثابت أو قواعد لتقييم المسارات المحلية، وتوليد إشارات مكافأة، ويمكن تدقيقها، مما يقلل من الاحتيال.
هذه العناصر الثلاثة تشكل شبكة P2P لتنظيم التعلم المعزز، دون حاجة إلى إدارة مركزية.
SAPO: خوارزمية تحسين السياسات المعاد تصميمها لبيئة لامركزية
SAPO (Swarm Sampling Policy Optimization) تعتمد على «تشارك عينات Rollout وتصفية العينات بدون تدرجات»، من خلال استخراج عينات Rollout بشكل لامركزي واسع النطاق، واعتبارها إنتاجًا محليًا، مع الحفاظ على استقرار التوافق في بيئة غير متزامنة مع اختلافات زمن استجابة العقد، بعكس PPO وGRPO، يُمكن لـ SAPO العمل بكفاءة على وحدات GPU المستهلكة، ويُقلل من استهلاك النطاق الترددي بشكل كبير.
من خلال RL Swarm وSAPO، أثبت Gensyn أن التعلم المعزز، خاصة في مرحلة ما بعد التدريب (RLVR)، يتوافق تلقائيًا مع البنى اللامركزية — لأنه يعتمد بشكل أكبر على استكشاف واسع النطاق وتنوع أكبر في العينات، بدلاً من التزامن عالي التردد للمعلمات. مع أنظمة التحقق PoL وVerde، يوفر Gensyn مسارًا بديلًا لتدريب نماذج بمليارات التريليونات من المعلمات بدون الاعتماد على عمالقة التكنولوجيا، عبر شبكة من مئات الآلاف من وحدات GPU غير المتجانسة تتطور ذاتيًا.
Nous Research: بيئة التعلم المعزز القابلة للتحقق Atropos
تعمل Nous Research على بناء بنية تحتية معرفية لامركزية ومتطورة ذاتيًا. مكوناتها الأساسية — Hermes، Atropos، DisTrO، Psyche، وWorld Sim — تُنظم في دورة مستمرة من التطور الذكي. بخلاف النموذج التقليدي «تدريب مسبق — تدريب لاحق — استنتاج»، تعتمد Nous على تقنيات RL مثل DPO، GRPO، والرفض الانتقائي، لدمج توليد البيانات، التحقق، التعلم، والاستنتاج في حلقة ردود فعل مستمرة، مما يُنشيء نظامًا بيئيًا AI يتطور ذاتيًا باستمرار.
ملخص مكونات Nous Research
طبقة النموذج: Hermes وتطور قدرات الاستنتاج
سلسلة Hermes تمثل الواجهة الأساسية لنماذج Nous، وتوضح كيف يتغير الاتجاه من التوافق عبر DPO وSFT إلى استراتيجيات RL في الاستنتاج:
· Hermes 1–3: تركز على التوافق عبر أوامر وميزات أولية، وتستخدم DPO بشكل فعال، مع إدخال Atropos للتحقق في Hermes 3.
· Hermes 4 / DeepHermes: تدمج تفكيرًا منطقياً من نوع System-2 عبر وزن النموذج، وتستخدم Test-Time Scaling لتحسين الأداء الرياضي والبرمجي، مع بناء بيانات استنتاج عالية النقاء عبر رفض الانتقاء والتحقق بـ Atropos.
· DeepHermes يستخدم تقنية GRPO بدلاً من PPO، ليتمكن من العمل في بيئة استنتاج RL غير الموزعة، مع دعم شبكة Psyche لبيانات الاستنتاج اللامركزية، مما يُمهد الطريق لانتشار استراتيجيات RL المفتوحة المصدر.
Atropos: بيئة التعلم المعزز القابلة للتحقق
Atropos هو قلب نظام RL في Nous. يُغلف الإدخالات، استدعاء الأدوات، تنفيذ الأكواد، والتفاعل متعدد الجولات في بيئة RL موحدة، ويمكن التحقق مباشرة من صحة المخرجات، وتقديم إشارات مكافأة ثابتة، بدلاً من تصنيف بشري مكلف غير قابل للتوسع. والأهم، أنه يُمثل الحكم في شبكة Psyche، ويُستخدم للتحقق من أن العقد قد حسنت استراتيجيتها، ويدعم إثبات التعلم القابل للمراجعة، ويحل مشكلة موثوقية المكافآت في RL الموزع.
DisTrO وPsyche: طبقة التحسين في التعلم المعزز اللامركزي
التدريب التقليدي لـ RL (مثل RLHF و RLAIF) يعتمد على مراكز عالية النطاق الترددي، وهو عائق رئيسي مفتوح المصدر. يُقلل DisTrO عبر حلول مثل فصل الزخم وضغط التدرجات من تكلفة التواصل، ويُمكن تشغيله عبر الإنترنت، بينما يُنشر Psyche على شبكة blockchain، بحيث يمكن للعقد أداء الاستنتاج والتحقق وتقييم المكافآت وتحديث الأوزان محليًا، مكونًا حلقة RL كاملة.
داخل نظام Nous، يتحقق Atropos من سلاسل التفكير، ويضغط DisTrO على اتصال التدريب، ويُشغل Psyche دورة RL، ويُوفر World Sim بيئة معقدة، وForge يجمع استنتاجات حقيقية، وHermes يُكتب جميع التعلمات في الأوزان. التعلم المعزز هنا ليس مجرد مرحلة تدريب، بل هو بروتوكول رئيسي يربط البيانات، البيئة، النموذج، والبنية التحتية، لكي يُصبح Hermes نظامًا حيًا يُحسن ذاته باستمرار على شبكة الحوسبة المفتوحة.
Gradient Network: هندسة التعلم المعزز عبر Echo
رؤية Gradient الأساسية هي إعادة تشكيل نموذج الحوسبة للذكاء الاصطناعي عبر «طبقة بروتوكولات الذكاء المفتوحة» (Open Intelligence Stack). تتكون تقنية Gradient من بروتوكولات مستقلة ومتعاونة، بدءًا من الاتصال (Parallax، استنتاج موزع)، والتعلم المعزز (Echo)، وشبكة P2P (Lattica)، والأمان والتعاون (SEDM، Massgen، Symphony، CUAHarm)، والتحقق الموثوق (VeriLLM)، والمحاكاة عالية الدقة (Mirage). معًا، تُبني بنية تحتية ذكية لامركزية ومتطورة بشكل مستمر.
Echo — هندسة التدريب المعزز
هو إطار تعلم معزز من Gradient، يهدف إلى فصل عمليات التدريب، الاستنتاج، والبيانات (المكافآت)، بحيث يمكن توليد العينات، وتحديث السياسات، وتقييم المكافآت بشكل مستقل على بيئات متنوعة. يعمل مع عقد استنتاج وتدريب غير متجانسة، ويُحافظ على استقرار التدريب عبر آلية تزامن خفيفة، مما يُخفف من مشاكل استخدام GPU في بيئات DeepSpeed RLHF / VERL، مثل ضعف الاستفادة أو تعطل SPMD.
يعتمد Echo على «الاستنتاج — التدريب بنظام المجموعتين» لتحقيق أقصى استفادة من الحوسبة، حيث تُشغل كل مجموعة بشكل مستقل، ولا تتداخل:
· تعظيم معدل العينات: مجموعة الاستنتاج (Inference Swarm) تتكون من وحدات GPU المستهلكة والأجهزة الطرفية، وتُبنى عبر Parallax باستخدام خط أنابيب (pipeline-parallel) لزيادة السعة، مع التركيز على توليد المسارات.
· تعظيم قوة التدرجات: مجموعة التدريب (Training Swarm) تتكون من وحدات GPU المركزية والعالمية، وتُعنى بتحديث التدرجات، وتزامن المعلمات، وتخصيص LoRA، مع التركيز على عملية التعلم.
لضمان التوافق بين السياسات والبيانات، يُوفر Echo بروتوكولين خفيفي الوزن:
· استرجاع متسلسل (Pull): يفضل الدقة، حيث يُجبر التدريب عقد الاستنتاج على تحديث النموذج قبل استرجاع مسارات جديدة، لضمان حداثة البيانات، ومناسب جدًا للمهام التي تتطلب سياسات حديثة.
· دفع وسحب غير متزامن (Push–Pull): يُشجع على الاستمرار في توليد المسارات مع علامات إصدار، ويُستهلك عن طريق التدريب وفقًا لوتيرته، مع مراقبة المنسق للفروقات في الإصدارات وتحفيز تحديث الأوزان، لتعظيم استغلال الأجهزة.
في الأساس، يُبنى Echo على Parallax، ويستخدم مكونات تدريب موزعة خفيفة مثل VERL(، ويعتمد على LoRA لتقليل تكلفة التزامن بين العقد، مما يُمكن من تشغيل التعلم المعزز بشكل ثابت عبر شبكات غير متجانسة على مستوى العالم.
Grail: نظام Bittensor للتعلم المعزز
يُبنى Grail على آلية إجماع Yuma الفريدة، لإنشاء شبكة ضخمة، متفرقة، غير مستقرة من دوال المكافأة.
يتضمن نظام Covenant AI في بيئة Bittensor خطوط إنتاج متكاملة من التدريب المسبق إلى التدريب اللاحق، منها SN3 Templar للموديلات الأساسية، وSN39 Basilica لسوق الحوسبة الموزعة، وSN81 Grail كطبقة استنتاج قابلة للتحقق، التي تتولى عمليات RLHF / RLAIF، وتُكمل دورة تحسين مغلقة من النموذج إلى التوافق.
يهدف Grail إلى إثبات صحة كل مسار استنتاجي عبر تقنيات تشفير، وربط هوية النموذج، والتوقيعات الهيكلية لتوزيع الرموز، لضمان أن يُكشف عن أي استبدال أو إعادة تشغيل. على هذا الأساس، يُمكن لـ Grail تنفيذ عمليات RLVR / RLAIF قابلة للتحقق، بحيث يُنتج المعدنون مسارات استنتاج متعددة، ويقيمها المقيمون وفقًا للجودة، ويكتبون النتائج على السلسلة، مما يعزز الثقة. تُظهر التجارب أن إطار Grail يُحسن دقة نماذج مثل Qwen2.5-1.5B من 12.7% إلى 47.6%، مؤكداً قدرته على مقاومة الاحتيال وتعزيز القدرات بشكل ملحوظ. يُعد Grail في منظومة Covenant AI حجر أساس الثقة والتنفيذ في RLVR / RLAIF، وهو في مرحلة ما قبل الإطلاق الرسمي.
Fraction AI: التعلم المعزز التنافسي RLFC
يُبنى إطار Fraction AI حول مفهوم التعلم المعزز التنافسي (Reinforcement Learning from Competition)، ويستخدم بيئة لعب ديناميكية مفتوحة، حيث يُبدل نظام المكافآت الثابت والتصنيف اليدوي ببيئة تنافسية وتقييم فوري من قِبل الحكام AI، ويُحسن التوافق عبر ترتيب المنافسين وتقييماتهم، مما يُحوّل عملية التوافق إلى نظام تفاعل متعدد الوكلاء حي.
الفروق الأساسية بين RLHF وRLFC في Fraction AI:
القيمة الأساسية لـ RLFC هي أن المكافآت تأتي من خصوم ومقيمين متغيرين، بدلاً من نموذج واحد ثابت، مما يُحبط استغلال نظام المكافآت، ويُعزز تنوع السياسات ويمنع الوقوع في الأوكار المحلية. يُحدد هيكل Spaces طبيعة اللعبة (صفرية أو غير صفرية)، مما يخلق سلوكًا معقدًا في التفاعل والتعاون.
على مستوى النظام، يُقسّم Fraction AI عملية التدريب إلى أربعة مكونات رئيسية:
· Agents (الوكيل): وحدات سياسة خفيفة تعتمد على LLM مفتوحة المصدر، وتستخدم QLoRA لتوسيع التغييرات، وتُحدث بكلفة منخفضة.
· Spaces (المساحات): بيئات مهمة معزولة، حيث يدفع الوكيل للدخول ويكافأ على الفوز والخسارة.
· AI Judges (الحكام AI): تُبنى عبر RLAIF، وتوفر تقييمات فورية وقابلة للتوسع دون مركزية.
· Proof-of-Learning (إثبات التعلم): يُربط تحديث السياسات بنتائج التنافس، لضمان أن يكون التدريب قابلًا للتحقق، ويمنع الاحتيال.
الهدف من Fraction AI هو إنشاء محرك تطور تفاعلي بين الإنسان والآلة. يُعد المستخدم «المُحسن الأعلى» )Meta-optimizer(، ويقود عمليات الاستكشاف عبر هندسة التعليمات (Prompt Engineering) وضبط المعلمات؛ بينما يُنتج الوكيل بيانات تفضيل عالية الجودة بشكل تلقائي في التنافس الدقيق، وتُحسن عملية التخصيص والتطوير بشكل مستمر.
مقارنة بين بنية مشاريع التعلم المعزز وWeb3
الخلاصة والتطلعات: مسارات وفرص التداخل بين التعلم المعزز وWeb3
بناءً على تحليل المشاريع الرائدَة، يتضح أن رغم تنوع نقاط الدخول (الخوارزميات، والهندسة، والسوق)، فإن البنية الأساسية التي تربط RL وWeb3 تت converg إلى نمط «فصل–تحقق–حوافز» عالي التوافق. وهو ليس مجرد صدفة تقنية، بل نتيجة حتمية لتكييف الشبكات اللامركزية مع خصائص التعلم المعزز الفريدة.
الخصائص العامة للهيكلية المعمارية لـ RL: حل القيود المادية والثقة الأساسية
تُفوض عينات Rollout، عبر شبكات GPU المستهلكة عالميًا، بشكل متزامن ومتوازي، مع تقليل الاتصال بين العقد، وتُركز تحديثات المعلمات على عدد محدود من عقد التدريب، كما في نماذج Prime Intellect وGradient.
في شبكات بدون إذن، يجب فرض صحة الحساب عبر تصميمات رياضية وآليات، مثل PoL في Gensyn، وTOPLOC في Prime Intellect، والتوثيق cryptographic في Grail.
تُكوّن موارد الحوسبة، وتوليد البيانات، وترتيب التقييم والمكافآت دائرة مغلقة، مع تحفيز المشاركة، وخصم المخالفين، مما يحافظ على استقرار واستدامة الشبكة في بيئة مفتوحة.
طرق تقنية متميزة: «ثغرات» الاختراق في إطار موحد
رغم التوافق، اختارت المشاريع مسارات تقنية مختلفة:
· رواد الخوارزميات )Nous Research(: يحاولون حل التناقضات الأساسية في التدريب الموزع (مثل محدودية النطاق الترددي) عبر خوارزميات مثل DisTrO، التي تُقلل من استهلاك التواصل آلاف المرات، بهدف تمكين تدريب نماذج ضخمة عبر شبكات منزلية، وهو «تخفيف» محدودية الفيزياء.
· مهندسو الأنظمة )Prime Intellect, Gensyn, Gradient): يركزون على بناء «نظام تشغيل» للذكاء الاصطناعي. مثل ShardCast في Prime Intellect وParallax في Gradient، تُبنى على هندسة عالية لتحقيق أعلى كفاءة في استغلال الشبكات غير المتجانسة.
· خبراء السوق (Bittensor, Fraction AI): يركزون على تصميم دوال المكافأة (Reward Function). من خلال أنظمة تقييم مبتكرة، يُحفزون المعدنين للبحث تلقائيًا عن السياسات المثلى، لتسريع ظهور الذكاء.
المزايا، التحديات، والتوقعات النهائية
في إطار تداخل RL وWeb3، تتضح المزايا على مستوى النظام بشكل رئيسي في إعادة تشكيل التكاليف والهياكل الحاكمة:
· إعادة صياغة التكاليف: الطلب على التكرار بعد التدريب (Post-training) لا نهائي، وWeb3 يمكنه تحفيز حوسبة العالم الخامل بكلفة منخفضة جدًا، وهو ما يصعب على السحابة المركزية منافسته.
· التوافق السيادي (Sovereign Alignment): كسر احتكار الشركات الكبرى لقيم الذكاء الاصطناعي، حيث يمكن للمجتمع التصويت عبر الرموز على «ما هو الجواب الجيد»، وتحقيق حوكمة ديمقراطية.
وفي الوقت نفسه، يواجه النظام قيودًا هيكلية رئيسية:
· جدار النطاق الترددي (Bandwidth Wall): رغم ابتكارات DisTrO، إلا أن التأخير الفيزيائي يحد من تدريب نماذج ضخمة (>70B)، ويقتصر Web3 حاليًا على التخصيص والتش