تدّعي المُمِلة جوجوفـيتشي فيكي أنها شاركت في تطوير نظام ذكاء اصطناعي للذاكرة باسم MemPalace، وتم الإعلان عن حصوله على اختبار كامل الدرجة وانتشر بسرعة، لكن تم طردُه من المجتمع بعدما اتُّهمت الاختبارات بالغش والتضليل في البيانات. وُجدت عمليًا أن النتائج مُبالغ فيها وأن هناك عددًا كبيرًا من الأخطاء؛ وقد اعترف الفريق بالعيوب وبدأ العمل على إصلاحها.
أمس (4/7)، كان هناك خبر كبير في مجتمع الذكاء الاصطناعي: الممثلة الهوليوودية مِلا جوجوفـيتشي (Milla Jovovich)، المعروفة بأفلام مثل 《Resident Evil》 و《The Fifth Element》، إلى جانب المطور Ben Sigman، استخدما Claude Code للمساعدة في تطوير «MemPalace»، وهو نظام ذكاء اصطناعي مفتوح المصدر للذاكرة.
في غضون وقت قصير، انتشرت على نطاق واسع مقولة «نجمة هوليوودية ضخمة تتقاطع وتُنجز مشروعًا بدرجة كاملة»، وقد حصل MemPalace حتى الآن على أكثر من 20 ألف نجمة على GitHub، لكن سرعان ما أثار ذلك شكوكًا لدى مجتمع المطورين: هل لديه فعلاً ما يقدمه أم مجرد تسويق؟
لنبدأ بالدافع وراء ظهور MemPalace. تشير الوثائق الرسمية إلى أنه بهدف حل القيود الحالية في أن محتوى الحوار مع نظام الذكاء الاصطناعي، وعمليات اتخاذ القرار، ونقاشات البنية غالبًا ما تختفي بعد انتهاء جلسات العمل، ما يؤدي إلى فقدان أشهر من الجهد «归零» (الانخفاض إلى الصفر).
ولحل هذه المشكلة، يستخدم MemPalace بنية مكانية لتخزين الذاكرة، بحيث يتم تصنيف المعلومات بوضوح إلى أجنحة تمثل الأفراد أو المشاريع، ضمن هياكل مختلفة مثل الممرات والغرف والأدراج، مع الاحتفاظ بالنص الأصلي للحوار من أجل الاسترجاع الدلالي لاحقًا.
يزعم فريق التطوير أن MemPalace حقق 100% في معيار تقييم الذاكرة طويلة الأمد LongMemEval، وأنه وصل إلى دقة 96.6% دون استدعاء أي واجهات برمجة تطبيقات خارجية، كما يمكن تشغيله بالكامل محليًا دون الحاجة إلى الاشتراك في خدمات سحابية، ويأتي مع نظام لهجة AAAK مزعوم يمكن أن يحقق ضغطًا بلا فقدان بمعدل 30 ضعفًا.
مصدر الصورة: GitHub الممثلة الهوليوودية مِلا جوجوفـيتشي تبني «قصر ذاكرة» للذكاء الاصطناعي وتثير اهتمامًا خارجيًا
لكن نتيجة حصول MemPalace على علامة كاملة في LongMemEval سرعان ما أثارت شكوكًا لدى المنافسين.
وأشار PenfieldLabs، وهو أيضًا شركة تُطوّر أنظمة ذكاء اصطناعي للذاكرة، إلى أن ادعاء MemPalace بالحصول على الدرجة الكاملة في مجموعة بيانات LoCoMo أمر غير ممكن رياضيًا، لأن الإجابات القياسية في مجموعة البيانات نفسها تتضمن 99 خطأ.
حلّل PenfieldLabs ووجد أن نسبة 100% لدى MemPalace جاءت من ضبط عدد عمليات الاسترجاع على 50 مرة، لكن أعلى عدد من مراحل الحوار في بيانات الاختبار لا يتجاوز 32 مرة، ما يعني أن النظام يتجاوز مرحلة الاسترجاع مباشرة، ويُسلّم كل البيانات إلى نموذج الذكاء الاصطناعي لقراءتها.
وبالنسبة لنتيجة 100% في LongMemEval، تبيّن أن فريق التطوير كان يعالج 3 مشكلات محددة للخطأ يتجمع حولها أثناء التطوير، وكتب شيفرة إصلاح مخصصة، وهو ما يثير شبهة وجود غش موجه نحو مجموعة الاختبار.
مصدر الصورة: Reddit أشار PenfieldLabs من المنافسين إلى أن MemPalace يُدّعي حصوله على درجة كاملة في مجموعة بيانات LoCoMo، وهو أمر غير ممكن رياضيًا
علق مستخدم GitHub hugooconnor بعد إجراء اختبار عملي بأن MemPalace تدّعي دقة استرجاع تصل إلى 96.6%، لكن فعليًا لم يتم استخدام بنية «قصر الذاكرة» المزعومة على الإطلاق. ويقول hugooconnor إن اختباراتهم ببساطة تستدعي الوظيفة الافتراضية للقاعدة البيانية الأساسية ChromaDB، دون أي اشتراك في منطق التصنيف المميز بالمشروع مثل الأجنحة أو الغرف أو الأدراج.
بعد اختبار hugooconnor، وجد أنه عندما يتم تفعيل منطق التصنيف الخاص بهذه «الأقواس/الأجنحة» الخاصة بالذاكرة فعلًا، فإن نتيجة الاسترجاع تنخفض بدلًا من ذلك. وبمثال وضع الغرفة، تنخفض الدقة إلى 89.4%، وبعد تفعيل تقنية ضغط AAAK تنخفض الدقة أكثر إلى 84.2%، وكلاهما أقل من أداء القاعدة البيانية الافتراضية.
كما انتقد hugooconnor طريقة الاختبار؛ إذ قامت بيئة اختبار MemPalace عمدًا بتضييق نطاق الاسترجاع لكل سؤال إلى حوالي 50 مرحلة من مراحل الحوار، ما يجعل إيجاد الإجابة في مكتبة عينات صغيرة للغاية أمرًا سهلًا.
وعند توسيع النطاق إلى أكثر من 19,000 مرحلة حوار في سيناريوهات واقعية، تنخفض دقة البحث التقليدي بالكلمات المفتاحية إلى 30% فقط، ما يوضح أن أسلوب اختبار MemPalace الحالي يُخفي مشكلة البحث الحقيقية.
مصدر الصورة: GitHub اختبار عملي من مستخدمي GitHub، MemPalace لديه عناصر اختبار معيار تُضلّل
وفي الوقت نفسه، على الرغم من أن فريق التطوير نشر بيانًا بالتصحيح، وأقر بأن تقنية AAAK تم التحقق منها كضغط مع فقدان (lossy)، وتعهد بتعديل وثائق الشرح وتصميم النظام وفقًا للنقد الصارم من المجتمع. لكن تبقى وثيقة الشرح الرئيسية للمشروع محتفظةً بعدة ادعاءات مُبالغ فيها غير مُصححة، بما في ذلك ادعاء ضغط بلا فقدان 30 ضعفًا وتحسين الاسترجاع بنسبة 34%، كما أن مخططات المقارنة مع المنافسين الآخرين تفتقر تمامًا إلى مصادر واضحة.
ومع تنزيل المزيد والمزيد من المطورين للاختبار، ظهرت على منصة GitHub تقارير كثيرة عن أخطاء (Bug) في شفرة MemPalace الأصلية.
قام المستخدم cktang88 بسرد عدة عيوب خطيرة، بما في ذلك أن أوامر الضغط لا تعمل وتتسبب في تعطل النظام، ووجود خطأ في منطق حساب عدد كلمات الملخص، وكون البيانات الإحصائية لاستخراج الغرف غير دقيقة، فضلًا عن أن الخادم يقوم عند كل استدعاء بتحميل جميع بيانات التفسير (interpreter) في الذاكرة، مما يسبب مشكلة استهلاك موارد شديد.
ومن المشكلات الأخرى التي تم الإشارة إليها أيضًا أن النظام يقوم بإدخال أسماء أفراد عائلة المطورين بشكل إجباري في ملف الإعدادات الافتراضي، وأن هناك حدًا أقصى إجباريًا للعرض عند الاستعلام عن الحالة لعدد 10k سجل بيانات.
وبالنسبة لهذه المشكلات، بدأ مجتمع المصدر المفتوح بإصلاحها بنشاط. قدّم المستخدم adv3nt3 عدة** طلبات**** لإصلاح الأخطاء، بما في ذلك تصحيح بيانات الإحصاءات الخاصة بالاستخراج، وإزالة أسماء أفراد العائلة الافتراضية، وتأخير وقت تهيئة (initialization) خريطة المعرفة (knowledge graph)**. كما اعترف فريق التطوير لاحقًا بهذه الأخطاء، وهو يقوم بحل مشكلات الشيفرة تدريجيًا بالتعاون مع المجتمع.
بالنسبة للمشروع MemPalace، توصّل أحد مستخدمي Hacker News باسم darkhanakh إلى نتيجة: يعطي MemPalace إحساسًا يشبه OpenClaw، أي التلاعب عمدًا بنتائج الاختبارات المعيارية (benchmark) ليبدو أنه كامل ولامع، ثم تعبئته وتسويقُه باعتباره نوعًا من الاختراق الكبير.
يعتقد أنه ربما تكون التقنية الأساسية في MemPalace مثيرة للاهتمام فعلًا، لكن في ظل وجود هذه العيوب في طريقة الاختبار، ومع ذلك الترويج لها أيضًا بشعار «أعلى درجة منشورة على الإطلاق» أمر غير مناسب جدًا. «لكن، عندما تكون مِلا جوجوفـيتشي في لعبة Vibe Coding هذه، أعتقد أنني ما زلت أجدها ممتعة جدًا.»
قراءة ممتدة:
AI يخرج من البرنامج! تطبيق «صياد الصالحات» (App) لمنتجات قسائم المتاجر بتاريخ صلاحية قصير يسبب مشاكل أمن معلومات خطيرة، والـGPS في المنزل يعرّي بالكامل