2026-04-10 01:21:31

🔥باحث: وجود ثغرات منهجية في اختبارات الذكاء الاصطناعي الرئيسية، مما قد يؤدي إلى تشويه خطير لبيانات التصنيف

في 10 أبريل، نشر الباحث في الذكاء الاصطناعي هاو وانغ تقريرًا يكشف فيه أن العديد من اختبارات الذكاء الاصطناعي المعتمدة من الصناعة، بما في ذلك SWE-bench Verified و Terminal-Bench، تحتوي على ثغرات يمكن استغلالها بشكل منهجي — حيث حقق الوكيل الذي أنشأه فريقه درجات كاملة بنسبة 100% على اثنين من الاختبارات دون حل أي مهمة فعلية.
وفيما يلي أمثلة نموذجية: في SWE-bench Verified، تم زرع عشرة أسطر من خطاف pytest في مستودع الكود، حيث يتم تعديل جميع النتائج تلقائيًا إلى "نجح" قبل تشغيل الاختبار، دون أن يلاحظ نظام التقييم ذلك، مما أدى إلى الحصول على الدرجة الكاملة في 500 سؤال؛ على الرغم من أن Terminal-Bench…

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 1