أخيرًا مقياس أداء فعلي يهم حقًا.


انسَ MMLU ودرجات الرياضيات.. يختبر PinchBench أي نموذج ذكاء اصطناعي هو الأفضل في أداء الأعمال الحقيقية.
ليس للإجابة على الأسئلة العامة. بل للقيام بالأشياء فعليًا:
→ البحث عن معلومات من مصادر ويب متعددة
→ إنشاء وجدولة الاجتماعات
→ تنظيم الملفات على جهاز الكمبيوتر الخاص بك
→ كتابة وإدارة الرسائل الإلكترونية
يختبر النماذج التي تعمل كوكلاء من خلال OpenClaw.. مما يعني أن الذكاء الاصطناعي يجب أن يستخدم الأدوات، يربط الإجراءات، ويكمل المهام من البداية إلى النهاية.
النتائج مثيرة للاهتمام:
> Gemini 3 Flash يتصدر بنسبة 95.1%
> MiniMax M2.1 يليه بقربه بنسبة 93.6%
> Kimi K2.5 بنسبة 93.4%
> Claude Sonnet بنسبة 92.7%
> Gemini 3 Pro بنسبة 91.7%
> Claude Haiku بنسبة 90.8%
> Claude Opus 4.6 بنسبة 90.6%
> GPT-5 Nano بنسبة 85.8%
الفارق بين الأعلى والأدنى هو فقط ~10%.. مما يعني أن معظم النماذج الرائدة أصبحت جيدة جدًا في مهام الوكيل.
لكن الدرس الحقيقي؟ Gemini Flash.. نموذج خفيف الوزن.. يتفوق على جميع النماذج الثقيلة في العمل الوكالي العملي. السرعة + استخدام الأدوات > الذكاء الخام.
هذا هو النوع من المقاييس الذي يجب أن يحدد أي نموذج تستخدمه يوميًا.. وليس اختبارًا أكاديميًا لا يهم أحد.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت