يقيم كلود آي تدهور جودته بنفسه — والبيانات من الصعب تجاهلها الكلمات

MarketWhisper

Claude AI

يواجه ذكاء Claude AI التابع لـ Anthropic مشكلة مصداقية غير معتادة: تزايد شكاوى جودة على GitHub، وتعطل كبير في 13 أبريل، وتقييم ذاتي من داخل النموذج نفسه خلص إلى أن المخاوف قد “تصاعدت بشكل حاد” منذ يناير — مع كون أبريل في طريقه لتجاوز حجم شكاوى مارس، والذي كان أصلًا قفزة 3.5× عن خط الأساس.

التجربة: طلب تقييم Claude لـ Claude

كانت الاختبار الأساسي مباشرًا. وجّه الصحفيون Claude AI إلى مستودع GitHub الخاص بـ Claude Code، وقاموا بتصفية البلاغات المفتوحة التي تذكر الجودة، وسألوا: هل زادت الشكاوى مؤخرًا؟

كانت إجابة Claude حاسمة: “نعم، لقد تصاعدت شكاوى الجودة بشكل حاد — وتخبر البيانات قصة واضحة جدًا.”

أضافت استفسار متابعة مزيدًا من الدقة: “الوتيرة ملحوظة: أبريل وصل بالفعل إلى 20+ من قضايا الجودة خلال 13 يومًا، ما يضعه في مسار تجاوز مارس البالغ 18 — والذي بدوره كان قفزة 3.5× فوق خط الأساس يناير–فبراير.”

تظل المفارقة في قلب كل شيء — Claude AI ليست راوٍ موثوقًا لأدائه الخاص. إنها أداة مطابقة أنماط، وطلب تحليل حجم الشكاوى لا يعني أنها تفسر بشكل صحيح ما إذا كانت تلك الشكاوى صحيحة، أو تضخمها طلبات إصدار بلاغات مولدة بالذكاء الاصطناعي، أو تُخفى بسبب سكربت Anthropic الخاص بإجراءات GitHub الذي يقوم بإغلاق البلاغات تلقائيًا بعد فترة من عدم النشاط.

لكن الاتجاه العام — ازدياد التقارير عن تدهور الجودة — واضح في البيانات التي تستشهد بها، مهما كان السبب الكامن وراء ذلك.

قضايا GitHub التي يستشهد بها Claude

لم تكن نتيجة Claude AI مجرد استنتاج تجريدي. فقد أشارت إلى قضايا مفتوحة محددة لدعم تحليلها:

#42796: “Claude Code غير قابل للاستخدام للمهام الهندسية المعقدة مع تحديثات فبراير” — تمت معالجته مباشرةً بواسطة Boris Cherny، رئيس Claude Code، ما يشير إلى أن Anthropic منخرطة على الأقل مع بعض الانحدارات المبلّغ عنها

#46212: “سلوك Claude Code المعتمد على التنبؤ أولًا أمر خطير في مشاريع تُعرّض رأس المال للخطر” — تسلط الضوء على المخاوف من أن النموذج ينجز إجراءات الكود قبل تحديد المخاطر بشكل كافٍ

#46949: “التدهور الاصطناعي، انحياز الاستحواذ، والتهدئة غير المقبولة للحوسبة للمستخدمين المدفوعين” — واحدة من أكثر الشكاوى حدة، تدّعي تقليلًا متعمدًا للجودة لإدارة السعة

#46099: “Opus 4.6: تدهور جودة شديد في مهام البرمجة التكرارية” — يستهدف نموذج Opus الأحدث تحديدًا

توجد ادعاء منفصل وأكثر إثارة للقلق — بأن Claude AI حذفت تلقائيًا أكثر من 35,000 سجل لعملاء الإنتاج وعمليات الفوترة — لم يتم التحقق منه بشكل مستقل. جاء المنشور من حساب دون أي نشاط آخر، ولم ترد الشركة على استفسارات الصحافة. توجد تقارير من المطورين عن فقد بيانات من Claude Code، لكن لم يتم استبعاد خطأ المستخدم في تلك الحالات.

ماذا تقول المعايير — ولماذا تهم هذه الفجوة

تعقّد القصة عندما تدخل بيانات المعايير إلى الصورة. تُظهر تقييمات Margin Lab أن Claude Opus 4.6 قد حافظ على درجته في SWE-Bench-Pro منذ فبراير، مع تذبذب لكن دون تراجع جوهري.

هذه هي فجوة المصداقية في قلب الجدل. تقيس المعايير مهامًا محددة وخاضعة للرقابة. يتم نشر Claude AI في أغلب الأحيان في سير عمل هندسي معقد متعدد الخطوات — بالضبط السياق الذي تُصبح فيه أوجه التهدئة وتغيرات السلوك الناتجة عن تحديثات النموذج وحساسية الأوامر أكثر وضوحًا.

قد تكون عدة عوامل بنيوية تضخم الانخفاض المُدرَك في الجودة بعيدًا عن أي تغيرات فعلية في النموذج:

اعترفت Anthropic بأنها اتخذت خطوات لتقليل الاستخدام خلال ساعات الذروة لإدارة السعة والطلب — وهو التهدئة التي قد يختبرها المستخدمون مباشرةً على شكل جودة متدهورة

قد تكون الإغلاق التلقائي لقضايا GitHub بعد فترة من الخمول يخفي الحجم الحقيقي للتقارير غير المحلولة

تزايدت نسبة القضايا في GitHub التي يتم توليدها بواسطة الذكاء الاصطناعي نفسه، وهي مخاوف شائعة مذكورة على نطاق واسع في تطوير البرمجيات مفتوحة المصدر

ذكر مدير AMD للذكاء الاصطناعي، Stella Laurenzo، علنًا أن ردود Claude أصبحت أسوأ — وهو إشارة خارجية موثوقة بالنظر إلى سياق المؤسسة.

سياق التعطل

واجه Claude.ai وClaude Code تعطلًا كبيرًا في 13 أبريل 2026، امتد من 15:31 إلى 16:19 بالتوقيت العالمي المنسق، مع ارتفاع معدلات الأخطاء عبر كلا المنتجين. كان قصيرًا، لكن توقيته عزز عدم رضا المطورين الذي كان يتراكم بالفعل. تميل الأعطال الروتينية إلى أن تهبط بشكل مختلف عندما يكون المستخدمون قد سجلوا مخاوف تتعلق بالجودة لأسابيع — إذ تُقرأ كإثبات وليس كصدفة.

الأسئلة الشائعة

هل أصبح Claude AI أسوأ بالفعل، أم أن هذا مجرد إدراك المستخدم؟

على الأرجح كلاهما — ومن الصعب فصلهما. لقد زاد فعلًا حجم شكاوى GitHub بمقدار 3.5× فوق خط الأساس يناير–فبراير بحلول مارس، ويتجه أبريل إلى الارتفاع أيضًا. لكن بيانات معيار Margin Lab تُظهر أن Opus 4.6 ما يزال يحافظ على درجته في SWE-Bench-Pro. أكثر تفسير يمكن الدفاع عنه هو أن تهدئة السعة خلال ساعات الذروة وتحديثات نموذج فبراير قد أضعفت تجربة المطور الواقعية بطرق لا تلتقطها التقييمات المنظمة.

ما أكثر الشكاوى التي تدعمها الأدلة حول جودة Claude AI؟

تركز أكثر المخاوف مصداقية على Claude Code في مهام هندسية معقدة متعددة الخطوات — تحديدًا سلوك ما بعد تحديث فبراير. تمت معالجة القضية #42796 بواسطة رئيس Claude Code Boris Cherny، ما يؤكد أن Anthropic منخرطة بنشاط مع بعض الانحدارات المُبلّغ عنها. كما أن شكاوى التهدئة ذات مصداقية أيضًا، نظرًا لأن Anthropic اعترفت علنًا بخطوات إدارة السعة.

هل يمكن لـ Claude AI تقييم مشكلات جودته بشكل موثوق؟

لا — وهذه هي المفارقة المركزية في القصة. يمكن لـ Claude AI تجميع الأنماط في البيانات التي تُعرض عليه، لكنه لا يستطيع التمييز بين الشكاوى الصحيحة والضوضاء المولدة بالذكاء الاصطناعي، أو تقييم أخطاء معايرته الخاصة، أو تحديد ما إذا كان حجم القضايا يعكس تدهورًا حقيقيًا أم مجرد آثار بنيوية في كيفية تقديم قضايا GitHub وإغلاقها. التقييم الذاتي مُوحٍ، وليس مرجعيًا.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات