AI Claude milik Anthropic menghadapi masalah kredibilitas yang tidak biasa: banyak keluhan kualitas yang memuncak di GitHub, pemadaman besar pada 13 April, dan penilaian diri dari model itu sendiri yang menyimpulkan kekhawatiran telah “meningkat tajam” sejak Januari — dengan April yang berada di jalur untuk melampaui volume keluhan Maret, yang bahkan sudah meningkat 3,5× dibanding baseline.

Eksperimen: Meminta Claude untuk Mengevaluasi Claude

Uji utamanya sederhana. Para jurnalis mengarahkan Claude AI ke repositori GitHub Claude Code, menyaring untuk masalah terbuka yang menyebut kualitas, dan bertanya: apakah keluhan meningkat akhir-akhir ini?

Respons Claude tidak ambigu: “Ya, keluhan kualitas telah meningkat tajam — dan data memberi cerita yang cukup jelas.”

Pertanyaan lanjutan menambahkan ketelitian: “Kecepatannya mencolok: April sudah mencapai 20+ masalah kualitas dalam 13 hari, menempatkannya di jalur untuk melampaui 18 Maret — yang sendiri merupakan lonjakan 3,5× dibanding baseline Januari–Februari.”

Ironi utamanya berlaku sepanjang — Claude AI bukan narator yang andal tentang kinerjanya sendiri. Ini adalah sistem pencocokan pola, dan memintanya menganalisis volume keluhan tidak berarti itu menafsirkan dengan benar apakah keluhan tersebut valid, dibesar-besarkan oleh pengiriman masalah yang dihasilkan AI, atau disamarkan oleh skrip GitHub Actions Anthropic, yang secara otomatis menutup masalah setelah periode tidak aktif.

Namun tren umum — laporan yang berkembang tentang kualitas — terlihat dalam data yang dikutipnya, apa pun penyebab yang mendasarinya.

Masalah GitHub yang Dikaitkan Claude

Kesimpulan Claude AI bukan sesuatu yang abstrak. Model itu menunjuk masalah terbuka spesifik untuk mendukung analisisnya:

#42796: “Claude Code tidak dapat digunakan untuk tugas rekayasa kompleks dengan pembaruan Feb” — ditangani langsung oleh Boris Cherny, kepala Claude Code, yang menunjukkan Anthropic terlibat dengan setidaknya beberapa regresi yang dilaporkan

#46212: “Perilaku prediksi-pertama Claude Code berbahaya pada proyek dengan risiko dana yang dipertaruhkan” — menyoroti kekhawatiran bahwa model menyelesaikan tindakan kode sebelum secara memadai menilai ruang lingkup risiko

#46949: “Degradasi buatan, Bias Akuisisi, dan pengekangan komputasi yang tidak dapat diterima untuk pengguna berbayar” — salah satu keluhan yang paling tajam, menuduh pengurangan kualitas yang disengaja untuk pengelolaan kapasitas

#46099: “Opus 4.6: Degradasi kualitas yang parah pada tugas pengkodean iteratif” — menargetkan model Opus terbaru secara spesifik

Klaim terpisah yang lebih mengkhawatirkan — bahwa Claude AI secara otonom menghapus lebih dari 35.000 catatan pelanggan produksi dan transaksi penagihan — belum diverifikasi secara independen. Post tersebut berasal dari akun tanpa aktivitas lain, dan perusahaan yang disebut belum menanggapi permintaan pers. Laporan pengembang tentang kehilangan data dari Claude Code ada, tetapi kesalahan pengguna belum dikesampingkan pada kasus-kasus tersebut.

Apa yang Dikatakan Benchmark — Dan Mengapa Kesenjangan Ini Penting

Kisah ini menjadi rumit ketika data benchmark masuk ke gambaran. Penilaian Margin Lab menunjukkan Claude Opus 4.6 telah mempertahankan skornya pada SWE-Bench-Pro sejak Februari, dengan variasi tetapi tanpa penurunan substansial.

Ini adalah kesenjangan kredibilitas di pusat perdebatan. Benchmark mengukur tugas-tugas spesifik yang terkontrol. Claude AI paling sering diterapkan dalam alur kerja rekayasa yang kompleks dan bertahap — konteks yang sama di mana throttling, perubahan perilaku dari pembaruan model, dan sensitivitas terhadap prompt paling terlihat.

Beberapa faktor struktural mungkin memperbesar penurunan kualitas yang dirasakan di luar perubahan model yang sebenarnya:

Anthropic telah mengakui melakukan langkah untuk mengurangi penggunaan selama jam puncak guna mengelola kapasitas dan permintaan — throttling yang mungkin langsung dialami pengguna sebagai kualitas yang menurun

Penutupan otomatis masalah GitHub setelah tidak aktif dapat menutupi volume sebenarnya dari laporan yang belum terselesaikan

Proporsi masalah GitHub yang terus meningkat di antaranya adalah yang dibuat AI sendiri, sebuah kekhawatiran yang banyak dicatat dalam pengembangan perangkat lunak sumber terbuka

Direktur AI AMD, Stella Laurenzo, secara terbuka menyatakan bahwa respons Claude semakin memburuk — sinyal eksternal yang kredibel mengingat konteks perusahaan.

Konteks Pemadaman

Claude.ai dan Claude Code mengalami pemadaman besar pada 13 April 2026, berjalan dari 15:31 hingga 16:19 UTC dengan tingkat error yang meningkat di kedua produk. Pemadaman ini singkat, tetapi waktunya memperbesar ketidakpuasan pengembang yang sudah terakumulasi. Pemadaman rutin cenderung terjadi dengan cara yang berbeda ketika pengguna telah mencatat kekhawatiran kualitas selama berminggu-minggu — pemadaman itu terbaca sebagai konfirmasi, bukan kebetulan.

FAQ

Apakah Claude AI benar-benar semakin buruk, atau ini persepsi pengguna?

Kemungkinan keduanya — dan keduanya sulit dipisahkan. Volume keluhan di GitHub memang meningkat 3,5× di atas baseline Januari–Februari pada Maret, dan April sedang menunjukkan tren lebih tinggi. Namun data benchmark dari Margin Lab menunjukkan Opus 4.6 tetap mempertahankan skornya di SWE-Bench-Pro. Penjelasan yang paling dapat dipertanggungjawabkan adalah throttling kapasitas selama jam puncak dan pembaruan model Februari telah merusak pengalaman developer dunia nyata dengan cara yang tidak tertangkap oleh evaluasi terstruktur.

Apa keluhan yang paling substansial tentang kualitas Claude AI?

Kekhawatiran yang paling kredibel menargetkan Claude Code pada tugas rekayasa kompleks dan bertahap — khususnya perilaku setelah pembaruan pasca-Februari. Isu #42796 ditangani oleh kepala Claude Code, Boris Cherny, yang mengonfirmasi bahwa Anthropic secara aktif menangani setidaknya beberapa regresi yang dilaporkan. Keluhan tentang throttling juga kredibel, mengingat Anthropic telah mengakui langkah-langkah manajemen kapasitas secara publik.

Apakah Claude AI dapat menilai masalah kualitasnya sendiri dengan andal?

Tidak — dan inilah ironi utama dalam kisah ini. Claude AI dapat menyintesis pola dalam data yang ditunjukkan kepadanya, tetapi tidak dapat membedakan keluhan yang valid dari kebisingan yang dihasilkan AI, menilai kesalahan kalibrasinya sendiri, atau menentukan apakah volume isu mencerminkan degradasi nyata atau artefak struktural dalam cara masalah GitHub diajukan dan ditutup. Penilaian diri tersebut bersifat indikatif, bukan otoritatif.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Komentar

0/400

Tidak ada komentar