Sistem memori AI MemPalace yang dikembangkan dengan keterlibatan Milla Jovovich diklaim berhasil meraih nilai sempurna saat pengujian hingga viral, namun kemudian ditendang oleh komunitas karena dugaan kecurangan dalam pengujian dan informasi data yang menyesatkan. Pengujian sebenarnya menemukan bahwa efektivitasnya dibesar-besarkan dan terdapat banyak kesalahan; tim telah mengakui kekurangan dan sedang memperbaikinya.
Kemarin (4/7), ada kabar besar di kalangan AI: aktris Hollywood terkenal yang dikenal lewat Resident Evil dan The Fifth Element, Milla Jovovich, bersama developer Ben Sigman menggunakan bantuan Claude Code untuk mengembangkan sistem memori AI open source “MemPalace”.
Sekejap, beredar luas anggapan “bintang Hollywood lintas bidang membuat proyek nilai sempurna”, dan MemPalace hingga saat ini di GitHub juga telah memperoleh lebih dari 20k bintang, tetapi segera memicu keraguan dari komunitas developer: apakah benar-benar berisi kemampuan atau sekadar promosi/tebaran?
Pertama-tama, mari bahas motivasi di balik lahirnya MemPalace. Dokumen resmi menyebut tujuannya adalah menyelesaikan keterbatasan bahwa konten percakapan pengguna sistem AI dengan AI, proses pengambilan keputusan, serta pembahasan arsitektur biasanya menghilang setelah sesi kerja berakhir, sehingga kerja keras selama berbulan-bulan menjadi turun ke nol.
Untuk mengatasi masalah ini, MemPalace memakai arsitektur ruang untuk menyimpan memori, mengelompokkan informasi secara jelas ke dalam wilayah sayap yang mewakili personel atau proyek, serta struktur bertingkat seperti lorong, kamar, dan laci, sehingga menyimpan teks percakapan asli untuk penelusuran semantik di kemudian hari.
Tim pengembang mengklaim, MemPalace meraih 100% nilai sempurna dalam tolok ukur memori jangka panjang LongMemEval, dan mencapai tingkat akurasi 96,6% tanpa memanggil API eksternal apa pun, serta bisa berjalan sepenuhnya di sisi lokal, tidak perlu berlangganan layanan cloud, dan dilengkapi sistem dialek AAAK yang diklaim mampu menghasilkan kompresi tanpa rugi hingga 30 kali.
Sumber gambar: GitHub bintang film Hollywood Milla Jovovich membangun istana memori AI, menarik perhatian publik
Namun, pencapaian 100% dalam LongMemEval yang diklaim MemPalace segera memunculkan keraguan dari rekan satu bidang.
PenfieldLabs, yang juga membuat sistem memori AI, menunjuk bahwa MemPalace mengklaim meraih nilai sempurna pada dataset LoCoMo—yang secara matematis tidak mungkin—karena jawaban standar dalam dataset tersebut sendiri mengandung 99 kesalahan.
Hasil analisis PenfieldLabs menemukan bahwa skor 100% MemPalace berasal dari menetapkan jumlah pencarian sebanyak 50 kali, tetapi tahap tertinggi dialog pada data pengujian hanya ada 32 kali, yang berarti sistem langsung melewati tahap pencarian dan menyerahkan semua data kepada model AI untuk dibaca.
Terkait skor 100% LongMemEval, tim pengembang ditemukan menargetkan 3 masalah spesifik yang keliru dalam pengembangan terpusat, menulis kode perbaikan khusus, sehingga ada dugaan kecurangan terhadap data uji.
Sumber gambar: Reddit PenfieldLabs dari rekan satu bidang menunjukkan bahwa MemPalace mengklaim meraih nilai sempurna pada dataset LoCoMo, yang secara matematis tidak mungkin
Pengguna GitHub hugooconnor, setelah menguji sendiri, berkomentar bahwa MemPalace mengklaim akurasi pencarian hingga 96,6%, tetapi kenyataannya sama sekali tidak menggunakan arsitektur istana memori yang dipromosikan oleh MemPalace. hugooconnor mengatakan bahwa pengujian mereka hanya memanggil fitur bawaan dari basis data tingkat bawah ChromaDB, sepenuhnya tanpa melibatkan logika klasifikasi yang ditekankan proyek seperti area sayap, kamar, atau laci.
Setelah menguji, hugooconnor menemukan bahwa ketika logika klasifikasi khusus istana memori tersebut benar-benar diaktifkan, performa pencarian justru menurun. Sebagai contoh mode kamar, akurasi turun menjadi 89,4%, dan setelah mengaktifkan teknologi kompresi AAAK, akurasi turun lagi menjadi 84,2%; keduanya lebih rendah daripada performa basis data default.
hugooconnor juga mengkritik metode pengujian: lingkungan pengujian MemPalace sengaja mempersempit ruang lingkup pencarian untuk setiap masalah, hanya sekitar 50 tahap dialog, sehingga mencari jawaban di dalam basis data sampel yang sangat kecil menjadi terlalu mudah.
Jika ruang diperluas menjadi lebih dari 19.000 tahap dialog dalam skenario nyata, akurasi pencarian kata kunci tradisional akan jatuh ke 30%, menunjukkan bahwa metode pengujian MemPalace saat ini menutupi problem pencarian yang sebenarnya sulit.
Sumber gambar: GitHub Pengujian pengguna GitHub menunjukkan bahwa ada komponen yang menyesatkan pada tolok ukur MemPalace
Sementara itu, meskipun tim pengembang sudah merilis pernyataan koreksi dan mengakui bahwa teknologi AAAK memang telah diverifikasi sebagai kompresi dengan rugi, serta berjanji akan menyesuaikan dokumentasi dan desain sistem berdasarkan kritik ketat dari komunitas, dokumen penjelasan utama proyek tetap mempertahankan banyak klaim yang belum dikoreksi, termasuk klaim “kompresi tanpa rugi 30 kali” dan “peningkatan pencarian 34%”, serta grafik perbandingan dengan pesaing lain yang juga sama sekali tidak mencantumkan sumber asal.
Seiring semakin banyak pengembang yang mengunduh pengujian, muncul banyak laporan bug terkait kode sumber MemPalace di platform GitHub.
Pengguna cktang88 mencantumkan berbagai kekurangan serius, termasuk perintah kompresi yang tidak dapat berjalan dan menyebabkan sistem crash, kesalahan logika perhitungan jumlah kata untuk ringkasan, serta data statistik penggalian kamar yang tidak akurat, dan saat server dipanggil setiap kali, semua data interpretasi dimuat ke dalam memori, sehingga menimbulkan masalah konsumsi sumber daya yang berat.
Masalah lain yang juga ditunjukkan termasuk sistem yang memaksa menuliskan nama anggota keluarga pengembang ke dalam berkas pengaturan default, serta adanya batas tampilan paksa maksimum saat melakukan pengecekan status, yaitu 10k baris data.
Untuk masalah-masalah ini, komunitas open source telah mulai aktif memperbaiki. Pengguna adv3nt3 mengajukan berbagaipermintaan perbaikan, termasuk memperbaiki data statistik penggalian, menghapus nama anggota keluarga default, dan menunda waktu inisialisasi pengetahuan pada knowledge graph. Tim pengembang selanjutnya juga mengakui kesalahan-kesalahan tersebut dan sedang menyelesaikan masalah kode secara bertahap melalui kolaborasi komunitas.
Untuk proyek MemPalace ini, pengguna Hacker News darkhanakh menarik sebuah kesimpulan: MemPalace memberi kesan seperti OpenClaw, yaitu memanipulasi hasil tolok ukur (benchmark) secara artifisial agar terlihat sempurna, lalu membungkusnya sebagai semacam terobosan besar untuk dipasarkan.
Ia berpendapat bahwa teknologi dasar MemPalace mungkin memang menarik, tetapi dalam kondisi metode pengujian memiliki cacat seperti itu, lalu tetap mengusung promosi “skor tertinggi yang pernah dibuka untuk publik” sebagai ajang pemasaran, itu memang kurang tepat, “Namun, soal Milla Jovovich bermain Vibe Coding, menurutku tetap cukup keren.”
Bacaan lanjutan:
AI menulis program dan bermasalah! Aplikasi “pemburu penghemat” produk kedaluwarsa di minimarket meledak masalah keamanan siber, GPS di rumah telanjang terbuka