Hệ thống trí nhớ AI MemPalace do Milla Jovovich và Vicky tham gia phát triển tuyên bố đạt điểm tối đa trong bài kiểm tra nên bỗng “bùng nổ” và trở nên nổi tiếng, nhưng cộng đồng nhanh chóng vạch ra rằng việc kiểm tra có dấu hiệu gian lận và gây hiểu sai dữ liệu. Thực nghiệm cho thấy hiệu quả được thổi phồng và có rất nhiều lỗi; nhóm đã thừa nhận các thiếu sót và đang tiến hành sửa chữa.
Hôm qua (4/7), giới AI có một tin nóng: Nữ diễn viên Hollywood nổi tiếng nhờ《Resident Evil》《The Fifth Element》là Milla·Jovovich (Milla Jovovich), cùng với nhà phát triển Ben Sigman sử dụng Claude Code để phát triển hệ thống trí nhớ AI mã nguồn mở “MemPalace”.
Trong lúc đó, câu chuyện “sao hạng A Hollywood làm ra dự án điểm tuyệt đối khi bắt tay sang lĩnh vực mới” được lan truyền rộng rãi; đến nay MemPalace trên GitHub cũng đã có hơn 20k lượt sao, nhưng ngay sau đó đã dấy lên nghi ngờ trong cộng đồng nhà phát triển: rốt cuộc có thật sự “có hàng” hay chỉ là chiêu trò PR?
Trước hết, hãy nói về động cơ ra đời của MemPalace. Tài liệu chính thức cho biết họ muốn giải quyết hạn chế hiện tại: nội dung hội thoại giữa người dùng và AI, quá trình ra quyết định cũng như các thảo luận về kiến trúc thường sẽ biến mất sau khi kết thúc phiên làm việc, khiến nhiều tháng tâm huyết trở thành con số không.
Để giải quyết vấn đề này, MemPalace sử dụng cấu trúc không gian để lưu trí nhớ: phân loại rõ ràng thông tin vào các khu vực cánh đại diện cho nhân sự hoặc dự án, cùng với các cấu trúc ở nhiều cấp độ khác nhau như hành lang, phòng và ngăn kéo, đồng thời lưu nội dung nguyên văn hội thoại để phục vụ truy vấn ngữ nghĩa sau này.
Nhóm phát triển tuyên bố rằng, MemPalace đạt 100% điểm tuyệt đối trong bộ chuẩn đánh giá trí nhớ dài hạn LongMemEval, và đồng thời đạt độ chính xác 96,6% mà không cần gọi bất kỳ API bên ngoài nào. Hơn nữa, hệ thống có thể chạy hoàn toàn tại chỗ, không cần đăng ký dịch vụ điện toán đám mây, và được tích hợp một hệ thống phương ngữ AAAK được cho là có thể đạt nén không tổn hao gấp 30 lần.
Nguồn hình: GitHub Milla Jovovich, ngôi sao phim Mỹ, xây dựng AI cung điện trí nhớ, thu hút sự chú ý từ bên ngoài
Tuy nhiên, thành tích được cho là điểm tối đa ở LongMemEval của MemPalace nhanh chóng khiến các đối thủ đặt nghi vấn.
PenfieldLabs, một bên cũng sản xuất hệ thống trí nhớ AI, cho biết: MemPalace tuyên bố đạt điểm tối đa trong bộ dữ liệu LoCoMo, điều này về mặt toán học là không thể xảy ra, vì đáp án chuẩn của bộ dữ liệu đó bản thân đã chứa 99 lỗi.
PenfieldLabs phân tích và phát hiện rằng thành tích 100% của MemPalace đến từ việc đặt số lần truy xuất (retrieval) là 50 lần, nhưng số lần ở cấp độ cao nhất của đoạn hội thoại trong bộ dữ liệu kiểm tra chỉ có 32 lần; điều này có nghĩa là hệ thống đã bỏ qua trực tiếp giai đoạn truy xuất, đưa toàn bộ dữ liệu cho mô hình AI đọc.
Đối với thành tích 100% trong LongMemEval, nhóm phát triển đã bị phát hiện là nhắm vào 3 vấn đề cụ thể đã xảy ra sai trong quá trình phát triển, viết mã sửa chữa riêng cho chúng, và có dấu hiệu nhắm đến việc gian lận bộ kiểm tra.
Nguồn hình: Reddit Các đối thủ PenfieldLabs chỉ ra rằng MemPalace tuyên bố đạt điểm tối đa trong bộ dữ liệu LoCoMo, điều này về mặt toán học là không thể xảy ra
Người dùng GitHub hugooconnor thì sau khi tự thực nghiệm đã bình luận rằng MemPalace tuyên bố tỷ lệ truy xuất chính xác cao tới 96,6%, nhưng trên thực tế hoàn toàn không hề sử dụng kiến trúc “AI cung điện trí nhớ” mà MemPalace quảng bá. hugooconnor nói rằng bài kiểm tra của họ chỉ đơn giản gọi chức năng mặc định của cơ sở dữ liệu lớp dưới là ChromaDB, hoàn toàn không liên quan đến logic phân loại theo khu vực cánh, phòng hay ngăn kéo mà dự án nhấn mạnh.
Sau khi kiểm tra, hugooconnor phát hiện rằng khi hệ thống thực sự bật logic phân loại chuyên thuộc “cung điện trí nhớ” thì thành tích truy xuất lại giảm sút. Ví dụ, ở chế độ phòng thì độ chính xác giảm xuống còn 89,4%; và sau khi bật kỹ thuật nén AAAK thì độ chính xác còn giảm tiếp xuống 84,2%, cả hai đều thấp hơn hiệu suất của cơ sở dữ liệu mặc định.
hugooconnor cũng phê bình phương pháp kiểm tra: môi trường kiểm tra của MemPalace cố ý thu hẹp phạm vi truy xuất cho mỗi câu hỏi, chỉ khoảng 50 giai đoạn hội thoại, và việc tìm đáp án trong một kho mẫu nhỏ như vậy quá dễ dàng.
Nếu mở rộng phạm vi lên hơn 19.000 giai đoạn hội thoại trong bối cảnh thực tế, thì độ chính xác của tìm kiếm bằng từ khóa truyền thống sẽ lao dốc xuống 30%, cho thấy cách kiểm tra hiện tại của MemPalace đang che lấp “bài toán tìm kiếm” thực sự khó khăn.
Nguồn hình: GitHub Người dùng GitHub thực nghiệm chỉ ra rằng bài benchmark của MemPalace có thành phần gây hiểu sai
Đồng thời, dù nhóm phát triển đã phát hành tuyên bố hiệu đính, thừa nhận rằng công nghệ AAAK thực sự là nén có tổn hao, và cam kết sẽ sửa đổi tài liệu mô tả cũng như thiết kế hệ thống dựa theo những phê bình nghiêm khắc từ cộng đồng. Tuy nhiên, tài liệu mô tả chính của dự án vẫn giữ nguyên nhiều tuyên bố phóng đại chưa được hiệu chỉnh, bao gồm việc khẳng định nén không tổn hao gấp 30 lần và tăng cường truy xuất 34%, và các biểu đồ so sánh với đối thủ khác cũng hoàn toàn không có nguồn trích dẫn.
Khi ngày càng có nhiều nhà phát triển tải về để kiểm thử, trên nền tảng GitHub đã xuất hiện hàng loạt báo cáo Bug liên quan đến mã nguồn MemPalace.
Người dùng cktang88 liệt kê nhiều thiếu sót nghiêm trọng, bao gồm lệnh nén không thể hoạt động và gây sập hệ thống, lỗi trong logic tính toán số lượng từ của bản tóm tắt, và số liệu thống kê khi “đào” phòng không chính xác, ngoài ra còn có vấn đề khi gọi mỗi lần thì máy chủ sẽ nạp toàn bộ dữ liệu chú giải vào bộ nhớ, gây ra bài toán tiêu hao tài nguyên nghiêm trọng.
Các vấn đề khác được chỉ ra còn bao gồm việc hệ thống “cứng hóa” tên thành viên trong gia đình của nhà phát triển vào tệp cấu hình mặc định, và có giới hạn hiển thị bắt buộc là 20kục khi truy vấn trạng thái.
Đối với các vấn đề này, cộng đồng mã nguồn mở đã bắt đầu tích cực khắc phục. Người dùng adv3nt3 đã gửi nhiềuyêu cầu sửa lỗi, bao gồm sửa số liệu thống kê phần “đào”, loại bỏ tên thành viên gia đình mặc định, và trì hoãn thời gian khởi tạo việc “trễ” đồ thị tri thức. Nhóm phát triển sau đó cũng thừa nhận các lỗi này, và đang lần lượt giải quyết các vấn đề trong mã thông qua phối hợp với cộng đồng.
Với dự án MemPalace này, một người dùng Hacker News là darkhanakh đã đưa ra kết luận: MemPalace gợi cảm giác như OpenClaw, tức là cố tình thao túng kết quả benchmark để khiến nó trông như hoàn hảo vô khuyết, rồi đóng gói nó thành một dạng “đột phá lớn” để quảng bá.
Anh ấy cho rằng, công nghệ nền tảng của MemPalace có thể thực sự rất thú vị, nhưng trong bối cảnh phương pháp kiểm tra mang những sai sót kiểu đó, lại còn quảng bá dưới khẩu hiệu “điểm cao nhất được công khai từ trước đến nay” để truyền thông thì thực sự không ổn lắm, “nhưng mà, chuyện Milla Jovovich chơi Vibe Coding như thế này, tôi nghĩ vẫn khá ngầu.”
Đọc thêm:
AI viết mã bị lỗi! Ứng dụng “người săn tiết kiệm” của cửa hàng tiện lợi dính vấn đề an toàn tài chính, GPS trong nhà phơi bày toàn bộ