Milla Jovovich dùng AI để tạo ra “dự án điểm tối đa” ? Nhà phát triển thử nghiệm thực tế: thật sự có nội dung hay chỉ là thổi phồng và chiêu trò?

Hệ thống trí nhớ AI MemPalace do Milla Jovovich và Vicky tham gia phát triển tuyên bố đã đạt điểm tuyệt đối trong quá trình thử nghiệm và bỗng vụt nổi tiếng, nhưng nhanh chóng bị cộng đồng “đá đểu” vì cáo buộc gian lận trong thử nghiệm và làm sai lệch dữ liệu. Thử nghiệm thực tế cho thấy hiệu quả được thổi phồng và có rất nhiều lỗi; đội ngũ đã thừa nhận các thiếu sót và đang tiến hành khắc phục.

Milla Jovovich và Vicky xây dựng “cung điện trí nhớ” AI, thu hút sự chú ý từ bên ngoài

Hôm qua (4/7), giới AI có một tin lớn: nữ minh tinh Hollywood nổi tiếng nhờ loạt phim《Resident Evil》và《The Fifth Element》—Milla·Jovovich (Milla Jovovich), hợp tác với nhà phát triển Ben Sigman dùng Claude Code hỗ trợ phát triển hệ thống trí nhớ AI mã nguồn mở “MemPalace”.

Trong lúc đó, những tuyên bố như “ngôi sao Hollywood lấn sân và làm ra một dự án điểm tuyệt đối” được lan truyền rộng rãi; cho đến nay, MemPalace cũng đã nhận được hơn 20k lượt sao trên GitHub, nhưng ngay sau đó đã dấy lên nghi ngờ trong cộng đồng nhà phát triển: thật sự có chất lượng hay chỉ là thổi phồng?

Trước hết, nói về động cơ khiến MemPalace ra đời: tài liệu chính thức cho biết họ muốn giải quyết việc nội dung hội thoại giữa người dùng và AI, quá trình ra quyết định và các thảo luận về kiến trúc trong các hệ thống AI hiện tại thường biến mất sau khi kết thúc phiên làm việc, dẫn đến giới hạn khiến toàn bộ công sức vài tháng phải quy về 0.

Để giải quyết vấn đề này, MemPalace sử dụng kiến trúc không gian để lưu trí nhớ, phân loại rõ ràng thông tin vào các khu cánh dành cho nhân sự đại diện hoặc dự án, cùng cấu trúc ở nhiều tầng bậc khác nhau như hành lang, phòng và ngăn kéo, đồng thời giữ nguyên văn bản hội thoại để phục vụ cho việc truy xuất ngữ nghĩa về sau.

Đội ngũ phát triển tuyên bố rằng, MemPalace đạt thành tích 100% trong bộ tiêu chí đánh giá trí nhớ dài hạn LongMemEval, và đạt tỷ lệ chính xác 96.6% mà không cần gọi bất kỳ API bên ngoài nào; ngoài ra có thể chạy hoàn toàn ngay trên máy cục bộ, không cần đăng ký dịch vụ đám mây, và tích hợp hệ thống phương ngữ AAAK được cho là có thể đạt nén không tổn hao gấp 30 lần.

Nguồn ảnh: GitHub Minh tinh Hollywood Milla Jovovich xây dựng “cung điện trí nhớ” AI, thu hút sự chú ý từ bên ngoài

Đồng nghiệp và cộng đồng cùng đặt nghi vấn, phương pháp thử nghiệm và thông tin quảng bá có vấn đề

Tuy nhiên, thành tích được cho là đạt điểm tuyệt đối trong LongMemEval của MemPalace nhanh chóng bị các đồng nghiệp nghi ngờ.

PenfieldLabs, cũng là đơn vị phát triển hệ thống trí nhớ AI, chỉ ra rằng MemPalace tuyên bố đạt điểm tuyệt đối trong bộ dữ liệu LoCoMo là điều không thể xảy ra về mặt toán học, vì đáp án chuẩn của bộ dữ liệu đó bản thân đã chứa 99 lỗi.

Sau khi phân tích, PenfieldLabs phát hiện thành tích 100% của MemPalace đến từ việc đặt số lần truy xuất là 50 lần, nhưng số lượng “giai đoạn” tối đa trong hội thoại của bộ dữ liệu thử nghiệm chỉ có 32 lần, điều này có nghĩa là hệ thống đã bỏ qua trực tiếp giai đoạn truy xuất và giao toàn bộ dữ liệu cho mô hình AI đọc.

Liên quan đến thành tích 100% trong LongMemEval, đội ngũ phát triển đã bị phát hiện nhắm vào 3 vấn đề cụ thể bị lỗi trong phần tập trung phát triển, viết mã chương trình sửa riêng, và điều đó tạo ra nghi ngờ rằng họ đã gian lận nhằm vào bộ test.

Nguồn ảnh: Reddit PenfieldLabs chỉ ra rằng MemPalace tuyên bố đạt điểm tuyệt đối trong bộ dữ liệu LoCoMo là điều không thể xảy ra về mặt toán học

Người dùng GitHub tự thử nghiệm, bài benchmark có yếu tố gây hiểu nhầm

Người dùng GitHub hugooconnor sau khi tự thử nghiệm đã bình luận rằng, MemPalace tuyên bố tỷ lệ chính xác truy xuất lên tới 96.6%, nhưng thực tế hoàn toàn không hề sử dụng kiến trúc “cung điện trí nhớ” mà MemPalace quảng bá. hugooconnor cho biết nhóm họ chỉ gọi các tính năng mặc định của cơ sở dữ liệu lớp dưới ChromaDB, hoàn toàn không liên quan đến logic phân loại nhấn mạnh của dự án như khu cánh, phòng hay ngăn kéo.

Sau khi thử nghiệm, hugooconnor phát hiện rằng khi hệ thống thực sự bật các logic phân loại riêng của “cung điện trí nhớ”, thì kết quả truy xuất lại giảm đi. Lấy ví dụ chế độ phòng, tỷ lệ chính xác giảm xuống còn 89.4%; và sau khi bật công nghệ nén AAAK, tỷ lệ chính xác còn giảm xuống 84.2%, cả hai đều thấp hơn hiệu suất của cơ sở dữ liệu mặc định.

hugooconnor cũng chỉ trích phương pháp thử nghiệm: môi trường thử nghiệm của MemPalace cố ý thu hẹp phạm vi truy xuất của mỗi câu hỏi xuống khoảng 50 giai đoạn hội thoại, việc tìm đáp án trong một kho dữ liệu mẫu rất nhỏ như vậy là quá dễ.

Nếu mở rộng phạm vi lên hơn 19,000 giai đoạn hội thoại trong tình huống thực tế, thì độ chính xác của tìm kiếm theo từ khóa truyền thống sẽ tụt thảm xuống 30%, cho thấy cách thử nghiệm hiện tại của MemPalace đang che giấu bài toán tìm kiếm khó trong thực tế.

Nguồn ảnh: GitHub Người dùng GitHub tự thử nghiệm, bài benchmark của MemPalace có yếu tố gây hiểu nhầm

Đồng thời, dù đội ngũ phát triển đã phát hành tuyên bố đính chính, thừa nhận công nghệ AAAK thực sự là nén có mất mát và cam kết sẽ điều chỉnh tài liệu mô tả và thiết kế hệ thống theo các phê bình nghiêm khắc từ cộng đồng. Nhưng phần tài liệu mô tả chính của dự án vẫn giữ lại nhiều tuyên bố thổi phồng chưa được sửa, bao gồm việc tuyên bố đạt nén không tổn hao gấp 30 lần và tăng 34% trong truy xuất, đồng thời các biểu đồ so sánh với các đối thủ khác cũng hoàn toàn không có nguồn gốc xuất xứ.

Nguồn code gốc của MemPalace đối mặt nhiều lỗi Bug

Khi ngày càng nhiều nhà phát triển tải về để thử nghiệm, trên GitHub bắt đầu xuất hiện hàng loạt báo cáo lỗi về mã nguồn MemPalace.

Người dùng cktang88 liệt kê nhiều sai sót nghiêm trọng, bao gồm lệnh nén không hoạt động và khiến hệ thống sập, lỗi trong logic tính toán số lượng từ của bản tóm tắt, dữ liệu thống kê đào phòng không chính xác, và vấn đề máy chủ mỗi lần gọi sẽ nạp toàn bộ dữ liệu diễn giải vào bộ nhớ, gây tiêu hao tài nguyên nghiêm trọng.

Các vấn đề khác được chỉ ra còn bao gồm việc hệ thống tự động “cứng hóa” tên người thân của nhà phát triển vào tệp cấu hình mặc định, và có giới hạn hiển thị bắt buộc 20kục dữ liệu khi truy vấn trạng thái.

Đối với các vấn đề này, cộng đồng mã nguồn mở đã bắt đầu tích cực sửa chữa. Người dùng adv3nt3 đã gửi nhiều yêu cầusửa chữa, bao gồm sửa số liệu thống kê về việc đào, xóa tên người thân mặc định, và trì hoãn thời gian khởi tạo phần khởi tạo biểu đồ tri thức. Đội ngũ phát triển sau đó cũng thừa nhận những lỗi này và đang cùng cộng đồng từng bước giải quyết các vấn đề trong mã nguồn.

Vibe Coding của Milla Jovovich rất ngầu, cách marketing thì không ngầu

Đối với dự án MemPalace, một cư dân Hacker News có tên darkhanakh đưa ra kết luận: MemPalace tạo cảm giác như có sẵn một “OpenClaw”, tức là thao túng kết quả benchmark một cách nhân tạo để khiến nó trông hoàn hảo không tì vết, rồi sau đó bọc nó lại thành một bước đột phá lớn nào đó để quảng bá.

Anh ấy cho rằng công nghệ nền tảng của MemPalace có thể thực sự thú vị, nhưng trong bối cảnh phương pháp thử nghiệm có những “khiếm khuyết” như vậy, lại còn cố khoe “điểm cao nhất được công khai” để tuyên truyền thì không thực sự ổn. “Tuy nhiên, việc Milla Jovovich chơi Vibe Coding này, tôi vẫn thấy nó khá ngầu.”

Đọc thêm:
AI viết code bị lỗi! Ứng dụng “惜食獵人” của hàng tạp hóa với hạn dùng sắp hết gây vấn đề an ninh, GPS toàn trần trụi trong nhà

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận