OpenZeppelin kiểm toán EVMbench phát hiện ô nhiễm dữ liệu

OpenZeppelin審計EVMbench發現資料污染

Công ty kiểm toán an ninh blockchain OpenZeppelin đã thực hiện kiểm toán độc lập đối với tiêu chuẩn kiểm tra AI an ninh hợp đồng thông minh EVMbench do OpenAI và Paradigm hợp tác ra mắt, và phát hiện hai vấn đề nghiêm trọng: ô nhiễm dữ liệu huấn luyện và ít nhất 4 phân loại “lỗ hổng nguy hiểm cao” thực chất là giả mạo không hợp lệ.

Vấn đề ô nhiễm dữ liệu của EVMbench: Lỗ hổng quan trọng về hạn chế thời hạn huấn luyện AI

EVMbench được phát hành vào giữa tháng 2 năm 2026, nhằm đánh giá khả năng của các mô hình AI khác nhau trong việc nhận diện, sửa chữa và khai thác lỗ hổng hợp đồng thông minh. Trong quá trình thử nghiệm, quyền truy cập mạng của đại lý AI bị cắt để ngăn chặn việc tìm kiếm câu trả lời qua mạng. Tuy nhiên, kiểm toán của OpenZeppelin tiết lộ một lỗ hổng cấu trúc: tiêu chuẩn này dựa trên 120 lần kiểm tra đã thực hiện từ năm 2024 đến giữa năm 2025, và phần lớn các mô hình AI hàng đầu cũng có hạn chót đào tạo kiến thức vào giữa năm 2025.

Điều này có nghĩa là, đại lý AI có khả năng đã tiếp xúc với các báo cáo lỗ hổng của EVMbench trong giai đoạn huấn luyện trước đó, và có thể đã lưu trữ tất cả các câu trả lời trong bộ nhớ. OpenZeppelin cho biết: “Khả năng quan trọng nhất của AI an ninh là phát hiện các lỗ hổng mới trong mã mà mô hình chưa từng thấy trước đó.” Quy mô dữ liệu hạn chế càng làm tăng ảnh hưởng của ô nhiễm dữ liệu đối với toàn bộ đánh giá.

Các vấn đề chính được phát hiện trong kiểm toán EVMbench

Ô nhiễm dữ liệu huấn luyện: Đại lý AI có thể đã được huấn luyện với các báo cáo lỗ hổng của EVMbench, khiến các thử nghiệm “phát hiện không kiến thức” mất ý nghĩa

Phân loại lỗ hổng nguy hiểm cao giả mạo: Ít nhất 4 lỗ hổng được đánh dấu là nguy hiểm cao thực chất không thể khai thác

Hạn chế của hệ thống đánh giá: Trước đây, EVMbench đã tính điểm dựa trên hành vi AI phát hiện các lỗ hổng giả này, nhưng cơ sở đánh giá có vấn đề

Quy mô dữ liệu hạn chế: Tăng thêm tác động của ô nhiễm dữ liệu đối với kết quả đánh giá tổng thể

Bảng xếp hạng hiện tại: Claude 4.6 của Anthropic dẫn đầu, theo sau là OC-GPT-5.2 của OpenAI và Gemini 3 Pro của Google

Nguy cơ lỗ hổng giả: Ít nhất 4 phân loại nguy hiểm cao bị xác nhận là vô hiệu

Ngoài ô nhiễm dữ liệu, OpenZeppelin còn phát hiện các lỗi chính xác hơn. Họ đã đánh giá ít nhất 4 lỗ hổng được EVMbench xếp vào loại nguy hiểm cao, và phát hiện rằng các lỗ hổng này thực tế không tồn tại — quan trọng hơn, cách khai thác các lỗ hổng này trong mô tả hoàn toàn không thể thực hiện được.

“Đây không phải là sự khác biệt về mức độ nghiêm trọng chủ quan; mà là phát hiện ra rằng cách khai thác lỗ hổng mô tả không có hiệu quả,” OpenZeppelin nhấn mạnh. Nếu đại lý AI “phát hiện” các lỗ hổng giả này trong thử nghiệm, điều đó có nghĩa hệ thống đánh giá đang thưởng cho kết quả sai lệch.

OpenZeppelin nhấn mạnh rằng, cuộc kiểm toán này không phủ nhận tiềm năng của AI trong an ninh blockchain: “Vấn đề không phải là AI có thể thay đổi an ninh hợp đồng thông minh — chắc chắn rồi. Vấn đề là dữ liệu và tiêu chuẩn chúng ta dùng để xây dựng và đánh giá các công cụ này có phù hợp với các tiêu chuẩn mà chúng nhằm bảo vệ hay không.”

Các câu hỏi thường gặp

OpenZeppelin đã phát hiện ra vấn đề gì trong kiểm toán EVMbench?

OpenZeppelin phát hiện hai vấn đề cốt lõi: thứ nhất là ô nhiễm dữ liệu huấn luyện, vì các báo cáo lỗ hổng của EVMbench đến từ các cuộc kiểm tra trong năm 2024-2025, trùng với hạn chót huấn luyện của mô hình AI, khiến chúng có thể đã “nhìn thấy” câu trả lời trong quá trình huấn luyện; thứ hai là ít nhất 4 lỗ hổng nguy hiểm cao bị phân loại là giả mạo, mô tả cách khai thác không thể thực thi.

Tại sao ô nhiễm dữ liệu lại nguy hiểm đối với đánh giá an ninh AI như vậy?

Nếu mô hình AI đã tiếp xúc với các báo cáo lỗ hổng trong quá trình huấn luyện, nó có thể “trả lời” câu hỏi dựa trên bộ nhớ chứ không phải khả năng phát hiện lỗ hổng thực sự. Điều này làm mất ý nghĩa của thử nghiệm “không kiến thức”, không thể phản ánh chính xác khả năng kiểm tra an ninh của AI khi đối mặt với các hợp đồng thông minh mới, chưa từng thấy.

OpenZeppelin nghĩ gì về triển vọng của AI trong lĩnh vực an ninh blockchain?

OpenZeppelin rõ ràng cho biết, AI sẽ có ảnh hưởng lớn đến an ninh hợp đồng thông minh, nhưng nhấn mạnh rằng ảnh hưởng này phải dựa trên phương pháp luận đáng tin cậy và tiêu chuẩn đánh giá chính xác. Họ coi các vấn đề của EVMbench không phải là phủ nhận tiềm năng của AI, mà là một cảnh báo quan trọng đối với ngành.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

JPMorgan: Các vụ khai thác bảo mật trong DeFi và TVL trì trệ giới hạn việc các tổ chức tham gia

Tin tức Gate, ngày 23 tháng 4 — Các nhà phân tích của JPMorgan do giám đốc điều hành Nikolaos Panigirtzoglou dẫn đầu cho biết việc khai thác (DeFi) phi tập trung dai dẳng và tăng trưởng yếu tiếp tục hạn chế sự quan tâm của các tổ chức đối với lĩnh vực này. Vụ hack Kelp DAO gần đây đã xóa khoảng $20 tỷ khỏi tổng giá trị bị khóa của DeFi TVL trong chỉ vài ngày, theo báo cáo hôm thứ Tư

GateNews4giờ trước

Kho bạc Hoa Kỳ trừng phạt Thượng nghị sĩ Campuchia vì mạng lưới lừa đảo tiền mã hóa

## Tổng quan Bộ Tài chính Hoa Kỳ đã trừng phạt Thượng nghị sĩ Campuchia Kok An và 28 tổ chức liên quan đến ông vào hôm thứ Năm, theo Cơ quan Kiểm soát Tài sản Nước ngoài thuộc Bộ Tài chính (Office of Foreign Assets Control) (OFAC). Động thái này nhắm vào thứ mà các quan chức mô tả là một hoạt động lừa đảo tiền mã hóa quy mô lớn ở Đông Nam Á. ## The

CryptoFrontier5giờ trước

Aave Đóng Băng Dự Trữ rsETH Trên Năm Mạng Sau Vụ Khai Thác KelpDAO

Tin từ Gate News, ngày 23 tháng 4 — Aave đã đóng băng dự trữ rsETH trên Ethereum Core, Arbitrum, Base, Mantle và Linea khi nỗ lực khôi phục đang được đẩy nhanh, sau vụ khai thác KelpDAO ngày 18 tháng 4 đã rút cạn 116.500 rsETH, trị giá xấp xỉ $292 triệu, từ cầu nối xuyên chuỗi của Kelp. Nhiều

GateNews6giờ trước

JPMorgan Chase: Các vụ tin tặc DeFi diễn ra liên tục và cơ chế nén quan tâm khi TVL trì trệ, dòng tiền chuyển sang USDT

Báo cáo của JPMorgan cho rằng DeFi tiếp tục gặp lỗ hổng, các cuộc tấn công vào cầu nối xuyên chuỗi và tiên tri diễn ra thường xuyên, khiến TVL đình trệ và làm suy yếu ý chí đầu tư của các tổ chức; dòng vốn chuyển sang USDT có thể theo dõi và có thể bị phong tỏa. Các cuộc tấn công vào KelpDAO và Rhea Finance cho thấy rủi ro trong quản lý rủi ro; stablecoin tập trung và lưu ký được ưa chuộng hơn. Về dài hạn, để cải thiện cần phải vượt qua bảo hiểm và quản trị; DeFi khó quay trở lại mức TVL cao như năm 2021, và stablecoin sẽ tập trung hơn.

ChainNewsAbmedia6giờ trước

Giám đốc Kinh tế của Circle Đề Xuất Tăng Lãi Suất USDC trên Aave Giữa Hậu Quả KelpDAO

Tin tức từ Gate, ngày 23 tháng 4 — Gordon Liao, giám đốc kinh tế trưởng của Circle, đã đề xuất nâng các tham số cho vay USDC trên Aave v3 Ethereum Core trong tuần này, sau một vụ khai thác $292 triệu KelpDAO rsETH đã kích hoạt khủng hoảng thanh khoản trên toàn giao thức. Yêu cầu Nhận xét (Request for Comment) của Liao gợi ý tăng "S

GateNews7giờ trước

Nâng cấp lớn: Nâng cấp hệ thống phát hiện gian lận của CEX lớn với học máy và công cụ quy tắc, cắt thời gian phản hồi xuống còn vài giờ

Tin cổng, ngày 23 tháng 4 — Một sàn giao dịch tập trung lớn đã công bố việc đại tu hệ thống chống gian lận của mình bằng cách tích hợp các mô hình học máy với các công cụ dựa trên quy tắc, triển khai chiến lược hai lớp trong đó mô hình đảm nhiệm phòng thủ dài hạn và quy tắc cho phép phản ứng nhanh. Khung thống nhất

GateNews8giờ trước
Bình luận
0/400
Không có bình luận