Mô hình huyền thoại Anthropic Claude Mythos không mở cửa cho công chúng

Anthropic hôm nay đã công bố một kế hoạch: Project Glasswing (Kế hoạch Glasswing). Lý do họ triển khai kế hoạch này là vì Anthropic đã huấn luyện ra một mẫu hình siêu mạnh hoàn toàn mới Claude Mythos Preview; thực ra đây chính là mẫu hình đã được nhắc tới trong vụ rò rỉ mã nguồn cách đây vài ngày.

Các bên tham gia dự án bao gồm AWS của Amazon, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, Linux Foundation, Microsoft, NVIDIA, Palo Alto Networks, và chính Anthropic, tổng cộng 500Bổ chức cùng khởi xướng.

Nói đơn giản là do mẫu hình này quá mạnh nên cần chế độ kiểm thử an toàn, chỉ sử dụng nội bộ trong các tổ chức được phê duyệt, không mở ra cho công chúng. Mạnh đến mức nào thì mọi người xem trực tiếp dữ liệu, năng lực viết mã và suy luận vượt trội opus 4.6:

Mã:

Suy luận:

Tìm kiếm và sử dụng máy tính

opus nghĩa đen là kiệt tác, Mythos nghĩa đen là thần thoại. CEO của Anthropic và một loạt các lãnh đạo đối tác đã đứng ra ủng hộ cho kế hoạch này.

Anthropic khẳng định rõ rằng không có kế hoạch mở Claude Mythos Preview cho công chúng. Nhưng mục tiêu dài hạn là giúp người dùng có thể sử dụng an toàn các mẫu hình có mức năng lực tương đương. Để làm được điều đó, họ dự định trước tiên phát triển và xác thực các cơ chế phòng vệ an toàn liên quan trên mẫu hình Claude Opus sắp ra mắt; trong điều kiện rủi ro ở mức kiểm soát được thì hoàn tất việc lặp lại, sau đó dần dần thúc đẩy tiếp, có thể rất nhanh sẽ cho ra một phiên bản opus mới để cung cấp các năng lực tương ứng.

Hãy cùng xem chi tiết Project Glasswing rốt cuộc là thứ gì


Mẫu hình này đã phát hiện ra điều gì?

Trong vài tuần qua, Anthropic đã dùng Claude Mythos Preview để quét các hệ điều hành phổ biến trên thế giới, các trình duyệt và những phần mềm quan trọng khác.

Kết quả: phát hiện ra hàng nghìn lỗ hổng zero-day trước đây chưa từng được phát hiện, trong đó nhiều lỗ hổng được đánh giá ở mức rủi ro cao.

Một vài ví dụ cụ thể:

Một lỗ hổng tồn tại trong OpenBSD suốt 27 năm. OpenBSD nổi tiếng về tính bảo mật và được dùng để chạy các hạ tầng quan trọng như tường lửa. Lỗ hổng này cho phép kẻ tấn công chỉ bằng cách kết nối tới máy mục tiêu có thể làm cho nó sập từ xa.

Một lỗ hổng trong FFmpeg tồn tại 16 năm. FFmpeg được hàng vô số phần mềm sử dụng cho mã hóa/giải mã video. Dòng mã mà mô hình phát hiện ra lỗ hổng đó trước đó đã bị các công cụ kiểm thử tự động quét 5 triệu lần nhưng chưa bao giờ được phát hiện.

Trong nhân Linux, mô hình tự phát hiện và liên kết nhiều lỗ hổng, khiến kẻ tấn công có thể leo thang từ quyền của người dùng thông thường lên quyền kiểm soát hoàn toàn toàn bộ máy.

Tất cả các lỗ hổng trên đều đã được báo cáo tới các bên bảo trì phần mềm liên quan và hiện đã được khắc phục hoàn toàn. Các lỗ hổng còn lại, Anthropic đã công bố trước các giá trị băm mã hóa; chờ đến khi hoàn tất việc khắc phục rồi mới công khai các chi tiết cụ thể.


Tại sao cần làm việc này?

Đánh giá mà Anthropic đưa ra là: năng lực của mô hình AI trong việc phát hiện và khai thác lỗ hổng phần mềm đã vượt qua tất cả mọi người, trừ một số ít chuyên gia con người hàng đầu.

Sự lan rộng của năng lực này là vấn đề thời gian, chứ không phải vấn đề liệu nó có xảy ra hay không.

Tổn thất kinh tế do tội phạm mạng toàn cầu gây ra ước tính mỗi năm khoảng 8B USD. Các cuộc tấn công vào hệ thống y tế, cơ sở hạ tầng năng lượng và các cơ quan chính phủ đã gây ra thiệt hại thực chất, đồng thời cũng tạo mối đe dọa liên tục đối với các cơ sở hạ tầng dân sự và quân sự.

AI làm giảm đáng kể chi phí, ngưỡng và mức độ chuyên môn cần thiết để tiến hành các cuộc tấn công như vậy.

Logic của Anthropic là: thay vì chờ người khác trước tiên dùng năng lực này để tấn công, thì chủ động dùng nó cho phòng thủ.


Kế hoạch cụ thể sẽ làm như thế nào?

Project Glasswing hiện bao gồm hai lớp.

Lớp thứ nhất là 12 đối tác sáng lập: họ sẽ nhận được quyền truy cập Claude Mythos Preview để quét và sửa chữa các lỗ hổng trong các hệ thống lõi của chính họ, với các hướng trọng tâm như phát hiện lỗ hổng cục bộ, kiểm thử hộp đen nhị phân, bảo mật thiết bị đầu cuối, kiểm thử thâm nhập,…

Lớp thứ hai là hơn 100Mổ chức khác xây dựng hoặc duy trì hạ tầng phần mềm quan trọng: họ cũng sẽ nhận được quyền truy cập mô hình để quét hệ thống của riêng họ và các hệ thống mã nguồn mở.

Anthropic cam kết cung cấp hạn mức sử dụng mô hình cao nhất 100 triệu USD. Sau khi giai đoạn nghiên cứu xem trước kết thúc, Claude Mythos Preview sẽ được cung cấp cho các bên tham gia với quyền truy cập thương mại, với giá 25/125 USD cho mỗi triệu token đầu vào/đầu ra, hỗ trợ tích hợp thông qua Claude API, Amazon Bedrock, Google Cloud Vertex AI và Microsoft Foundry.

Ngoài ra, thông qua Linux Foundation, Anthropic sẽ quyên góp 2,5 triệu USD cho Alpha-Omega và 1,5 triệu USD cho OpenSSF, tổng cộng 4 triệu USD, để hỗ trợ các bên duy trì phần mềm mã nguồn mở ứng phó với tình hình mới này. Các bên duy trì phần mềm mã nguồn mở có thể đăng ký quyền truy cập thông qua dự án Claude for Open Source.

Kế hoạch tiếp theo

Về chia sẻ thông tin, các đối tác sẽ, trong phạm vi tối đa có thể, trao đổi lẫn nhau thông tin và các phương pháp thực hành tốt nhất. Anthropic cam kết trong vòng 90 ngày sẽ công bố báo cáo tiến độ nghiên cứu, trong đó bao gồm số lượng lỗ hổng được phát hiện, những vấn đề đã được khắc phục, và các kết quả cải tiến có thể công bố.

Về kiến nghị chính sách, Anthropic sẽ phối hợp với các tổ chức an ninh chủ chốt để hình thành các khuyến nghị thực hành cho các hướng sau: quy trình công bố lỗ hổng, quy trình cập nhật phần mềm, bảo mật mã nguồn mở và chuỗi cung ứng, vòng đời phát triển phần mềm an toàn, các tiêu chuẩn ngành được quản lý, việc mở rộng quy mô và tự động hóa phân loại lỗ hổng, tự động hóa bản vá.

Xem thông tin đầy đủ tại bản gốc chính thức: https://www.anthropic.com/glasswing

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim