Sợ mở hộp ma thuật? Mẫu mô hình mạnh nhất trong lịch sử của Anthropic hoàn toàn không dám công khai

BlockBeatNews

Trong kho mã nguồn của OpenBSD có một lỗ hổng đã bị giấu kín 27 năm. Trong FFmpeg có một lỗ hổng đã được giấu kín 16 năm; đoạn mã đó, trước khi được phát hiện, đã từng được gọi hơn 5 triệu lần. Việc đào bới ra hai thứ này không phải là bất kỳ một nhà nghiên cứu hàng đầu nào trong các nền tảng thưởng lỗi, cũng không phải Project Zero của Google. Đó là một mô hình mà Anthropic vẫn chưa công bố ra bên ngoài, mã hiệu Claude Mythos Preview.

Ngày 7 tháng 4, Anthropic đã công bố Project Glasswing. Bản thân hành động này rất đơn giản: gửi Mythos Preview cho một danh sách cho phép. Danh sách bao gồm AWS, Apple, Google, Microsoft, Nvidia, Broadcom, Cisco, CrowdStrike, JPMorgan Chase, Linux Foundation, Palo Alto Networks, cùng với khoảng 5Mổ chức chịu trách nhiệm về cơ sở hạ tầng trọng yếu. Người ngoài danh sách thì không nhận được. Anthropic nói rõ rằng trong ngắn hạn không có kế hoạch công khai phát hành mô hình này.

Đây là lần đầu tiên phòng thí nghiệm tiên phong chủ động khóa thứ mạnh nhất của mình lại.

Trong hai năm qua, nhịp độ phát hành gần như theo phản xạ có điều kiện. Mỗi lần Claude, GPT hay Gemini đi qua một thế hệ mới, đều là “phát hành, quan sát, vá lỗi”. Chính sách mở rộng “có trách nhiệm” (RSP) của Anthropic về bản chất cũng là một khung cam kết: đạt tới một ngưỡng năng lực nhất định thì áp dụng các biện pháp giảm thiểu tương ứng theo mức độ, rồi tiếp tục phát hành. Glasswing không phải bước tiếp theo của khung này, mà là lần ngoại lệ đầu tiên của khung đó. Một mô hình mà Anthropic tự đánh giá là “không phù hợp để phát hành theo quy trình ban đầu” đã được tách riêng, chỉ cấp cho phía phòng thủ.

Mythos Preview đã làm được gì. Theo cách nói chính thức: “hàng nghìn lỗ hổng zero-day, bao phủ mọi hệ điều hành phổ biến và mọi trình duyệt phổ biến”. Điều thuyết phục hơn con số là độ rộng về năng lực. Tỷ lệ thành công của Claude 4.6 Opus trong các tác vụ như tự phát triển lỗ hổng gần như bằng không; tức là cách đây sáu tháng, mô hình công khai mạnh nhất mà chính Anthropic có vẫn chưa làm được việc này. Mythos có thể nối nhiều lỗ hổng không liên quan với nhau thành một chuỗi tấn công hoàn chỉnh, ví dụ về khai thác trình duyệt trong bốn bước đã được chứng minh. Từ “gần như bằng không” đến “chuỗi bốn lỗ hổng” không phải là một bước tiến theo từng thế hệ, mà là một bước nhảy.

Bên phía những người duy trì hạ tầng cũng đã cảm nhận được. Greg Kroah-Hartman của kernel Linux và Daniel Stenberg, tác giả của curl, gần đây đều công khai nói về cùng một điều: trong năm qua, các báo cáo an ninh do AI tạo ra đã chuyển từ “cấp độ thư rác” sang “thực sự, chất lượng cao, không thể không xem”. Số lượng báo cáo mà các dự án mã nguồn mở nhận được đang tăng, chất lượng cũng tăng, nhưng nhân lực của người duy trì thì không tăng. Đây là những khổ mà phía phòng thủ đã chịu từ sớm. Hành động của Anthropic chỉ đưa chuyện đó từ sự lo lắng mơ hồ ra ánh sáng.

Đáng nhìn một chút vào chính bản thân danh sách cho phép. Ba hãng đám mây (AWS, Google, Microsoft), ba hãng phần cứng (Apple, Nvidia, Broadcom), hai hãng thiết bị mạng (Cisco, Palo Alto Networks), một công ty an ninh endpoint (CrowdStrike), một cơ sở hạ tầng mã nguồn mở (Linux Foundation), và một ngân hàng. Trong danh sách chỉ có một ngân hàng: JPMorgan Chase.

Đây không phải là phân bổ ngẫu nhiên. Anthropic vẽ ra một “bản đồ nếu không giữ được thì trời sẽ sập”. Phần lớn mã nguồn chạy trên nền tảng của các công ty đó; phần lớn tiền chạy trên tài khoản của một trong những công ty đó. Logic của danh sách cho phép không phải là “ai cần nhất”, mà là “ai mà khi ngã xuống trước tiên sẽ kéo theo tất cả mọi người”. Ngoài danh sách, Anthropic còn cấp 4 triệu USD cho các tổ chức an ninh mã nguồn mở. Tiền dành cho nhân lực, mô hình dành cho năng lực; ghép lại thì thành một câu nói: cho người duy trì vài tháng.

Cách diễn đạt của chính Anthropic còn trực tiếp hơn danh sách. Trong tuyên bố, công ty viết rằng: “Do tốc độ phát triển của AI, các năng lực kiểu này sẽ không tồn tại lâu trong tay những bên tham gia nỗ lực triển khai an toàn”. Ngay sau đó là một câu: “Bảo vệ cơ sở hạ tầng mạng toàn cầu có thể cần vài năm”.

Đặt hai câu này cạnh nhau để nhìn. Anthropic đánh giá rằng cửa sổ thời gian để mô hình bị rò rỉ hoặc bị sao chép lại là ngắn, còn cửa sổ thời gian để phía phòng thủ vá sạch lỗ hổng là dài. Toàn bộ ý nghĩa của Glasswing nằm giữa hai khoảng thời gian đó. Dùng một bước mở màn có kiểm soát để đổi lấy một cửa sổ vá lỗi từ vài tháng đến một năm.

Chuyện này còn có một chiều kích ở Washington. Anthropic đang trao đổi liên tục với chính phủ Mỹ về năng lực của Mythos Preview; đồng thời, nó cũng đang có một cuộc tranh cãi chưa kết thúc với Bộ Quốc phòng Mỹ về phạm vi sử dụng AI quân sự. Một công ty vừa từ chối dùng mô hình cho một số mục đích quân sự, vừa chủ động gửi mô hình này cho đội ngũ an ninh của Linux Foundation và Apple. Hai việc đó không mâu thuẫn: đó là hai mặt của cùng một phán đoán. Anthropic đang xác định “mô hình này có thể dùng để làm gì”, thay vì để quyền định nghĩa lại cho người dùng.

Điểm bất thường nhất của Glasswing không phải là nó làm gì, mà là nó làm khi nào. Trước đây, cách mà các công ty AI chứng minh mình là phát hành. Giờ thì Anthropic chọn dùng “không phát hành” để chứng minh. Một phòng thí nghiệm tiên phong chủ động khóa sản phẩm mạnh nhất của mình lại, và nói rằng không phải vì lý do thương mại, không phải vì chưa hoàn tất vấn đề căn chỉnh (alignment), không phải vì yêu cầu của cơ quan quản lý, mà vì chính họ tính ra rằng lịch trình công khai không thể theo kịp lịch trình sửa lỗi.

Trong vài tháng tới, thứ cần theo dõi không phải là Mythos Preview bản thân, mà là có bao nhiêu lỗ hổng chạy ra trên đó trong khoảng hơn 4Mổ chức thuộc danh sách cho phép sẽ được vá. Bước tiếp theo cần xem là liệu các phòng thí nghiệm tiên phong khác có làm theo hay không. Nếu có, một ngành công nghiệp với nhịp điệu “mở, lặp lại, mở” sẽ lần đầu tiên xuất hiện một động thái “khóa lại rồi nói”. Nếu không, Anthropic sẽ là người đứng ở ngay cửa ra vào. Nắm chìa khóa trong tay, nhìn đồng hồ.

Nhấn để tìm hiểu Lydong BlockBeats đang tuyển dụng vị trí

Chào mừng bạn tham gia cộng đồng chính thức của Lydong BlockBeats:

Nhóm đăng ký Telegram: https://t.me/theblockbeats

Nhóm chat Telegram: https://t.me/BlockBeats_App

Tài khoản Twitter chính thức: https://twitter.com/BlockBeatsAsia

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận