Ai đưa ra quyết định ai đang vạch ra ranh giới 40 nghìn tỷ đô la

Tiêu đề gốc: Ai Ký? Nghịch lý Anthropic và Lựa chọn $40 Triệu Tỷ
Tác giả gốc: Ashwin Gopinath
Biên dịch: Peggy, BlockBeats

Tác giả gốc: Luật Động BlockBeats

Nguồn gốc bài viết:

Chuyển thể: Mars Finance

Lời người biên tập: Tương lai của đại lý AI không phụ thuộc vào bước nhảy khả năng của mô hình, mà dựa trên một biến số thiết kế nền tảng hơn — trách nhiệm cuối cùng thuộc về ai.

Tác giả cho rằng, cái gọi là “tăng cường con người” và “thay thế con người” không phải là hai con đường công nghệ riêng biệt, mà là hai kết quả của cùng một hệ thống trong các lựa chọn thiết kế khác nhau — khi các quyết định vẫn cần có chữ ký của con người, trách nhiệm có thể truy xuất về từng cá nhân cụ thể, AI là bộ khuếch đại; còn khi bước này bị loại bỏ (như tự động phê duyệt, bỏ qua quyền hạn), hệ thống sẽ tự nhiên trượt sang thay thế.

Bài viết còn chỉ ra rằng, giá trị thực của đại lý AI không phải là “hoàn thành công việc”, mà là nén thế giới phức tạp thành một “đơn vị quyết định có thể ký tên”, giúp con người có thể hiểu và chịu trách nhiệm hậu quả. Nhưng trong thực tế, “mệt mỏi về cấp phép” sẽ khiến người dùng dần từ bỏ việc xem xét, từ phê duyệt từng cái đến mặc định đồng ý, cuối cùng hệ thống sẽ bỏ qua con người — đây là một cơ chế nhận thức, chứ không phải vấn đề cá nhân.

Vì vậy, bài viết đề xuất hai giới hạn then chốt: thứ nhất, mỗi quyết định quan trọng phải liên quan đến một cá nhân rõ ràng, có thể từ chối; thứ hai, ai hưởng lợi từ tính tự chủ của Agent thì người đó phải chịu trách nhiệm khi có vấn đề xảy ra.

Một khi trách nhiệm trở về người xây dựng, logic mặc định của hệ thống sẽ thay đổi. Trong khung cảnh này, câu chuyện thương mại về AI cũng được viết lại. Thay vì là “thay thế một nửa vị trí công việc” của các tập đoàn lớn, thì là “mở rộng năng suất của con người” qua các công cụ phân tán, quy mô của nó dựa trên khoảng 40 nghìn tỷ USD thu nhập từ lao động tri thức toàn cầu, chứ không phải chi tiêu phần mềm doanh nghiệp.

Cuối cùng, bài viết gom vấn đề thành một lựa chọn tối giản nhưng sắc bén: AI cuối cùng phục vụ con người, hay chính nó là mục đích — và câu trả lời này đang được từng chi tiết thiết kế sản phẩm âm thầm quyết định.

Dưới đây là nội dung bài viết:

TL;DR

· “Tương lai tăng cường” và “tương lai thay thế” dùng cùng một bộ mô hình, cùng một bộ công cụ. Thật sự phân biệt hai điều này là do một lựa chọn thiết kế về “hậu quả cuối cùng thuộc về ai”.

· Công việc thực sự của Agent không phải là làm thay con người, mà là nén thế giới phức tạp thành một “đơn vị quyết định có thể ký tên”, để một người có thể ký trách nhiệm. Miễn là việc nén này đúng, mọi thứ khác sẽ tự nhiên phát triển theo.

· Và “một người” này phải là một cá nhân rõ ràng, có thể xác định được. Trách nhiệm mơ hồ, tổng quát sẽ nhanh chóng sụp đổ dưới áp lực cao; do đó, mọi hành động mang hậu quả thực tế đều phải có thể truy xuất về một người có quyền từ chối thật sự.

· “Mệt mỏi về quyền hạn” sẽ khiến hệ thống Agent tự phát trượt sang “thay thế con người”. Vì vậy, “tương lai tăng cường” không phải là điều tự nhiên xảy ra, mà cần được thiết kế có ý thức để chống lại xu hướng này.

· Nếu bạn xây dựng một Agent và hưởng lợi từ tính tự chủ của nó, thì khi tính tự chủ đó gặp vấn đề, bạn cũng phải chịu trách nhiệm. Một khi chi phí thực sự rơi vào người xây dựng, hành vi mặc định của hệ thống sẽ thay đổi theo.

· Trong thị trường hình thành dựa trên giả định “con người vẫn phải chịu trách nhiệm”, quy mô có thể lớn hơn nhiều so với câu chuyện “thay thế một nửa công việc của các tập đoàn lớn” hiện nay, vì nó dựa trên tổng lương của lực lượng lao động có kỹ năng cao, chứ không phải ngân sách phần mềm doanh nghiệp.

Claude Code cung cấp một tham số tên --dangerously-skip-permissions. Tên gọi này rất trung thực; tác dụng của tham số đúng như tên gọi. Một Agent chạy dưới tham số này sẽ không mạnh hơn khi không bật, mà thay đổi nằm ở chỗ, một bước cần có sự đồng ý của con người giờ đây bị bỏ qua.

Tham số này chính là một sự thẳng thắn. Nó thừa nhận rằng, trong cùng khả năng nền tảng, cùng một hệ thống có thể vận hành theo mô hình “tăng cường con người” hoặc “thay thế con người” — chỉ cần bỏ qua bước “đồng ý”.

Đây chính là luận điểm đã được nén lại. Trong các hệ thống Agent mạnh nhất hiện nay, sự khác biệt giữa “tăng cường” và “thay thế hiệu quả” phần lớn đến từ việc loại bỏ bước phê duyệt, chứ không phải phát minh khả năng mới. Trong mười năm tới, câu hỏi là: thế giới “được tăng cường” hay “được đại lý tự chủ hành động thay chúng ta”, phụ thuộc vào việc người xây dựng hệ thống xem “con người trong vòng lặp” là trung tâm hay chỉ là một trở ngại.

AI là tăng cường con người, hay là bỏ qua con người?

Trong mỗi vấn đề công nghệ, luôn tồn tại một câu hỏi phi kỹ thuật ít người dám đề cập: AI nhằm mục đích tăng cường con người, hay chính AI mới là mục đích?

Hai câu trả lời này mang ý nghĩa về một tương lai hoàn toàn khác biệt. “Tăng cường” cho rằng, giá trị nằm ở chính con người, và nhiệm vụ của Agent là giúp con người đi xa hơn, ra quyết định tốt hơn. Trong khi đó, “AI là mục đích” lại cho rằng, trí tuệ trong thế giới mới chính là giá trị, còn con người chỉ là một phương tiện kém hiệu quả để chứa đựng nó. Hầu hết các sản phẩm Agent đang âm thầm mã hóa một trong hai quan điểm này, và thật ngạc nhiên là ít nhà sáng lập nào hỏi trực tiếp họ thuộc loại nào.

Khả năng thiết kế và cơ chế đồng ý vẫn đang tiến triển. Bài viết tập trung vào “đồng ý” vì đây là biến số mà người xây dựng ngày nay có thể kiểm soát, và vì sau khi khả năng sinh ra trở nên rẻ, thì những thuộc tính không thể tách rời khỏi con người mới giữ được giá trị kinh tế: khả năng phán đoán, gu thẩm mỹ, mối quan hệ, trách nhiệm, và ý chí ký tên chịu hậu quả của một quyết định. Trong đó, “trách nhiệm” là yếu tố rõ ràng nhất, và cũng là yếu tố đã có nền tảng thực thi hàng trăm năm.

Ranh giới trách nhiệm giữa tăng cường và thay thế

Cấu trúc phân biệt “tương lai tăng cường” và “tương lai thay thế” có thể tóm tắt như sau: bất kỳ hành vi nào do Agent thực hiện, mang hậu quả thực tế, đều phải có thể truy xuất về một cá nhân rõ ràng — người đó đã thấy bối cảnh liên quan, và có cơ hội nói “không” thật sự.

Trách nhiệm mơ hồ nhanh chóng không thể qua được kiểm tra này. “Công ty chịu trách nhiệm” trong vận hành không thể bao quát mọi nội dung cụ thể. “Người dùng đồng ý” không đồng nghĩa với việc đồng ý mọi thứ. “Có người con người đã duyệt quy trình” cho phép người đó duyệt những thứ hoàn toàn khác với nội dung cuối cùng phát hành. Thực tế, cần một cá nhân rõ ràng, có tên, thấy quyết định trước mặt, có khả năng từ chối, và chọn không từ chối.

Nghe có vẻ như quan liêu, cho đến khi bạn nhận ra đặc tính của “trách nhiệm” là không có các giải pháp khác. Nâng cao khả năng không thể loại bỏ nó; một mô hình thông minh hơn cũng không ảnh hưởng đến ai sẽ bị kiện, phạt hay bỏ tù cuối cùng. Nó buộc phải thiết kế giao diện để lộ ra một “điểm từ chối”. Nó sẽ mở rộng theo rủi ro tự nhiên. Và nó là một giới hạn mạnh mẽ xuyên lĩnh vực, đã có hạ tầng thực thi sẵn có: tòa án, bảo hiểm, hội đồng nghề nghiệp, cơ quan quản lý. Các chế độ cấp phép, trách nhiệm ủy thác, và quản lý ngành cũng có tác dụng, nhưng phạm vi của chúng hẹp hơn, và đều giả định rằng “trách nhiệm” đã được giải quyết.

Trong khi đó, các giải pháp thay thế dựa trên AI không thể qua được kiểm tra này. “Đối sánh” không thể thực thi; thậm chí còn không thể thống nhất về ý nghĩa của nó. “Giải thích” có thể được đáp ứng về hình thức, nhưng về bản chất thì không. “Con người trong vòng lặp” đã bị rút cạn thành “một nơi nào đó có người”. Lý do “trách nhiệm” có sức ràng buộc là vì nền tảng thực thi của nó đã được xây dựng hàng trăm năm trước khi công nghệ xuất hiện.

Mệt mỏi về quyền hạn, đẩy hệ thống tới “thay thế”

Lược đồ này sẽ đẩy hệ thống tới “thay thế”, và lực đẩy rất mạnh. Mỗi lần xác nhận quyền hạn đều tiêu hao chú ý. Thường thì Agent đúng. Từ quyết định đơn lẻ, lợi ích kỳ vọng của “không đọc mà đồng ý” thường là dương. Vì vậy, người dùng lý trí sẽ học cách nhấp “đồng ý” nhanh hơn, rồi chấp nhận hàng loạt, bật tự động đồng ý cho một số thao tác, mở rộng ra nhiều loại hơn, rồi trong một phiên sẽ bật công tắc nguy hiểm đó, thậm chí quên luôn sự tồn tại của nó.

Chỉ trong tuần thứ hai dùng Claude Code, tôi đã bật công tắc này, đến tuần thứ ba thì không còn nhận ra nữa. Tất cả các nhà phát triển tôi quen biết, đã dùng Cursor hoặc Devin lâu dài, đều có trải nghiệm tương tự. Mô hình này cũng xuất hiện trong các cửa sổ cookie, điều khoản EULA, cảnh báo TLS, yêu cầu quyền trên điện thoại. Các quyết định đồng ý lặp đi lặp lại, rủi ro thấp, cuối cùng sẽ hội tụ thành “đồng ý vô điều kiện”. Đây là đặc tính nhận thức, chứ không phải vấn đề đạo đức.

“Tương lai tăng cường” không tự nhiên xảy ra. Một hệ thống Agent chưa được thiết kế cẩn thận, mặc định sẽ trượt sang thay thế, vì người dùng trong quá trình tìm kiếm tiện lợi, sẽ chủ động chọn con đường thay thế. Một tương lai khác, phải được thiết kế ngược lại theo lược đồ này.

Giá trị của Agent không phải là thực thi, mà là giúp con người “ký tên”

Giá trị thực của Agent không phải là hoàn thành công việc, mà là nén công việc thành một dạng có thể ký tên.

Một mô hình tiên tiến có thể dễ dàng viết ra một bản gửi mã 4000 dòng, soạn thảo một hợp đồng 30 trang, tạo ra một hồ sơ lâm sàng, hoặc thực hiện một giao dịch. Nhưng những sản phẩm này thực sự ảnh hưởng đến là ở chỗ, liệu con người có đủ khả năng chịu trách nhiệm hậu quả của chúng hay không. Một mã không ai hiểu rõ, sau khi hợp nhất sẽ thành gánh nặng; một hợp đồng không ai đọc, sau khi ký sẽ là một quả bom hẹn giờ; một hồ sơ lâm sàng không có bác sĩ thực sự xác nhận, trong hầu hết hệ thống y tế có quy định, thậm chí không được coi là hồ sơ hợp lệ.

Trong khung “tăng cường”, Agent làm tất cả mọi việc ngoài “ký tên”: đọc hàng vạn trang ngữ cảnh, viết ra bốn nghìn dòng mã, tính toán ba mươi phương án hợp lý, rồi nén tất cả thành một biểu hiện tối thiểu, trung thực, để một người dựa vào đó đưa ra “có” hoặc “không”, rồi ký tên vào tài liệu.

Có thể hiểu Agent như một phát ngôn viên của báo chí. Tổng thống ký tên, còn phát ngôn viên là người chuẩn bị mọi thứ trước khi ký.

Đây thực ra là một bài toán kỹ thuật khó hơn “để hệ thống tự làm việc”. Khả năng tạo nội dung đang tiến bộ nhanh, nhưng khả năng “nén trung thực quyết định” còn xa mới theo kịp. Trong thị trường “tăng cường” tương lai, những đội nhóm có thể cung cấp bản tóm tắt quyết định ngắn nhất, trung thực nhất cho các tình huống trách nhiệm cao sẽ thắng.

Vấn đề chưa được giải quyết thực sự trong câu này là “trung thực”. Một bản tóm tắt mà con người có thể hiểu được chỉ có giá trị khi quá trình nén không làm sai lệch thông tin. Việc xác minh điều này bằng phương pháp lập trình là một thách thức thực sự trong “tương lai tăng cường”, và hiện tại, phần lớn mọi người còn chưa bắt đầu đối mặt với nó.

Một số phương pháp cơ bản đã xuất hiện:

  • Kiểm tra bằng cách kể lại để xác nhận con người hiểu đúng nội dung gốc

  • Ép buộc thể hiện ý kiến phản đối hoặc ý kiến trái chiều trong bản tóm tắt

  • Thử nghiệm phản thực (“nếu bạn từ chối, Agent này sẽ làm gì?”)

  • Kiểm tra khả năng tái tạo (liệu Agent khác có thể dựa trên cùng ngữ cảnh để tạo ra bản tóm tắt giống nhau không)

Tất cả còn xa mới được giải quyết. Và nhóm nào giải quyết sớm nhất những vấn đề này, sẽ xây dựng được một “vách tường” không dễ bị xói mòn bởi khả năng nâng cấp của mô hình.

Xây dựng phân cấp trách nhiệm cho hành vi AI

Nếu “trách nhiệm” đóng vai trò cấu trúc, thì mọi hành vi do Agent thực hiện đều nên kèm theo một “mức trách nhiệm”, và mức này quyết định cơ chế ký tên tối thiểu cần thiết cho hành vi đó.

Hiện tại, chưa có hệ thống tiêu chuẩn rộng rãi nào được xây dựng — nhưng rất có thể nên được xây dựng.

Với hậu quả, thì “thái độ phê duyệt” phù hợp là con đường duy nhất để quản lý mệt mỏi về quyền hạn. Ở cấp độ rủi ro cao, cần có các cơ chế kiểm soát chặt chẽ hơn (ví dụ: kiểm tra lại, thời gian làm lạnh, người duyệt thứ hai), vì trong các tình huống này, thất bại thực sự không phải do Agent đề xuất sai, mà là do con người phê duyệt mà không suy nghĩ.

Bạn có quan tâm không?

Tất cả các vấn đề trên cuối cùng đều hướng về một câu hỏi cốt lõi của người sáng lập: Bạn có quan tâm đến việc con người vẫn còn là một phần của tương lai này không? Hiện tại, nhiều quyết định thiết kế sản phẩm Agent đều là một “phiếu bầu thầm lặng” cho câu hỏi này, chỉ là người bỏ phiếu thường không muốn thừa nhận rằng họ đang chọn.

Nếu bạn quan tâm, thì các giới hạn thiết kế không còn mơ hồ: bạn cần xây dựng hệ thống phân cấp trách nhiệm; thiết kế “từ chối” thành một chức năng hàng đầu; tiêu chuẩn đánh giá là chất lượng tóm tắt mà Agent cung cấp cho con người, chứ không phải khả năng tự làm việc không có người giám sát; và bạn cần liên kết mọi hành vi mang hậu quả thực tế với một cá nhân cụ thể trong một nhật ký có độ khó chỉnh sửa cực thấp.

Những công việc kỹ thuật này hoàn toàn khả thi. Thách thức thực sự là liệu bạn có sẵn lòng làm vậy hay không — vì con đường “tăng cường” hiện tại không gây ấn tượng mạnh về mặt trình diễn, và trong mô hình tính phí theo chỗ ngồi, nó cũng không hấp dẫn bằng một con đường khác mang tính đột phá hơn.

Nghịch lý Anthropic: Tập trung cao độ vào an toàn, nhưng dễ dàng bỏ qua con người nhất

Anthropic là một ví dụ điển hình cho thấy cách ngành này có thể bị “dịch chuyển nội tại”. Không phải vì họ quá cẩu thả, mà ngược lại, chính vì họ thể hiện rõ ràng nhất về các vấn đề an toàn, nên khoảng cách giữa “khung” và “bề mặt sản phẩm” dễ bị nhận thấy nhất. Chính sách “Responsible Scaling” và dự án “Constitutional AI” chủ yếu giới hạn hành vi của mô hình trong giai đoạn huấn luyện; còn Agent xây dựng dựa trên các mô hình này, mặc định có thiết lập tự chủ, và cái “công tắc nguy hiểm” tiện lợi chỉ cần một lần nhấn là có thể kích hoạt từ trạng thái mặc định.

Mô hình này xuất hiện trong hầu hết các Agent lập trình chính thống, nhưng Anthropic là rõ ràng nhất. Đó chính là “Nghịch lý Anthropic”: phòng thí nghiệm viết rõ ràng khung an toàn nhất, đồng thời cũng cung cấp con đường ngắn nhất để chuyển từ “tăng cường” sang “thay thế”, và chính vì rõ ràng như vậy, chúng ta mới dễ nhận thấy con đường thứ hai.

Công bằng mà nói, họ đã ra mắt chế độ “auto mode” (chế độ tự động) vào tháng Ba năm nay, như một con đường trung gian giữa phê duyệt thủ công và “công tắc nguy hiểm”. Trong chế độ này, mỗi hành động đều được một bộ phân loại Sonnet 4.6 xem xét trước khi thực thi. Họ đã thẳng thắn gọi vấn đề này là “mệt mỏi về phê duyệt” và đưa ra số liệu: trong chế độ thủ công, 93% các gợi ý đều được chấp nhận. Đây chính là biểu hiện định lượng của “quyền hạn mệt mỏi”. Nhận định này phù hợp với phân tích của bài viết.

Tuy nhiên, về phương diện giải pháp, tôi có ý kiến khác. “Chế độ tự động” thay thế phê duyệt của con người bằng mô hình, nghĩa là lược đồ “trượt sang thay thế” chưa chấm dứt, mà chỉ nâng lên một tầng. Bộ phân loại có thể ngăn chặn hành vi nguy hiểm, nhưng với những hành vi được cho phép, không có ai thực sự chịu trách nhiệm. Anthropic cũng thừa nhận rằng, “chế độ tự động” không thể loại bỏ rủi ro, và khuyên người dùng chạy trong môi trường cách ly — nói cách khác, vấn đề “trách nhiệm” vẫn còn bỏ ngỏ.

Một phản đối rõ ràng là: nếu trách nhiệm cuối cùng thuộc về cá nhân, thì đó chính là chế độ thủ công? Và chế độ thủ công chính là bị mệt mỏi phá vỡ. Lý do “chịu trách nhiệm của người xây dựng” có thể thoát khỏi lược đồ này là vì nó thay đổi “chi phí phê duyệt quá mức”. Trong cấu trúc hiện tại, người dùng phải trả chi phí cho mỗi lần đọc kỹ, còn người xây dựng thì không, dẫn đến thiết lập mặc định giảm thiểu trở ngại cho người dùng, và đẩy rủi ro ra ngoài. Khi chuyển “chi phí của hành vi chưa được duyệt” về phía người xây dựng, thì cách tính sẽ đảo ngược: người xây dựng sẽ có động lực kinh tế rõ ràng để thiết kế hệ thống phân cấp trách nhiệm, kiểm tra lại, và cơ chế phê duyệt, làm cho chi phí ký tên các quyết định rủi ro thấp hơn, còn các quyết định rủi ro cao hơn sẽ tốn kém hơn. Lược đồ này không biến mất, mà chỉ thay đổi hướng đi. Và cho đến nay, chưa có phòng thí nghiệm nào thực hành điều này một cách rõ ràng, kể cả những nơi nhận thức rõ vấn đề nhất.

Nếu bạn xây dựng Agent, bạn phải chịu trách nhiệm

Nếu một Agent có mục đích rõ ràng là thay thế con người thực hiện các hành động ban đầu do con người làm, thì công ty xây dựng và vận hành Agent đó cũng phải chịu trách nhiệm như con người. Nguyên tắc này không quá đột phá, vì nó đã áp dụng cho hầu hết các ngành “gây ra hành vi trong thế giới thực”: Toyota chịu trách nhiệm về phanh, Boeing về hệ thống điều khiển bay, Pfizer về thuốc, kỹ sư cầu đường về cầu, bác sĩ về đơn thuốc. Mô hình trách nhiệm này gần như đã tồn tại trong tất cả hệ thống pháp luật.

Tuy nhiên, AI hiện tại vẫn còn hưởng một dạng “miễn trách ẩn”, khi các nhà cung cấp mô hình tuyên bố chỉ là nhà cung cấp công cụ; các công ty ứng dụng phía trên chỉ là lớp đóng gói mỏng của mô hình; còn người dùng từ đầu đã từ bỏ trách nhiệm qua các điều khoản trọng tài. Khi hệ thống Agent gặp lỗi chuỗi (như vụ chatbot của Air Canada, vụ Replit xóa dữ liệu sản xuất, hoặc vụ Knight Capital mất 440 triệu USD trong 45 phút năm 2012), thì cuối cùng, người gánh chịu thiệt hại thường là bên ít khả năng chịu đựng nhất — người dùng. Cách phân bổ trách nhiệm này sẽ không còn tồn tại khi xảy ra các sự cố lớn có giá trị, có tài liệu rõ ràng.

Giải pháp đơn giản là: ai xây dựng Agent, và hưởng lợi từ tính tự chủ của nó, thì người đó phải chịu hậu quả khi nó mất kiểm soát. Một khi trách nhiệm thực sự thuộc về người xây dựng, các cảnh báo quyền hạn sẽ không còn là “rào cản”, mà trở thành “bảo hiểm”. Cái “công tắc nguy hiểm” sẽ được đổi tên, và thiết lập mặc định sẽ thay đổi theo.

Bạn có sẵn lòng chịu trách nhiệm cho hệ thống của mình không?

Đây là một lựa chọn thiết kế quyết định bạn xây dựng cái gì. Hiện nay, mỗi nhà sáng lập ra Agent đều phải trả lời một câu hỏi mà có vẻ họ không muốn đối mặt: Bạn đang xây dựng để tăng cường, hay để thay thế?


Hy vọng bản dịch này phù hợp với yêu cầu của bạn!

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim