Các đại lý AI làm công việc của bạn trong khi bạn ngủ nghe có vẻ tuyệt vời. Thực tế thì còn phức tạp hơn nhiều—‘nó giống như một đứa trẻ mới biết đi cần được giám sát’

Summer Yue có thể làm việc về an toàn và sự phù hợp trên đội ngũ siêu trí tuệ của Meta, nhưng chính cô cũng thừa nhận rằng cô không miễn nhiễm với sự quá tự tin khi nói đến các tác nhân AI tự hành.

Video đề xuất


Trong một bài đăng trên X vào thứ Hai, Yue mô tả cách các tác nhân AI tự hành của OpenClaw—được xây dựng để chạy cục bộ trên máy Mac mini—đã xóa toàn bộ hộp thư đến của cô, bỏ qua các hướng dẫn tạm dừng và hỏi xác nhận trước.

“Tôi phải CHẠY đến Mac Mini của mình như thể đang tháo bom,” cô nói. Đó, cô thêm vào, là một “sai lầm của người mới”. Quy trình làm việc đã hoạt động trong một hộp thư thử nghiệm mà cô dùng để thử nghiệm an toàn tác nhân trong nhiều tuần, nhưng trong hộp thư thực, tác nhân đã mất đi hướng dẫn ban đầu của cô.

Kinh nghiệm của Yue nổi bật rõ ràng so với các bài đăng lan truyền như Cách mạng Tôm Hùm: Tại sao các tác nhân AI 24/7 vừa thay đổi mọi thứ, trong đó Peter Diamandis khẳng định AI luôn bật là ít trở ngại hơn nhiều.

“Để tôi kể bạn cảm giác sử dụng cái này như thế nào,” Diamandis viết. “Bạn thức dậy vào buổi sáng và tác nhân của bạn—tôi đặt tên là Skippy, vui vẻ mỉa mai và vô cùng khả năng—đã làm tám giờ công việc trong khi bạn ngủ. Nó đã đọc một nghìn trang markdown. Nó tổ chức các tệp của bạn. Nó soạn thảo ba kế hoạch dự án. Nó đặt chỗ cho chuyến đi của bạn. Nó nghiên cứu câu hỏi bạn đặt lúc 11 giờ đêm và quên mất.”

“Khi Mac mini của tôi mất mạng trong sáu giờ, tôi cảm thấy bị cai nghiện,” ông nói thêm. “Như thể người bạn thân nhất của tôi biến mất.”

Cùng nhau, những câu chuyện đối lập về sức mạnh của các tác nhân AI này thể hiện rõ sự căng thẳng nằm ở trung tâm của xu hướng “luôn bật” AI ngày nay. Khi các công cụ như OpenClaw và Claude Code làm cho việc các tác nhân có thể hoạt động lâu dài về mặt kỹ thuật, sự phấn khích ngày càng tăng về ý tưởng AI hoạt động khi bạn ngủ. Nhưng thực tế, những người dùng sớm cho biết, tính tự chủ vẫn còn mong manh, khó dự đoán và tốn công quản lý. Thay vì thay thế công việc của con người, các tác nhân ngày nay thường đòi hỏi giám sát liên tục, các giới hạn an toàn và can thiệp, đặc biệt khi các rủi ro vượt quá các thử nghiệm ít rủi ro.

Các tác nhân AI hoạt động tốt nhất khi nhiệm vụ đơn giản và ít rủi ro

Shyamal Anadkat, người từng làm kỹ sư AI ứng dụng tại OpenAI, cho biết hầu hết các tác nhân thành công ngày nay vẫn cần kiểm tra thường xuyên của con người hoặc giới hạn trong các nhiệm vụ chặt chẽ, rõ ràng—mặc dù ông nhấn mạnh rằng điều này sẽ thay đổi khi các kỹ thuật đo lường và đánh giá được cải thiện.

“Một hệ thống chính xác 95% ở các bước riêng lẻ trở nên hỗn loạn trong một quy trình tự hành gồm 20 bước,” Anadkat nói. “Lập kế hoạch dài hạn vẫn còn yếu.” Do đó, ông giải thích, các tác nhân có thể hoạt động tốt trong các chuỗi nhiệm vụ ngắn nhưng thường gặp vấn đề khi phải quản lý các dự án phức tạp, nhiều ngày. Bộ nhớ cũng là một hạn chế lớn: “Trong nhiều tác nhân, bộ nhớ không tồn tại hoặc rất yếu. Bạn cần các hệ thống có thể duy trì một mô hình nhất quán về bối cảnh công việc, ưu tiên và giới hạn của bạn.”

Điều đó không có nghĩa là lời hứa về các tác nhân AI là tất cả ảo tưởng, theo Yoav Shoham, cựu nhà khoa học chính tại Google, giáo sư danh dự tại Stanford và đồng sáng lập AI21 Labs. Nhưng nó cũng đồng nghĩa với việc có nguy cơ mọi người quá tự tin. Các tác nhân AI ngày nay, ông giải thích, hoạt động tốt nhất khi nhiệm vụ có rủi ro thấp, định nghĩa lỏng lẻo và dễ sai sót.

“Các nhà phát triển thích đồ chơi, và bạn có một món đồ chơi có thể làm những điều tuyệt vời,” ông nói với Fortune. “Miễn là những gì họ làm khá đơn giản và rủi ro thấp, với khả năng sai sót cao, thì điều đó ổn.” Ví dụ, nếu bạn muốn tác nhân của mình đọc 10.000 trang web và làm điều gì đó thú vị với kết quả để cung cấp cho bạn những mẩu thông tin qua đêm có thể hữu ích.

Nhưng đối với các quy trình doanh nghiệp quan trọng, tiêu chuẩn cao hơn nhiều. Các công ty cần các hệ thống có thể xác minh, lặp lại và tiết kiệm chi phí—những yêu cầu này nhanh chóng làm giảm đi lời hứa “cài đặt và quên đi” của các tác nhân hoàn toàn tự động, luôn bật. Trong các lĩnh vực có cấu trúc cao như lập trình hoặc toán học, tự động hóa sâu đã khả thi. Nhưng đối với hầu hết các quy trình kinh doanh thực tế, Shoham nói, công việc cần để làm cho các tác nhân đáng tin cậy thường vượt quá lợi ích.

Bret Greenstein, giám đốc AI của công ty tư vấn West Monroe, chỉ ra rằng các công cụ như OpenClaw giống như một điểm chuyển tiếp tương tự như sự xuất hiện của AI tạo sinh khi ChatGPT ra mắt năm 2022—lần đầu tiên, nó đã làm cho ý tưởng về các tác nhân AI trở nên dễ tiếp cận. Tuy nhiên, đó không phải là một giải pháp “ma thuật” 24/7.

“Nó có thể hoạt động lâu dài, làm việc liên tục, nhưng giống như một đứa trẻ cần được giám sát,” ông nói. Một số nhiệm vụ hợp lý để làm khi bạn đang ngủ, như quét tin nhắn LinkedIn hoặc theo dõi tin tức. “Tôi không chắc mình muốn nó trả lời phản hồi khách hàng trong khi tôi ngủ,” ông nói.

Khả năng ủy thác cho tác nhân AI cảm thấy mạnh mẽ

Tuy nhiên, không còn nghi ngờ gì nữa, khả năng ủy thác các nhiệm vụ thực tế cho tác nhân AI là rất hấp dẫn đối với người dùng, Greenstein nhấn mạnh. Ông kể lại trải nghiệm của chính mình khi giao cho một tác nhân AI nhiệm vụ đơn giản là lấy quần áo đi giặt và chứng kiến nó hoàn thành công việc từ đầu đến cuối một cách lặng lẽ.

Tác nhân tự liên hệ với tiệm giặt, sắp xếp logistics lấy đồ qua email, phối hợp thời gian, theo dõi camera cửa để xác nhận việc lấy đồ, và thông báo cho Greenstein khi xong việc. Tập hợp này cho thấy các tác nhân có thể hoạt động qua nhiều hệ thống và thích nghi khi mọi việc không diễn ra như kế hoạch. Nhưng nó cũng nhấn mạnh lý do tại sao các công cụ như vậy vẫn cần các giới hạn nghiêm ngặt và giám sát—đặc biệt trước khi chúng được triển khai trong môi trường doanh nghiệp.

“OpenClaw được thiết lập sao cho hầu hết mọi người không cảm thấy an toàn,” Greenstein nói. “Nó chưa đủ trưởng thành để trở thành một phần đáng tin cậy trong cuộc sống của chúng ta.” Để AI được chào đón vào đời sống hàng ngày hoặc hoạt động kinh doanh, ông nói, nó phải xây dựng lòng tin theo thời gian—giống như cách lòng tin được thiết lập trong xã hội.

Dù vậy, nhu cầu đã rõ ràng. Greenstein chỉ ra các buổi gặp mặt và các sự kiện ngành sớm dành riêng cho OpenClaw, một sự xuất hiện nhanh chóng mà ông mô tả là bất thường đối với một công cụ còn rất trẻ. “Nó thể hiện sự đói khát của mọi người đối với AI thực sự hữu ích,” ông nói—các hệ thống vượt ra ngoài việc trả lời câu hỏi và bắt đầu hành động.

Aaron Levie, CEO của công ty quản lý nội dung và hợp tác dựa trên đám mây Box, gọi những gì đang xảy ra với các tác nhân AI là “những tia sáng nhỏ” của những gì có thể xảy ra trong tương lai.

“Một số tia sáng không thành hiện thực, một số tia sáng chỉ trở thành tiêu chuẩn,” ông giải thích, chỉ về hai năm trước khi công ty AI Cognition giới thiệu một tác nhân sớm tên Devin, có thể tích hợp với Slack để phân công nhiệm vụ, sửa lỗi, phân tích dữ liệu và xem xét mã nguồn. Lúc đó, nó vẫn còn mang tính viễn tưởng, nhưng ngày nay, “không ai còn nhầm lẫn rằng đây là một thực hành tiêu chuẩn,” ông nói. “Bạn chỉ cần Slack Claude Code để làm việc—ý tưởng ban đầu có vẻ điên rồ nay đã trở thành tiêu chuẩn của bất kỳ đội kỹ thuật hiện đại nào.”

Nhưng trong khi các tác nhân AI ngày càng giỏi trong việc tự động hóa các nhiệm vụ cụ thể, riêng biệt, chúng vẫn kém trong việc xử lý các công việc rộng hơn, đòi hỏi nhiều ngữ cảnh, mà phần lớn các công việc đều bao gồm, Levie nhấn mạnh. Các tác nhân AI có thể tự động hoàn toàn một số nhiệm vụ, nhưng gặp khó khăn với phần còn lại—bao gồm cả việc điều hướng các mối quan hệ và tham gia các cuộc họp.

“Khi bạn nghe một phòng lab AI nói rằng chúng sẽ tự động hóa toàn bộ công việc tri thức trong 24 tháng, đó thường là một định nghĩa rất hẹp về công việc,” ông nói. “Định nghĩa về những gì một tác nhân có thể làm không phải là định nghĩa về công việc mà người ta tuyển dụng trong nền kinh tế.”

Yếu tố lòng tin quan trọng khi mọi thứ có thể xảy ra sai sót

Avinash Vootkuri, nhà khoa học dữ liệu cấp cao tại một nhà bán lẻ Fortune 500 hàng đầu, nói rằng hầu hết các tác nhân AI doanh nghiệp “hoàn toàn cần một người trông coi” và, hiện tại, chỉ có thể hoạt động trong các môi trường doanh nghiệp với tự chủ chặt chẽ và các giới hạn nghiêm ngặt. “Rủi ro rất lớn,” ông giải thích.

Ví dụ, ông mô tả việc xây dựng một hệ thống tác nhân cho an ninh mạng doanh nghiệp, nơi các tác nhân AI không chỉ kích hoạt cảnh báo và chờ đợi sự xem xét của con người, mà còn chủ động điều tra chúng. Thay vì làm quá tải các nhà phân tích với hàng nghìn cảnh báo, các tác nhân thu thập chứng cứ theo thời gian thực—truy vấn các cơ sở dữ liệu tình báo mối đe dọa, phân tích các mẫu hành vi, lọc các cảnh báo sai—trước khi quyết định xem tình huống có cần nâng cấp hay không.

Hệ thống dựa trên tự chủ chặt chẽ và các giới hạn nghiêm ngặt này giảm tải công việc cho con người mà không loại bỏ sự giám sát.

Trong an ninh mạng, ông giải thích, nếu tác nhân sai sót, hậu quả sẽ ngay lập tức và nghiêm trọng. “AI có thể chặn khách hàng hợp pháp (gây thiệt hại lớn về doanh thu) hoặc để một kẻ đe dọa tinh vi xâm nhập vào mạng,” ông nói. “Việc mọi thứ có thể sai sót hoàn toàn quan trọng.”

Theo Breanna Whitehead, người điều hành một công ty tư vấn vận hành AI, nơi bà xây dựng các hệ thống dựa trên AI cho các giám đốc điều hành và nhà sáng lập, ngành công nghiệp này đang trong “giai đoạn điều chỉnh lòng tin.”

Các tác nhân AI có thể làm nhiều hơn phần lớn mọi người nghĩ, nhưng ít hơn những gì lời đồn đại đề xuất.

“Kỹ năng thực sự không phải là xây dựng tác nhân—mà là thiết kế điểm chuyển giao,” bà giải thích. “Hầu hết mọi người hoặc quá tin tưởng vào tác nhân và cuối cùng phải dọn dẹp hậu quả, hoặc họ quản lý quá chặt từng kết quả và tự hỏi tại sao AI lại cảm thấy như nhiều công việc hơn là ít. Ý tưởng là thiết kế các điểm chuyển giao rõ ràng, nơi một nhiệm vụ có thể được ủy thác hoàn toàn, nhiệm vụ khác có thể được xem xét nhanh, còn nhiệm vụ nữa thì để con người làm.”

Hiện tại, bà nói, các tác nhân “thực sự xuất sắc” trong lớp trung gian của công việc tri thức—“những thứ từng chiếm 2-3 giờ của một người thông minh, như tổng hợp ghi chú cuộc họp thành các mục hành động, soạn email theo phong cách của ai đó, tổng hợp các bản nghiên cứu, tổ chức các ưu tiên cạnh tranh thành một kế hoạch rõ ràng.”

Nhưng bất kỳ nhiệm vụ nào đòi hỏi đọc hiểu tình huống, điều hướng sự mơ hồ hoặc đưa ra các quyết định dựa trên các mối quan hệ đều chưa sẵn sàng để AI đảm nhận. “Tôi có một khách hàng muốn tự động hoàn toàn các liên lạc với nhà đầu tư,” bà nói. “AI có thể soạn thảo rất đẹp, nhưng không thể cảm nhận khi nhà đầu tư mất hứng thú và cần một cách tiếp cận khác. Tác nhân soạn email, nhưng người vẫn phải quyết định có gửi hay không.”

Hiện tại, làm việc với các tác nhân AI có thể khiến bạn khó ngủ hơn

Hiện tại, làm việc với các tác nhân AI có thể ít liên quan đến việc ngủ trong khi chúng làm việc hơn là giữ trạng thái nửa tỉnh nửa mê khi chúng hoạt động. Các công cụ như OpenClaw có thể chạy hàng giờ liên tục, nhưng đối với nhiều người dùng sớm, tính tự chủ này đi kèm với một loại cảnh giác mới—kiểm tra nhật ký, xem xét kết quả, và can thiệp trước khi mọi việc trở nên tồi tệ.

Điều này được thể hiện rõ trong một bài đăng lan truyền gần đây có tiêu đề Token Anxiety, trong đó nhà đầu tư Nikunj Kothari mô tả một người bạn rời tiệc sớm—không phải vì mệt, mà vì muốn quay lại với các tác nhân của mình. “Không ai còn đặt câu hỏi nữa,” Kothari viết. “Nửa phòng đang nghĩ như vậy. Nửa còn lại có lẽ đang kiểm tra tiến trình của các tác nhân của họ. Trong một bữa tiệc.”

Giấc mơ về AI hoạt động khi bạn ngủ có thể là có thật. Nhưng hiện tại, nó vẫn khiến nhiều người thức trắng đêm.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
0/400
Không có bình luận
  • Ghim