Gate 廣場“新星計劃”正式上線!
開啟加密創作之旅,瓜分月度 $10,000 獎勵!
參與資格:從未在 Gate 廣場發帖,或連續 7 天未發帖的創作者
立即報名:https://www.gate.com/questionnaire/7396
您將獲得:
💰 1,000 USDT 月度創作獎池 + 首帖 $50 倉位體驗券
🔥 半月度「爆款王」:Gate 50U 精美周邊
⭐ 月度前 10「新星英雄榜」+ 粉絲達標榜單 + 精選帖曝光扶持
加入 Gate 廣場,贏獎勵 ,拿流量,建立個人影響力!
詳情:https://www.gate.com/announcements/article/49672
在你睡覺時讓AI代理幫你工作聽起來很棒。但現實遠比想像中複雜——‘就像一個需要監督的幼兒’
夏爾·岳(Summer Yue)可能在Meta的超智能團隊從事安全與對齊工作,但即使她也承認,在自主AI代理方面,她並非免疫於過度自信。
推薦影片
在星期一的X(前Twitter)貼文中,岳描述了她的OpenClaw自主AI代理——在Mac mini電腦上本地運行——刪除了她整個收件箱,卻忽略了先前的暫停指令和確認請求。
“我不得不像在拆彈一樣跑向我的Mac Mini,”她說。她補充說,這是一個“新手錯誤”。她解釋說,這個工作流程在她用來安全測試代理的測試收件箱中已經運行了數週,但在實際收件箱中,代理丟失了她的原始指令。
岳的經歷與像《龍蝦革命:為何24/7 AI代理徹底改變了一切》這樣的病毒貼文形成鮮明對比,貼文中彼得·迪亞曼迪斯(Peter Diamandis)聲稱全天候運作的AI更加順暢。
“讓我告訴你使用這個的感覺,”迪亞曼迪斯寫道。“你早上醒來,你的代理——我叫它Skippy,充滿幽默感、諷刺且能力驚人——在你睡覺時已經工作了八個小時。它讀了千頁的Markdown文件。它整理了你的檔案。它起草了三個專案計畫。它預訂了你的行程。它研究了你在晚上11點提出的問題,然後忘記了。”
“當我的Mac mini離線六個小時時,我感受到戒斷反應,”他補充說。“就像我最好的朋友突然消失了一樣。”
這兩個關於AI代理能力的對立敘述,捕捉了當前推動“全天候”AI的核心張力。隨著OpenClaw和Claude Code等工具使代理長時間運行在技術上成為可能,對於能在你睡覺時工作的AI的興奮情緒日益高漲。但實際上,早期用戶表示,自主性仍然脆弱、不可預測,且管理起來勞心費力。今天的代理並非取代人類工作,而是經常需要持續監控、設置護欄和干預,尤其當風險超出低風險實驗範圍時。
AI代理在任務簡單且低風險時效果最佳
曾在OpenAI擔任應用AI工程師的Shyamal Anadkat表示,當今大多數成功的代理仍然需要頻繁的人類檢查,或僅限於緊密界定、明確的任務——儘管他強調,隨著測量和評估技術的改進,這種情況將會改變。
“在單步操作中達到95%準確率的系統,在20步的自主工作流程中就會變得混亂,”Anadkat說。“長期規劃仍然較弱。”因此,他解釋說,代理在短鏈任務中可能表現良好,但在管理複雜、多日的項目時往往會崩潰。記憶也是一個主要限制:“在許多代理中,記憶要么不存在,要么脆弱。你需要能夠維持工作背景、優先級和限制的連貫模型的系統。”
這並不代表AI代理的承諾全是空談或幻覺,谷歌前首席科學家、斯坦福榮譽教授兼AI21 Labs聯合創始人Yoav Shoham表示。但這確實存在人們過度樂觀的危險。他解釋說,當任務風險較低、定義模糊且錯誤成本較低時,當前的AI代理效果最佳。
“開發者喜歡玩具,你有這個能做奇妙事情的玩具,”他告訴《財富》。“只要他們做的事情相當簡單、風險較低、容錯率高,這就沒問題。”例如,如果你希望你的代理閱讀一萬個網站,並用結果做一些有趣的事情,幫你在夜間獲取有用的資訊片段。
但對於關鍵企業流程,門檻就高得多。公司需要可驗證、可重複且成本效益高的系統——這些要求很快就會侵蝕“設置好就走”的全自主、全天候代理的承諾。在像編碼或數學這樣的高度結構化領域,深層自動化已經成為可能。但對於大多數現實商業流程,Shoham表示,使代理可靠所需的工作往往超過其帶來的好處。
諮詢公司West Monroe的首席AI官Bret Greenstein指出,像OpenClaw這樣的工具感覺像是類似於2022年ChatGPT推出時的生成式AI的轉折點——首次讓AI代理的概念變得觸手可及。不過,這並不是一個24/7的“魔法解決方案”。
“它可以長時間運作,持續處理任務,但就像一個需要監督的幼兒,”他說。有些任務在你睡覺時做是合理的,比如掃描LinkedIn訊息或追蹤新聞。“我不確定我會讓它在我睡覺時回應客戶反饋,”他說。
委派給AI代理的能力令人感覺強大
儘管如此,Greenstein強調,將現實任務委派給AI代理的能力,對用戶來說是非常具有吸引力的。他提到自己曾讓AI代理處理一個瑣碎的任務——把衣服送去乾洗——並看著它安靜地完成了整個流程。
代理自主聯繫乾洗店,通過電子郵件安排取件,協調時間,監控門鈴攝像頭確認取件,並在任務完成後通知Greenstein。這個過程展示了代理可以跨多個系統運作,並在事情不如預期時進行調整。但同時也凸顯了這類工具仍需嚴格的護欄和監督——尤其是在部署到企業環境之前。
“OpenClaw的設置讓大多數人都不會覺得它很安全,”Greenstein說。“它還不夠成熟,不能成為我們生活中可信賴的一部分。”他補充說,讓AI被日常生活或商業運作接受,必須隨著時間建立信任——就像社會中建立信任一樣。
儘管如此,需求已經很明顯。Greenstein指出,針對OpenClaw的聚會和早期行業聚會的出現,這種快速崛起在如此年輕的工具中是罕見的。“這顯示人們對真正有用的AI的渴望,”他說——超越回答問題,開始採取行動的系統。
雲端內容管理與協作公司Box的CEO Aaron Levie稱,當前AI代理的發展是“未來可能發生的事情的微光”。
“有些微光最終未能實現,有些微光則成為標準,”他解釋,並提到兩年前AI公司Cognition推出的早期代理Devin,能與Slack整合進行任務委派、錯誤修復、數據分析和代碼審查。當時,這仍被視為未來科技,但今天,“沒有人會懷疑這已成為標準做法,”他說。“你可以直接用Slack發送Claude Code去處理事情——曾經看起來完全瘋狂的想法,現在已經成為任何現代工程團隊的標準。”
但Levies強調,雖然AI代理在自動化特定、離散的任務方面變得非常擅長,但在處理大多數工作所需的更廣泛、依賴上下文的任務時仍然表現不佳。AI代理可能完全自動化少數幾個任務,但在其他方面卻很吃力——包括人際關係的管理和會議參與。
“當你聽到一個AI實驗室說他們打算在24個月內自動化所有知識工作,這通常是對工作的非常狹隘定義,”他說。“代理能做的事情與經濟中招聘的工作的定義並不完全一致。”
信任因素在出錯時尤為重要
頂級財富500強零售商的數據科學家Avinash Vootkuri表示,大多數企業AI代理“絕對需要看護者”,目前只能在嚴格界定自主範圍和有大量護欄的企業環境中運作。“風險非常大,”他解釋。
例如,他描述了一個企業網絡安全的代理系統,AI代理不僅觸發警報等待人類審查,而是積極調查這些警報。代理不會淹沒分析師於數千個警告中,而是實時收集證據——查詢威脅情報數據庫、分析行為模式、篩選假陽性——然後決定是否升級。
這個系統依賴嚴格界定的自主範圍和大量護欄,減輕人力負擔,同時保持監督。
他指出,在網絡安全中,一旦代理判斷錯誤,後果就非常嚴重。“AI要么阻擋合法客戶(導致巨額收入損失),要么讓高級威脅者進入網絡,”他說。“出錯的後果絕對重要。”
根據AI運營顧問公司Breanna Whitehead的說法,行業目前正處於“信任校準階段”。
“AI代理能做的事情比大多數人想像的多,但又比炒作所說的少。”
“真正的技巧不在於建立代理——而在於設計交接點,”她解釋。“大多數人要么過度信任代理,結果收拾爛攤子,要么微觀管理每個輸出,卻覺得AI反而變成了更多工作而非更少。”她認為,應該設計明確的交接點,比如某些任務可以完全委派,某些任務可以快速審核,而另一些則留給人類處理。
目前,她認為代理在“中層知識工作”中“真正出色”——“那些曾經佔用一個聰明人2-3小時的事情,比如將會議記錄整理成行動項目、用某人的語氣起草跟進郵件、整理研究簡報、將不同優先級組織成明確計畫。”
但任何需要“讀房”、處理模糊性或依賴人際關係做判斷的工作,暫時都不適合由AI代理來處理。“我有個客戶想要完全自動化他們的投資者溝通,”她說。“AI可以起草得很漂亮,但它無法察覺資金方何時失去興趣或需要不同的策略。代理起草了郵件,但是否發送還得由人來決定。”
目前,與AI代理合作可能讓你難以入眠
目前,與AI代理合作可能與“睡覺時它們工作”沒有太大關係,而是“半醒著”地監控它們的運作。像OpenClaw這樣的工具可以連續運行數小時,但對許多早期用戶來說,這種自主性伴隨著一種新的警覺——檢查日誌、審核輸出、在出錯前介入。
這一情況在一篇近期病毒貼文《Token Anxiety》中被描述,投資者Nikunj Kothari講述了一個朋友提前離開派對的故事——不是因為累了,而是因為他想回去看他的代理。“沒有人再質疑這件事了,”Kothari寫道。“一半的人都在想同樣的事。另一半可能在查看他們代理的進展。就在派對上。”
AI能在你睡覺時工作的夢想或許是真的,但目前,這仍讓許多人難以入眠。
加入我們,參加2026年5月19-20日在亞特蘭大的《財富》職場創新峰會。下一個職場創新時代已經到來——舊的玩法正在被重新書寫。在這個獨家且充滿活力的盛會中,全球最具創新精神的領袖將聚集一堂,探討AI、人性與策略如何再次融合,重新定義未來的工作。立即報名。