
2025年被譽為人工智慧代理系統元年,部分原因是到2024年底,這些工具在電腦程式設計方面已經展現出無可爭議的精湛技藝。 OpenAI的Codex代理商在5月份的一次演示中,展示了一位用戶要求該工具修改其個人網站,用戶寫:「在『投資/工具』旁邊加上一個名為『我喜歡的食物』的標籤頁。文件裡寫上——墨西哥捲餅。」;聊天機器人迅速執行了一系列相互關聯的操作:它檢查了網站目錄中的文件,查看了一個有希望的文件的內容,然後使用搜尋命令找到了插入新程式碼行的正確位置。在了解了網站的結構之後,該代理商利用這些資訊成功地添加了一個包含墨西哥捲餅的新頁面。身為一名電腦科學家,我必須承認,Codex處理這項任務的方式與我處理的方式大致相同;矽谷逐漸相信,其他難題很快就會被攻克。
然而,隨著2025年接近尾聲,通用人工智慧代理的時代仍未到來。今年秋天,OpenAI聯合創始人安德烈·卡帕西(Andrej Karpathy)離開了公司,並投身於人工智慧教育計畫;他形容人工智慧代理「認知能力不足」,並表示「它根本行不通」。長期以來對科技業炒作持批評態度的加里·馬庫斯(Gary Marcus)最近在他的Substack博客上寫道:「到目前為止,人工智能代理大多都失敗了」。預測與現實之間的這種差距至關重要;流暢的聊天機器人和能夠扭曲現實的視訊生成器固然令人印象深刻,但它們本身並不能引領我們進入一個機器接管我們許多活動的世界。如果主要的人工智慧公司無法提供廣泛適用的人工智慧代理,那麼它們或許無法兌現其關於人工智慧驅動未來的承諾。
「人工智慧代理」這個詞容易讓人聯想到《駭客任務》或《碟中諜4:最終清算》中那種功能強大的新技術;但實際上,代理商並非某種客製化的數位大腦;相反,它們是由與聊天機器人相同的大型語言模型所驅動。當你讓代理人完成某項任務時,控製程式(一個協調代理行動的簡單應用程式)會將你的請求轉化為大型語言模型的提示。它會詢問:這是我想要完成的任務,這是可用的工具,我該先做什麼?然後,控製程式會嘗試執行語言模型建議的任何操作,並將結果告知語言模型,並詢問:接下來我該做什麼?這個循環會一直持續,直到大型語言模型認為任務完成為止。
這種設定非常適合自動化軟體開發。創建或修改電腦程式所需的大部分操作都可以透過在基於文字的終端機中輸入一組有限的命令來實現。這些命令指示電腦瀏覽檔案系統、在原始檔案中新增或更新文本,並在需要時將人類可讀的程式碼編譯成機器可讀的二進位檔案。這對於語言模型(LLM)來說是一個理想的環境。 「終端介面是基於文字的,而語言模型正是基於文字領域,」用於評估編碼代理的熱門工具 Terminal-Bench 的聯合創始人 Alex Shaw 告訴我。
較通用的助手,例如 Altman 所設想的那種,則需要代理離開舒適的終端環境。由於我們大多數人都是透過點擊滑鼠來完成電腦任務的,因此能夠「加入勞動力市場」的人工智慧可能需要知道如何使用滑鼠——這是一個出乎意料的困難目標。 《泰晤士報》近期報導了一系列正在建立「影子網站」的新興創業公司——這些網站是熱門網頁(例如美國聯合航空公司和Gmail的網站)的複製品,人工智慧可以在這些網站上分析人類如何使用遊標。今年7月,OpenAI發布了ChatGPT Agent,這是一個早期版本的機器人,它可以使用網頁瀏覽器完成任務。但有評論指出,「即使是點擊、選擇元素和搜尋等簡單的操作,也可能需要機器人花費幾秒鐘甚至幾分鐘的時間。」有一次,該工具在嘗試從房地產網站的下拉式選單中選擇價格時,卡住了將近15分鐘。
還有另一種方法可以提高人工智慧代理的能力:讓人工智慧更容易掌握現有工具。一項開源專案旨在開發所謂的模型上下文協定(Model Context Protocol),這是一種標準化的接口,允許代理使用基於文字的請求存取軟體。另一項是谷歌去年春天推出的Agent2Agent協議,該協議設想了一個代理之間直接互動的世界。我的個人人工智慧…如果可以委託專門的人工智慧(或許由飯店公司自行訓練)代為瀏覽飯店預訂網站,那麼就無需親自使用該網站了。當然,要重建一個能夠相容於機器人的網路基礎設施,還需要時間。 (多年來,開發者一直在積極嘗試阻止機器人幹擾網站。)即便技術人員能夠完成這個項目,或者說成功掌握了滑鼠操作,他們還將面臨另一個挑戰:支撐其代理決策的邏輯機器學習(LLM)的缺陷。
在一段宣布 ChatGPT Agent 首次亮相的影片中,奧特曼和一群 OpenAI 的工程師示範了它的幾項功能。其中一個演示是,它產生了一張地圖,表面上顯示的是北美所有 30 個美國職棒大聯盟球場的參觀路線。奇怪的是,路線竟然包含了墨西哥灣中央的一站。人們或許會認為這只是個別現象,但對矽谷評論家馬庫斯來說,這類錯誤凸顯了一個更根本的問題。他告訴我,語言模型對「世界如何運作」的理解不足,無法可靠地處理開放式任務。即使是像規劃行程這樣簡單的場景,他也指出,「你仍然需要思考時間,仍然需要思考地點」——這些都是人類的基本能力,而語言模型卻難以勝任。 “他們是在笨拙的工具之上構建笨拙的工具,”他說。
其他評論員也警告說,智能體會放大錯誤。正如聊天機器人用戶很快就會發現的那樣,機器學習(LLM)傾向於編造資訊;一項流行的基準測試顯示,OpenAI 的尖端模型 GPT-5 的各種版本都存在約 10% 的「幻覺」率。對於處理多步驟任務的智能體而言,這些時有發生的錯誤可能會造成災難性的後果:只需一步失誤,整個任務就會偏離軌道。 《商業內幕》在今年春天曾警告說:“別對人工智慧代理抱有過高的期望,它們會犯很多錯誤。”
為了更好地理解機器學習的大腦是如何出錯的,我讓 ChatGPT 示範如果它為飯店預訂代理商提供支援會遵循的流程。它描述了一個包含18個步驟和子步驟的序列:選擇預訂網站、對搜尋結果應用篩選條件、輸入信用卡資訊、向我發送預訂摘要等等;該模型能夠如此細緻地分解這些操作,給我留下了深刻的印象。 (除非你看到它們被列出來,否則很容易低估完成這樣一項常見任務所需的細小步驟。)但我也能預見到我們假設的智能體可能會在某些方面出錯。
例如,子步驟 4.4 要求智能體使用以下公式對房間進行排名:α(位置得分) + β(評分得分) − γ(價格懲罰) + δ(忠誠度獎勵)。在這種情況下,這樣做是正確的,但邏輯學習模型 (LLM) 令人擔憂地忽略了細節。它將如何計算這些懲罰值和獎勵值?又將如何選擇權重(用希臘字母表示)來平衡它們?人類大概會透過反覆試驗和常識來手動調整這些細節,但誰知道邏輯學習模型會自行做出什麼決定呢?而且,即使是小錯誤也會造成嚴重後果:如果過度強調價格懲罰之類的因素,你最終可能會入住城裡最破舊的酒店之一。
幾週前,奧特曼在一份內部備忘錄中宣布,人工智慧代理的開發是OpenAI將要減少投入的項目之一,因為該公司希望專注於改進其核心聊天機器人產品。去年這個時候,像奧特曼這樣的領導者也說我們彷彿已經衝破了科技懸崖,正混亂地朝著自動化勞動力時代跌落。如今看來,這種急切的情緒顯得有些輕率。最近,為了調整我對人工智慧的預期,我一直在思考去年十月對OpenAI聯合創始人卡帕西的一次播客採訪。採訪者德瓦克什·帕特爾問他,為什麼「代理之年」未能實現。 卡帕西回答說:「在我看來,將這十年更準確地描述為人工智慧代理的十年才更貼切」。
全文摘自 The New Yoker Why A.I. Didn’t Transform Our Lives in 2025 by Cal Newport



