AI 智能代理:挑戰與展望
本次研討會的主題是「工作中的智能代理」,講者將探討目前智能代理在實際應用中遇到的問題,以及如何透過 AI 工程的改進來提升其效能。 儘管各界對智能代理抱持高度興趣,無論是產品開發、產業應用,還是學術研究,但目前智能代理的發展仍面臨許多挑戰。
智能代理的定義與現況
講者認為,即使許多人認為大型語言模型(LLM)如 ChatGPT 和 Claude 僅是模型,但它們在某種程度上也具備智能代理的雛形。 這些工具擁有輸入和輸出過濾器,能夠執行特定任務並調用其他工具。 因此,智能代理實際上已廣泛應用且取得一定程度的成功。 市面上也出現了許多主流產品,例如 OpenAI Operator 能夠在網路上執行開放式任務,而 DeepMind 的研究工具則能在任何主題上撰寫長達 30 分鐘的報告。
智能代理的挑戰
雖然智能代理的應用前景廣闊,但目前仍存在許多挑戰,導致其雄心勃勃的願景難以實現。 講者指出,目前許多智能代理產品在現實世界中的表現不如預期,並非要批評這些產品,而是為了激勵大家共同思考如何打造真正能為使用者服務的智能代理。
講者將探討智能代理目前無法有效運作的三個主要原因,以及如何克服這些障礙,實現智能代理的潛力:
-
評估智能代理的困難性:
-
要準確評估智能代理的效能非常困難。
-
許多公司在實際應用智能代理時都遭遇了失敗。
-
例如,DoNotPay 是一家聲稱能自動處理律師所有工作的美國新創公司,但最終因誇大效能而被 FTC 處以罰款。
-
即使是像 LexisNexis 和 Westlaw 這樣的大型法律科技公司,其產品也被發現存在產生法律幻覺的問題。
-
此外,Sakana AI 聲稱已開發出一種能完全自動化開放式科學研究的 AI 研究員,但實際測試結果顯示,即使是簡化後的任務,頂尖的智能代理也無法可靠地完成。
-
靜態基準測試的誤導性:
-
靜態基準測試可能無法準確反映智能代理的實際效能。
-
過去的評估方法主要針對語言模型,但智能代理與模型不同,它們需要在真實環境中採取行動並與之互動。
-
建立能夠模擬真實環境的評估系統更具挑戰性。
-
與評估語言模型不同,評估智能代理的成本沒有上限,因為代理可以調用其他子代理,形成遞迴迴圈或無限迴圈。
-
因此,成本必須是評估智能代理的重要指標。
-
此外,由於智能代理通常是針對特定目的而設計的,因此很難找到通用的基準測試來評估所有代理。
-
有鑑於此,我們需要設計有意義的多維度指標來評估智能代理。
-
能力與可靠性的混淆:
-
能力是指模型在特定時間點可以做到的事情。
-
可靠性是指每次都能始終如一地得到正確答案。
-
在涉及重要決策的實際應用中,可靠性比能力更重要。
-
語言模型已經具備許多能力,但如果誤以為這代表能為使用者提供可靠的體驗,就會導致產品出現問題。
-
AI 工程師的任務是縮小 90% 的能力與 99.999% 的可靠性之間的差距。
-
Humane AI Pin 和 Rabbit R1 等產品的失敗,部分原因就是開發人員沒有預料到產品缺乏可靠性會導致失敗。
-
如何改進智能代理的評估
為了應對上述挑戰,講者提出了一些改進智能代理評估的方法:
-
開發多維度基準測試:
-
評估智能代理時,除了準確性之外,還應考慮成本等其他因素。
-
例如,普林斯頓大學開發了一種智能代理排行榜,同時評估代理的準確性和成本。
-
-
納入人類專家:
-
人類專家應參與智能代理的評估過程,主動編輯評估標準。
-
這種方法可以產生更準確的評估結果。
-
-
重視可靠性:
-
AI 工程師應將重點放在提高智能代理的可靠性上,而不僅僅是提高其能力。
-
這需要從系統設計的角度出發,而不是僅僅關注模型本身。
-
結論
講者總結道,要成功開發智能代理,需要從可靠性工程的角度出發,將重點放在確保智能代理的可靠性上,就像早期的計算機工程師致力於提高真空管計算機的可靠性一樣。 AI 工程師應將自己視為確保下一波計算浪潮對終端使用者而言盡可能可靠的人。 透過轉變思維模式,我們可以克服目前智能代理面臨的挑戰,實現其真正的潛力。