2025年AI Agent的進展回顧
自2025年以來,AI Agent 取得了快速進展。以下是今年上半年的一些重要進展:
-
一月:OpenAI 推出了能自行使用瀏覽器的 AI Agent Operator。
-
二月:DeepResearch 啟動了複雜的研究任務,許多人已成為其深度用戶。
-
三月:中國第一個所謂的通用 AI Agent 米諾斯(Minos)走紅。
-
五月:米諾斯從基準風險投資公司(Benchmark)獲得7500萬美元融資。
-
五月六日:OpenAI 宣布以30億美元收購 Windsurf。
-
另一個編程工具 Cursor 的母公司 Anisfield 也獲得90億美元融資,估值高達90億美元。
為何AI Agent在2025年初加速發展
與業內數十位創業者交流後,發現有三個原因:
模型代碼編寫能力提升
例如,Anthropic 去年發布的 SONNET 3.5 在代碼生成方向有積極改進,推動了 AI Agent 的快速發展,催生了一批代碼編寫 AI Agent,如 Windsurf 和 Cursor。
RFT 增強學習控制技術的出現
該技術使訓練數據在有限的情況下仍能提高模型在特定任務中的性能,加速了 Agents 的發展。此外,2024年11月底,Anthropic 還提出了一套傳統信息服務轉換為能與 AI 溝通的 MCP 協議。
行業級基礎設施建設
越來越多的網站和服務開始加入 MCP,行業級基礎設施正在建立。
嘉賓介紹
-
陶方博:Mediverse 創始人。
-
侯泰宇(Clanto):紐約大學應用心理學專業學生,AI 創業者。
嘉賓對AI Agent的使用與看法
Clanto
-
每天使用各種 Agents,開發小產品時常用 Replit Agent 和 Cursor 等編碼 Agent,並對不同 Agents 進行研究,尤其是 Agent 構建者,如 Microsoft 的 Copilot Studio 和 Zjie 的 Code 等。
-
創建了約200個 AI Agent,會根據不同場景使用不同 IDE。
陶方博
-
大量使用 Agents,尤其是編碼 Agent。
-
創建了一個名為 MindOS 的 Agent 平台,用於創建通用、專業的 Agent。
對Agent的看法
- 陶方博:從機器學習角度看,Agent 與流行語言中的概念有所不同。機器學習中的 Agent 是在學習環境中,能依靠環境反饋獨立學習行動策略以實現目標的實體,如 AlphaGo。而現在流行的 Agent 概念更像是能獨立完成任務、由基本邏輯模型或思維模型驅動、有自己的記憶系統且與用戶有界面交互的存在。
AI Agent的智能體現
-
陶方博:AI Agent 的智能體現在能在環境中學習和解決問題。例如,在遊戲場景中,兩個小人推正方形並設法保護自己,它們會逐漸發展出智能。
-
Clanto:現在的 AI Agent 能在不同領域完成任務,如告訴語言模型要回北京,它能從頭到尾執行訂機票的任務。
環境對AI Agent的重要性
-
陶方博:環境對 AI Agent 至關重要。例如,編程環境需要 IDE、測試工具、部署工具等,AI Agent 必須在這樣的環境中訓練才能完成任務。
-
Clanto:OpenAI 的 Operator 能在操作電腦的環境中進行強化學習,從而更好地完成訂酒店、訂機票等任務。
不同AI Agent的比較
-
OpenAI的Operator:能操作電腦,通過微調技術將思考過程與行動輸出相結合,但其速度慢、準確率不高。
-
DeepResearch:與 Operator 是不同方向的 AI Agent,其訓練的數據集和能操作的工具集不同,但訓練過程相同,都是基於 RFT 增強學習微調技術。
對AI Agent創業的看法
-
陶方博:AI Agent 創業有兩面性。一方面,IFT 方法能大大降低對數據的依賴,減少資本和算法投入;另一方面,對 Agent 創業不太樂觀,尤其是在消費領域,因為通用 Agent 可能會覆蓋多個場景,減少創業機會。
-
Clanto:在 AI 時代,普通人參與的機會在於利用 AI 網絡表達個性,如自媒體和網紅。
對米諾斯(Minos)AI Agent的看法
Clanto
-
是米諾斯的首批用戶之一,對其 UI 印象深刻,認為其具有 notion 風格。
-
經常用米諾斯做網站、上傳文章、做研究等,喜歡其記憶功能。
陶方博
- 米諾斯找到了更通用的行動組合,即編碼 + GUI + 命令行,但其使用人群相對較窄,尚未破圈。
模型對AI Agent的重要性
-
陶方博:模型能力的提升是 AI Agent 發展的關鍵,如 SONNET 3.7 模型的發布。
-
Clanto:模型能力的提升使 AI Agent 的智能性增強,能更好地理解任務。
對AI Agent評估的看法
-
陶方博:評估對 AI Agent 至關重要,應從一開始就建立系統化的評估框架。
-
Clanto:評估是優化產品效果的唯一工具,不同的評估方法各有優劣。
對不同AI Agent公司的期待
-
陶方博:看好 Cursor,認為其有望成為未來的通信代理。
-
Clanto:關注一些在特定領域表現優異的 AI Agent 產品,如 Vento、Sweetspot 和 Gamma。
過去兩個月的心態和做事方式變化
-
Clanto:做事速度變快,感受到競爭對手的快速發展,從產品需求到項目實施的鏈條加快。
-
陶方博:推出了第二個 ME 產品,認為 AI Agent 要成為流行的 AI 使用方式還存在很多問題。
MCP協議的發展
- 陶方博:MCP 協議在業界的採用是一個長期過程,存在諸多問題,如認證、數據隱私和商業化保障等。
節目總結
感謝嘉賓的分享,本期節目結束。未來將推出關於 AI Agent 使用體驗的節目,敬請期待。