Video thumbnail for 【人工智能】AI的下半场The Second Half | 姚顺雨 | 中场休息 | AI配方Recipes | 先验知识 | 推理 | 基准测试 | 重新思考评估方式 | 发展转折点

AI下半場:姚順雨深度解析AI發展轉折點與未來趨勢 (清華姚班博士)

Summary

Language:

Quick Abstract

隨著AI技術飛速發展,下一步該往哪裡去?姚順雨博士在最新博文《AI的下半場》中,深入探討了這個議題。本摘要將帶您了解AI發展現況,並解析姚博士提出的AI發展「配方」,以及他對未來評估方式的獨到見解。想知道AI的未來嗎?趕緊一探究竟!

Quick Takeaways:

  • AI發展重點轉移: 從解決問題轉向定義問題,評估的重要性超越訓練。

  • AI發展「配方」: 大規模語言預訓練 + Scale + 推理和行動。

  • 強化學習關鍵: 先驗知識的重要性超越算法和環境。

  • 效用問題: 現有評估設置與現實世界存在差異,需要重新思考評估方式。

  • 未來發展模式: 為現實世界的實用性開發新穎的評估設置或任務。

AI發展已到關鍵轉捩點,不應再單純追求基准測試的提升。應重新思考評估方式,質疑習以為常的假設,並開發更貼近現實世界的評估體系,方能突破現有框架,推動AI發展。 專家認為,AI的下一步是解決效用問題,並為實際應用開發新穎的評估體系。

最佳拍檔:AI發展的下半场

AI發展的探索者:姚順雨

大家好,這裡是最佳拍檔,我是大飛。相信大家都很關心AI這兩年高速發展至今,未來的路該如何走。許多AI研究者正積極探索這個領域,姚順雨便是其中之一。

姚順雨畢業於清華姚班,後在普林斯頓大學取得計算機科學博士學位。2024年8月,他加入了OpenAI。在學術研究領域,他成績斐然,在語言Agent領域做出許多開創性工作,如提出讓AI通過多路徑推理解決複雜問題的思維樹ToT技術、可讓AI在推理過程中動態採取行動的ReAct方法,以及為AI Agent構建模組化認知CoALA架構。

最近,姚順雨發布了一篇新博客《AI的下半场》,深入探討AI的未來走向。今天,讓我們一同跟隨他的思路,揭開AI發展的下一幕神秘面紗。

AI發展的上半场回顧

在深入探討AI發展的下半场之前,我們先回顧一下AI發展的上半场。簡單來說,我們現在正處於AI發展過程中的一個特殊階段,姚順雨稱之為“中場休息”。

過去幾十年,AI領域主要精力放在開發新的訓練方法和模型上,並取得一系列令人矚目的成就。這離不開許多基礎性創新,如搜索技術、深度強化學習以及推理方法的進步。

曾經,深度強化學習一直面臨難以泛化的困境,研究人員很難找到一種通用方法解決多種不同的強化學習任務。當時,大家普遍認為單一方法無法應對像軟件工程、創意寫作、複雜數學等眾多不同領域的挑戰。

然而,隨著技術不斷發展,情況改變了。深度強化學習終於開始實現泛化,找到有效解決多種任務的方法。這種變化帶來AI發展重點的轉移,從過去單純地解決問題,逐漸轉向定義問題。

在這個新的時代背景下,評估的重要性開始超越訓練。我們不得不重新審視現有的AI訓練方式,思考如何更加科學地衡量AI的發展進展。這可能需要我們轉換思維,用更接近產品經理的視角看待AI的發展。

回顧AI發展上半场的成果,那些影響力巨大的AI論文,如提出Transformer架構的論文、關於AlexNet的論文以及介紹GPT-3的論文等,它們的核心都是提出具有基礎性突破的訓練方法,而非建立基準測試。

以ImageNet為例,它雖然是一個非常重要的基準測試,但是在論文引用量上,卻遠遠低於提出AlexNet的論文。這個現象清晰地表明,在AI發展的上半场,方法創新比基準測試的建立更受關注,並且這些方法往往具有很強的普適性和廣泛的應用價值。

就拿Transformer架構來說,它最初應用在機器翻譯領域,之後成功擴展到計算機視覺、自然語言處理和強化學習等多個不同領域,對整個AI行業產生極為深遠的影響。

可以說,過去幾十年專注在方法創新的策略,有效地推動了AI在各個領域取得突破性的進展。

AI發展的“配方”

但是如今,隨著這些創新的不斷積累,AI的發展已經達到一個臨界點,發展重心也在發生根本性的轉變。接下來,姚順雨提出了AI發展的“配方”。

這個“配方”包含大規模的語言預訓練、Scale以及推理和行動。這些概念似乎大家已經耳熟能詳,但是將它們稱為“配方”是有內在原因的。

我們可以從強化學習的角度來理解。強化學習一直被視為人工智能的“終極形態”。從理論上來說,強化學習能夠保證Agent在遊戲中獲勝。但是從實際經驗來看,像AlphaGo這樣超越人類水平的系統,也離不開強化學習的支持。

在強化學習中,有三個關鍵的組成部分,分別是算法、環境和先驗知識。長期以來,強化學習的研究人員大多把精力集中在算法的研究上,像REINFORCE、DQN、TD-learning、actor-critic、PPO、TRPO等等,這些算法都被看作是Agent學習的核心部分。

而對於環境和先驗知識,研究人員往往將它們視為固定不變或者儘量簡化的因素。就拿Sutton和Barto的經典教科書來說,其中幾乎全部內容都在講述算法,很少會涉及環境或者先驗知識。

但是,進入深度強化學習時代之後,人們在實踐中逐漸發現,環境的重要性不容小覷。算法的性能在很大程度上依賴於開發和測試的環境。如果研究人員忽視了環境因素,很可能會開發出一個僅僅在簡單模擬場景中表現出色的“最優”算法,但是在實際應用場景中卻毫無用武之地。

基於這樣的認識,OpenAI最初制定了一個計劃。他們構建了gym,這是一個適用於各種遊戲的標準強化學習環境。之後,又推出了World of Bits和Universe項目,試圖把整個互聯網或者計算機轉化為一個巨大的遊戲環境。

按照他們的設想,一旦能夠把所有的數字世界都變成可利用的環境,再用智能的強化學習算法去解決其中的問題,就有可能實現通用人工智能AGI。

這個計劃聽起來很美好,但是在實際執行過程中卻並沒有完全達到預期。OpenAI沿著這條道路確實取得了一些顯著的成果,比如使用強化學習解決了Dota遊戲、機器人手部控制等問題。

然而,他們始終沒能真正解決計算機使用或者網頁導航方面的難題。而且在一個領域訓練的強化學習Agent,很難遷移到另一個不同的領域中去。這說明,在實現通用人工智能的道路上,還缺少一些關鍵的要素。

直到GPT-2或者GPT-3出現後,研究人員才發現這個缺失的關鍵部分就是先驗知識。強大的語言預訓練,能夠將通用常識和語言知識提煉到模型當中。之後這些模型再經過微調,就可以成為像WebGPT這樣的網頁Agent,或者是像ChatGPT這樣的聊天Agent,進而改變了整個世界。

事實證明,在強化學習里,最重要的部分或許並不是強化學習的算法本身,也不是環境,而是先驗知識。並且這些先驗知識可以通過與強化學習完全不同的方式來獲得。

語言預訓練雖然為聊天機器人等應用提供了很好的基礎,但是在控制計算機或者玩視頻遊戲這些領域,效果卻並不理想。因為這些領域的數據分佈和互聯網文本有著較大的差異,監督微調或強化學習在這些領域發揮的作用也比較有限。

2019年,姚順雨嘗試用GPT-2去解決基於文本的遊戲問題,結果發現Agent需要進行數百萬步的強化學習,才能達到一定的遊戲水平。而且很難將在一個遊戲中學到的經驗遷移到新的遊戲中。

與之形成鮮明對比的是,人類玩家可以在零樣本的情況下玩新遊戲,並且表現得比Agent更好。這是因為人類具備抽象思考的能力。比如我們看到“地下城是危險的,需要武器來對抗,可能需要在鎖住的箱子中尋找”這樣的描述,就能憑藉推理能力,靈活地應對新情況。

在這裡,思考或推理其實可以被看作是一種獨特的行動。它不像傳統的行動那樣,直接改變外部世界,但是它所涉及的思維空間是開放且無限的。

在經典的強化學習中,這種無界的組合會讓決策過程變得非常複雜。舉個例子,如果從兩個盒子中選擇一個,其中一個裝有100萬美元,另一個為空,那麼我們的期望收益就是50萬美元。但要是增加無限多個空盒子,期望收益就會變為零。

然而,當我們把推理引入到強化學習環境的動作空間時,就能夠借助語言預訓練所積累的先驗知識,實現更好的泛化,並且在決策過程中進行更加靈活的計算。ReAct的論文就詳細介紹了Agent推理的相關內容。

簡單來說,即便增加了無數個空箱子,由於我們在生活中已經在各種場景里接觸過類似情況,所以在面對新的選擇時,也能夠更好地做出判斷。

從更抽象的層面解釋,就是語言可以通過Agent中的推理實現泛化。當我們掌握了正確的強化學習先驗知識,並且找到了適合的強化學習環境之後,會發現強化學習算法可能反而是其中最簡單的一部分。

基於這樣的認識,研究人員推出了o系列、R1等研究成果,還開發了能夠利用計算機的Agent,未來也還會有更多新的成果湧現。

這個變化可以說充滿了戲劇性。長期以來,強化學習研究者一直把重點放在算法上,卻忽視了環境和先驗知識。每次實驗幾乎都要從零開始。經過幾十年的探索,大家才意識到,或許應該把研究的優先級進行徹底的調整。

不過,就像史蒂夫·喬布斯說的那樣,你無法展望未來的連接點,只能在倒回來看的時候去連接。如今,這個“配方”正在徹底改變AI發展的格局。

AI發展上半场模式的困境

回顧上半场的發展模式,我們通常是開發新的訓練方法或者模型,以此來提升在基準測試中的成績,然後再創建更具挑戰性的基準,如此循環往復。

但是現在,這種發展模式正面臨著困境。原因在於,這個“配方”已經讓基準的提升逐漸實現了標準化和工業化,不再需要太多全新的想法。

隨著這個“配方”的不斷擴展和良好的泛化,針對特定任務開發的新方法,可能只能帶來5%的性能提升。而新的o系列模型即使沒有專門針對某個任務進行優化,卻有可能實現30%的提升。

而且,即使我們不斷創建更難的基準,這些基準也會很快、並且越來越快被現有的“配方”所攻克。

OpenAI的研究員,同時也是姚順雨的同事Jason Wei,曾經做過一張非常直觀的圖,清晰地展示了這一趨勢。在過去五年里,AI在各種基準測試中的成績不斷提升,像TriviaQA中的問答準確率、MMLU等各類考試的成績,以及在數學相關測試如GSM8K、AIME、MATH中的表現,還有在軟件工程任務的完成情況等等,都呈現出快速上升的趨勢。

AI發展下半场的探索

那麼,在AI發展的下半场,還有什麼值得我們去探索呢?如果不再需要新的方法,而更難的基準測試又會被快速解決,我們該何去何從?

姚順雨認為,我們需要從根本上重新思考評估的方式。這不僅僅是創造新的、更難的基準測試那麼簡單,而是要對現有的評估設置提出根本性的質疑,進而創造出全新的評估體系。

只有這樣,我們才有可能被迫發明出超越現有“配方”的新方法。但是不得不說,這是一項極具挑戰性的任務。

因為人類往往存在慣性思維,很少會去質疑那些習以為常的基本假設,常常把它們當作理所當然的事情,卻沒有意識到這些只是假設,並非不可改變的定律。

這種慣性思維雖然很自然,但是卻帶來了問題。AI已經在國際象棋、圍棋等比賽中擊敗了世界冠軍,在學術能力評估測試和律師資格考試中,超過了大多數人類,在國際信息學奧林匹克競賽和國際數學奧林匹克競賽中,也達到了金牌水平。

然而,從經濟和GDP的角度來看,世界並沒有發生太大的變化。姚順雨將這個問題稱為效用問題,並認為這是AI發展過程中最重要的問題之一。

或許我們很快就能解決效用問題,也或許還需要很長時間。但是不管結果如何,這個問題產生的根本原因其實並不複雜,那就是我們現有的評估設置在許多基本方面與現實世界的實際情況存在差異。

評估設置與現實的差異

先看第一個差異,評估通常要求自動運行。一個Agent接收到任務輸入後,獨立完成任務,然後獲得相應的任務獎勵。

但是在現實生活中,Agent往往需要在整個任務過程中與人類進行互動。就拿和客服溝通來說,我們不會給客服發送一條超長的消息,然後等待10分鐘,期望一次性得到解決所有問題的詳細回復,而是要來回溝通幾次。

正是基於對這種評估設置的質疑,所以我們開發了一些新的基準,比如Chatbot Arena,它將真實的人類引入到評估循環中。還有tau - bench,它會模擬獲取用戶的詳細信息,然後給出具體的任務場景,像修改航班預訂、取消預訂等。Agent需要根據系統給出的提示信息,比如當前航班的艙位信息、預訂時間、修改和取消規則等,以及用戶的指令,來做出相應的決策。這與傳統的評估方式相比,更加貼近現實場景。

再看第二個差異,評估往往要求在獨立同分布(i.i.d)的情況下進行。在測試的時候,假設有一個包含500個任務的測試集,我們會獨立運行每個任務,計算每個任務的指標,然後取平均值得到一個整體指標。

但是在現實世界中,我們解決任務的方式並不是並行的,而是順序進行的。以谷歌的軟件工程師為例,他們在解決問題的時候,隨著對代碼庫熟悉程度的增加,解決問題的能力也會不斷提高。

然而,一個軟件工程Agent在處理同一個代碼庫中的多個問題時,卻無法像人類工程師那樣獲得這種熟悉度的提升。雖然目前已經有了一些針對長期記憶的方法,但是在學術界,仍然沒有合適的基準來驗證這種需求的合理性,甚至很少有人敢於質疑作為記憶學習基礎的獨立同分布假設。

AI發展下半场的新模式

提高智能程度通常就能提升它在實際應用中的實用性。但是如今,情況已經發生了變化。這些通用的方法在現有的假設下,不一定能夠繼續發揮作用。

所以,姚順雨指出,在AI發展的下半场,我們需要採用新的發展模式,那就是要為現實世界的實用性去開發新穎的評估設置或任務,然後用通用的方法去解決這些任務,或者通過添加新穎的組件來增強這些方法,之後再不斷循環這個過程。

應該說,這個過程不再是我們熟悉的模式了。就像對於AI企業來說,在之前的階段,他們主要關注解決的是解決問題和如何評估,而接下來,他們要考慮的則是如何利用AI來開發有用的產品,創造出數十億甚至數萬億美元的價值了。前期主要是通過增量式的方法和模型來推動,而後期則需要從眾多方法中進行篩選了。

接下來,通用的方法有可能會取代增量式的方法,除非我們能夠創造新的假設,打破現有的通用性,只有這樣,才能出現真正具有創新性、能夠改變遊戲規則的研究。

好了,以上就是姚順雨關於AI發展“下半场”的觀點了。也許,AI的發展正處於一個關鍵的轉折點,從注重訓練到重視評估,如何重新思考評估的方式,或許將是推動AI持續發展的關鍵所在。

感謝大家收看本期視頻,我們下期再見。

Was this summary helpful?

Quick Actions

Watch on YouTube

Stay Updated

Get the latest summaries delivered to your inbox weekly.