Video thumbnail for 【人工智能】机器人的心智进化 | DeepMind机器人负责人Carolina Parada | Gemini机器人 | 具身思维 | 系统一与系统二 | 远程具身示范 | 安全体系

DeepMind機器人心智進化:Gemini賦予機器人理解與行動能力

Summary

Language:

Quick Abstract

探索Google DeepMind (DMI) 最新的機器人技術革命! 告別傳統工業機器手臂,DMI正致力於打造能理解、思考、並自主行動的「智能主體」。本次摘要將深入剖析DMI機器人研究經理Carolina Parada在DMI直播中的分享,揭示其如何透過視覺語言模型(VLM)與雙系統架構,突破傳統機器人的技術瓶頸,邁向更具智慧、更安全的未來。

  • 視覺辨識與物件抓取: 無需觸覺感測器,僅靠視覺和Gemini模型精準抓取香蕉。

  • 概念理解與自主學習: 首次見到迷你籃框,即能完成標準投籃動作,成功率高達92%。

  • 雙系統架構: 雲端慢系統負責複雜推理與長期規劃,本體快系統即時處理感測器數據並調整動作。

  • 數據效率提升: 透過人類示範數據、模擬環境訓練、多模態預訓練等方式,大幅減少真實環境訓練次數。

  • 多層安全系統: 物理層、語言層、系統層多重防護,確保機器人在家庭環境中的安全運行。 DMI 正在讓機器人真正理解人類的需求,而不僅是執行預設指令,打造更貼近生活的智能助手。

Google DMI 機器人技術的重大變革

引言

大家好,這是「最佳拍攝」,我是大飛。Google DMI 最近發佈了一系列機器人視頻。在視頻中,一種沒有任何觸覺遙測設備的機器人僅藉助視覺就能準確抓住香蕉,而從未接受過籃球訓練的機器在第一次看到迷你藍框時就完成了標準的滑行動作。這些看似簡單的操作,實際上隱藏著機器人技術發展的重大轉變。

機器人本質的重新定義

在我們大多數人的理解中,機器人可能相當於那些在工廠裡重複單調動作的機械臂,或者是科幻電影中具有人類外觀的機器人。但 Carolina Parada 領導的團隊正在重新定義機器人的本質。她表示,他們不是在製造更靈活的機械臂,而是在構建能夠理解、明白並獨立行動的智能主體。

傳統機器人的技術瓶頸

這種認知變化導致對傳統機器人技術瓶頸的深入調查。即使是最先進的工業機器人也只能在預定的環境中執行固定任務,面對不熟悉的場景時,往往一籌莫展。Carolina 回顧了機器人的技術發展歷程。2010 年代的主流方法是通過強化學習訓練機器人執行特定動作。在 DeepMind 的早期實驗中,研究人員會設置簡單的規則,如堆疊越高,獎勵越高,讓機器人在數百萬次試錯中掌握平衡技能。但這種方法存在一個致命缺陷,即當堆疊的形狀改變或堆疊的位置調整時,機器人需要重新學習幾個月。

關鍵轉折點:引入大模型

2022 年成為關鍵轉折點。團隊首次將大模型引入機器人系統。當 Carolina 對機器人說「我渴了」時,這台只能執行預測程序的機器第一次自動完成了檢測飲水機、拿杯子和取水的一觸式動作。這標誌著機器人開始從傳感器驅動的執行者向能夠理解語言的思考者進化。

Gemini 機器人技術

現在,DMI 的 Gemini 機器人技術本質上是將 Google 的多模態大模型轉化為物理世界的操作能力。在經典的抓香蕉實驗中,機器人沒有配備任何觸摸或傳感器,僅使用雙鏡頭視覺相機和 Gemini 模型完成操作。它首先通過視覺語言模型 VLM 識別香蕉的顏色、形狀和空間,然後調用預訓練的物體捕捉知識庫。這個知識庫不是針對香蕉的特殊訓練,而是基於數千萬個物體捕捉數據的綜合策略。例如,對於長尾物體,捕捉中下位置可以保持平衡,對於柔軟物體,增加 2 到 3 牛頓的握力可以避免損壞物體。

令人震驚的觀瀾實驗

更令人震驚的是觀瀾實驗。當創意團隊帶著機器從未見過的迷你藍框和小球進入實驗室時,研究人員沒有對機器人進行任何專門訓練。但使用 Jimny 機器人,它只花了 200 毫秒就完成了從視覺識別到動作規劃的整個過程。它首先通過多模態模型理解籃球是需要插入圓形框架的球,然後基於三維空間定位計算投擲的角度和力量,最後以 92% 的成功率完成投籃。Carolina 在博客中強調,這不是簡單的模型匹配,而是真正的概念轉變。換句話說,機器人從互聯網級別的文檔和圖像數據中提取從頭到目標的抽象關係,並將其應用於新場景。

具身思維:讓機器人理解物理世界

對於人類來說,我們天生具有識別身體的能力,因此我們可以在無需刻意學習的情況下理解物體的物理特性。例如,拿雞蛋需要輕拿輕放,折紙需要按照順序折疊手指。而 DMI 提出的巨思維,即具身思維,就是讓機器人獲得理解人類物理世界的能力。

機器人的複雜認知任務

以整理書桌任務為例,機器人需要完成一個複雜的認知鏈。首先是邊界框的識別。機器人需要整合多個攝像頭,如頂部的廣角鏡頭加上手腕的特殊鏡頭,建立物體的三維邊界框,從而準確識別咖啡杯的手柄位置、筆記本的開合狀態等細節。其次是與語言的關聯。機器人需要將視覺信息與語言指令聯繫起來,例如將玩具放入抽屜,將杯子放回杯架。第三是運動規劃。機器人需要考慮物體的物理特性,例如標記杯的中心位置、A4 紙的損失等,生成不坍塌的捕捉路徑。這種能力在折疊任務中達到了新的高度。機器人需要理解折疊、壓制、翻轉等指令,並調整運動以響應紙張的運動。研究人員發現,當模型具有識別邊界框的能力時,折疊任務的成功率可以從 47% 提高到 89%。這是因為機器人可以準確確定紙張的邊緣位置和折疊順序,而不需要依賴預設的收集模型。

獨特的機器人控制系統

受 Daniel Kahneman 的系統 1 和系統 2 理論的啟發,Dingmai 還設計了獨特的機器人控制系統。首先是對應系統 2 的雲端慢系統。它負責運行完整的 Gemini 多模態模型和複雜的推理與長期規劃。例如,在規劃午餐打包任務時,它需要分析食材的儲存條件,如香蕉不能擠壓,三明治需要密封,以及容器空間佈局等多種因素,生成最佳的操作順序。接下來是對應系統 1 的本體快系統。它負責部署輕量級模型,實時處理傳感器數據和調整動作。例如,在捕捉香蕉時,快系統會以 200 Hz 的頻率接收視覺反饋。一旦檢測到物體滑動,它會立即調整手指的握力。這種結構在動態環境中表現出色。在人為干擾實驗的模擬中,當機器人移動咖啡杯時,實驗者突然移動杯架的位置。快系統可以在 40 毫秒內檢測到位置變化並調整運動軌跡。傳統單模態系統的延遲超過 200 毫秒,導致任務失敗率達到 65%。Carolina 透露,團隊曾嘗試純雲端控制,但在處理快速移動的物體時,網絡延遲會導致成功率從 85% 下降到 32%。這也導致他們最終採用了雙系統結構。

提高數據效率的三大技術創新

傳統機器人通常在訓練過程中依賴大量錯誤數據。例如,學習疊衣服需要 20 萬次失敗,而 DayMind 通過三大技術創新將數據效率提高了兩個級別。第一是高效利用人類示範數據。在攜帶鞋子的任務中,研究團隊使用了遠程巨示範技術,讓人類操作員首先戴上 VR 手套和相機,在虛擬環境中執行一千次攜帶鞋子的動作,然後通過數據擴展生成 5 萬個變量,包括不同長度的鞋帶、如何系鞋帶等,然後輸入機器人進行強化學習。這種方法使真實環境中的訓練次數從 20 萬次下降到 500 次,成功率達到 78%。第二是真實與真實之間的雙向轉移。DeepMind 開發的 DemoSTAR 系統的核心突破是從小樣本中學習。只需要五個真實示範,如將鑰匙插入鎖中,機器人就可以在真實環境中生成 10 萬個訓練場景,包括不同的照明角度、鎖類型等,並通過對抗訓練提高計算能力。實際數據顯示,該系統在真實環境中的首次操作成功率可達 63%,比傳統方法高出 22%。第三是多模態預訓練的有限容量。在對 30 億圖像腳本團隊的互聯網和語言進行預訓練後,Jimny 的模型具有強大的零樣本學習能力。在從未見過的自學任務中,機器人可以通過分析將單詞解釋為單詞,然後將單詞的形狀與視覺識別相結合,自動完成打印。關鍵是,這種能力沒有出現在專業訓練中,而是多模態學習的有限結果。

多層次安全系統

隨著機器人從實驗室走向家庭,DingMind 還建立了多層次的安全系統。在物理層面,DingMind 機器人還使用工業級力控傳感器。當握力超過 20 牛頓(人類握力的三分之一)時,它會自動觸發緊急停止。在早期測試中,機器人因錯誤判斷香蕉的硬度而導致香蕉被壓碎。然後,研究團隊在訓練數據中添加了 2 萬個不同硬度物體的樣本,將這個問題的發生率從 15% 降低到 2%。在語言層面,研究團隊基於 Asimov 3D 定律開發了一個 Asimov 數據庫,其中包括 20 萬個危險場景的訓練團隊,如將金屬物體放入微波爐或將水杯放在樓梯邊緣。特別值得注意的是,團隊還收集了美國消費者安全委員會 CPSC 報告中的 1800 個家庭機器人損壞案例,將它們轉化為可以訓練的視覺語言風險模型,使機器人識別潛在危險的準確率達到 89%。在系統層面,對於網絡中斷等極端場景,DMI 開發了一個系統模型。簡單地說,當檢測到雲連接中斷時,機器人會自動切換到本地操作模式,並依靠輕量級模型執行預定的安全任務,如原位置、緊急自動化等。在 2024 年日本颱風模擬測試中,這種模式使機器人在網絡環境中的安全響應率保持在 91%,而傳統網絡機器人僅為 37%。

機器人的未來發展

當被問及何時能擁有像星門一樣的機器人助手時,Carolina 保持樂觀態度。她表示,他們的機器人仍然是 2 到 3 歲的嬰兒。雖然它可以理解簡單的命令並完成基本操作,但在複雜場景中仍然缺乏持續推理能力。然而,她也指出,技術融合正在加速這方面的突破。例如,在社交智能方面,最新的模型已經開始檢測人類的手勢和表情。在實驗中,當實驗者做出停止手勢時,機器人可以在 0.3 秒內停止動作,準確率可以達到 92%。在持續學習方面,通過更新雲模型,機器人可以在夜間自動學習用戶白天生成的新數據,如家中新購買的機器人掃地機的品牌,使系統的適應周期從 72 小時縮短到 6 小時。在環境建模方面,團隊還部署了三維語言地圖系統,使機器人能夠在進入陌生房間的 45 秒內建立包括物體屬性(如材料、用途和重量)在內的數字模擬模型,為複雜任務的規劃提供底層支持。

總結

在廣播結束時,Carolina 再次強調了技術發展的本質。她表示,他們不是在製造更先進的機器,而是在擴展智能的邊界。當機器人能夠理解我們為什麼需要整理房間,而不僅僅是知道如何移動手臂時,我們就真正創造了物理世界的智能主體。這也許是機器人技術最令人興奮的未來。

以上就是 DMI 機器人經理 Carolina 這次採訪的主要內容,希望能幫助大家更多地了解機器人的發展現狀。謝謝大家觀看本期視頻,我們下次再見。

Was this summary helpful?

Quick Actions

Watch on YouTube

Related Summaries

Summarize a New YouTube Video

Enter a YouTube video URL below to get a quick summary and key takeaways.