人形機器人:資本炒作下的科技泡沫?
2024年,人形機器人頻繁登上科技新聞頭條,伴隨而來的是對其是否為資本炒作下的科技泡沫的質疑。投資機構蜂擁而至,新創公司估值動輒數十億,但實際表現卻不盡如人意。機器人動作遲緩,抓取咖啡杯都要反覆彩排。醫院採購的智能護理助手反而成了需要被護理的對象,引發網友調侃:「如果你家裡沒有老人,可以買個機器人回去學著照顧一下。」
資本狂歡與現實打臉
歷史上鮮少有技術革命在如此不成熟的情況下就獲得資本追捧。巨身智能是否為資本精心打造的龐氏騙局?這樣的質疑並非空穴來風。許多人或許是第一次聽說「巨身智能」這個概念,但若提到機器人、機器狗、智能駕駛和無人機,便能更容易理解。巨身智能可簡單理解為具有物理機器身體的人工智慧。
巨身智能的發展史
了解巨身智能的發展史,不難發現今日的故事似曾相識。日本本田公司的ASIMO機器人於2000年發布,堪稱當時人類仿生技術的巔峰之作,能以5公里時速奔跑、上下樓梯,甚至與人類進行自然交互。然而,其核心算法來自人工編寫的精準代碼,每個動作的調整都耗費大量時間。更令人卻步的是其高達數千萬人民幣的造價,讓人不禁質疑購買的必要性。2018年,本田宣布項目終止,ASIMO黯淡退場。
波士頓動力的困境
波士頓動力公司早期與美國軍方合作,其機器人產品曾驚艷世界。從大狗到人形機器人,都引起廣泛關注。然而,近十年過去,機器人仍在實驗室裡翻跟頭。軍方認為柴油動力的大狗噪音過大,不適用於實戰。波士頓動力本身也命運多舛,歷經多次轉手,估值一路下滑。
新的循環?
2021年,馬斯克宣布進軍機器人領域,掀起新一輪人形機器人熱潮。2023年,ChatGPT橫掃全球,各種人形機器人公司如雨後春筍般湧現,中國公司也紛紛加入戰局。2024年底,人形機器人登上春晚,成功破圈並開始驚人的進化,在各方面展現出驚人的進步。這讓人聯想到2023年大模型的演化故事,這次是否真的有所不同?
探索巨身智能的未來
為了尋找答案,團隊翻閱論文、諮詢專家,試圖全面剖析巨身智能的方方面面,包括其發展歷史、現狀、相關技術路徑、技術平台和軟硬體基礎,以及不同年代人類對智能的認知演變及其可能導向的未來。這將是一個系列影片,旨在讓觀眾對這個可能在未來幾十年極大影響人生的技術路徑有更深入的了解。
機器人走入家庭?
機器人會走入每個家庭嗎?人類真的能創造出與自己一樣的智慧嗎?或許能從這個系列影片中找到答案。
人類對機器人的早期理解
人類對機器人的最樸素理解,最早可歸因於「控制」一詞。如何控制鋼鐵機器,像人一樣行動?這是一個古老的話題。據說早在1495年,達文西就繪製出機器戰士的設計圖,以水力驅動,能完成坐、站、立、揮舞胳膊等動作。1774年,瑞士鐘錶公司製作出會寫字的機器人,由6000多個零件組成,能眨眼、沾墨水寫字,甚至可設置寫字內容。
早期機器人的局限性
以現代眼光來看,這些機器人的本質與中國農民自製的高仿機器人相似,僅能稱為「像人的自動機器」,無法感知環境,也不會自主決策。
圖靈測試與現代挑戰
要讓機器真正展現出智能的靈光,可能需要等到現代計算機誕生。1950年,圖靈在經典論文《計算機器與智能》中提出圖靈測試的概念,認為機器最終能在所有純智力領域與人類一較高下。然而,70多年後的今天,下棋、理解語言和指認事物已不再新鮮,但我們仍未擁有真正的機器人。問題出在哪裡?
巨身智能的三個分支
在21世紀之前,大部分科學家認為機器需要在環境中行動,需要對周圍環境有充分的了解,包括房間的形狀和障礙物的位置,然後才能做出決策。因此,巨身智能至少應有環境感知、決策和行動三個分支。
YBOT1的誕生與困境
基於此理念,1972年,日本早稻田大學的加藤一郎製造出第一個真人尺寸的機器人Wabot-1,身高兩米,重160公斤,擁有兩個摄像头充當眼睛、麥克風接收聲音,並在手部安裝觸覺感知器。然而,其移動速度極慢,邁一步需花費45秒重建環境模型。
感知環境的挑戰
人類已登上月球,能精確計算軌道,在38萬公里的距離上控制飛船降落在月球表面,為何在地球上感知一個房間的環境並邁出一步如此困難?要理解這個問題,需要將其分解為兩個問題:機器如何感知環境?感知環境後,機器如何邁出自己的一步?
感知環境的技術路線
目前主要有兩種技術路線:雷射雷達派和視覺派。雷射雷達派利用飛行測距法,發出雷射光束,計算光飛行時間,得出距離,進而形成周圍空間輪廓。但在Wabot-1的時代,雷射雷達尚未成熟,機器人只能依靠摄像头。
純視覺的挑戰
傳統機器視覺認為,必須基於還原論的方法,使用高超的數學技巧解決問題。試圖通過光照、反射等因素,逆向推算出初始因素,如同在一鍋湯中精確反推出每種原料的比例,難如登天。
運動與平衡的挑戰
困擾雙足機器人的還有更大的問題:如何運動和平衡?機械臂的運動由關節控制,通過關節旋轉或平移,可以讓機械臂末端指向某個位置。
正向運動學與逆向運動學
已知每個關節的角度,計算機器手頂端位置的計算,稱為正向運動學。在機器人的應用場景中,最需要的計算過程恰恰是反向的:已知杯子的位置,需要反過來求每個關節的旋轉角度,這種反過來的求解過程稱為逆向運動學。
逆向運動學的解決方案
逆向運動學計算的核心思想是解耦,即對每個關節角度逐個計算。對於高自由度的機械臂,可以利用帕登卡漢子問題來求理論解,或用迭代法來計算數值解。
帕登卡漢子問題
帕登卡漢子問題包括:單軸對齊、雙軸協同和平麵約束。通過分解為這三個子問題,可以逐個攻破複雜的問題。
理論與實際的差距
理論畢竟是理論,從工程角度來說,事實並非如此簡單。各種傳感器和驅動誤差、設計難題以及算法限制,會讓這些放在實際應用中面臨各種挑戰。
工業機器人與人形機器人的區別
工業機器人的零件位置固定,不需要感知環境,只需按照流水線設計要求預先計算好所有運動軌跡即可。而人形機器人需要與環境交互,需要知道自己當前的狀態,知道自己一腳伸出去是否正好能踏到地面上。
迭代法
在這種情況下,一種能夠動態調整的方法可能會表現得更好,稱為迭代法。機械臂並非一次算好確定的角度,然後直接伸到那個位置,而是在伸過去的過程中不斷調節每個關節的角度,最終逐步讓末端達到預定的位置。
運動學與動力學的結合
機器在物理世界運動起來時,需要考慮速度、動量、加速度等問題。需要知道多大的力才能支撐機器人的身體,什麼樣的速度才能恰到好處地在機器人摔倒之前邁出關鍵一步,又是什麼樣的力量才能讓機器人實現騰空之類的高難度動作。因此,所有的運動學都需要在和動力學聯合起來計算。
重心控制
最基礎的是要確定機器人在行走的過程中不能摔倒,因此需要時時刻刻根據機器人現在的位置計算它的重心位置,確保它的重心始終落在兩隻腳中間,並且確保它在邁出下一步時,身體的所有關節也能準確地調整位置,讓它的重心始終不出現偏移。
機器人技術的演進
上世紀70年代,一個機器人能夠顫顫巍巍地邁出一步不摔倒,已經創造了奇蹟。此後多年,傳統的機器人一直在這種路線上死磕,阿西莫就是這種技術路線的巔峰之作。但實際效果並不理想,阿西莫的整個運動被限制在一種刻意的求穩之中,難以應對複雜的環境。
人工智能與機器人技術的分歧
人工智能在經歷了短暫的還原論探索之後,很快就發現此路不通,便義無反顧地走上了機器學習的革命之路,並在今天獲得了巨大的成功。而機器人技術似乎與人工智能沒有太大關係,一直在還原論的泥潭中難以自拔。
機器人的本質
現實中的機器人並非科幻作品中充滿靈性的機械生命體,它們對世界的認知深度連DeepFake的零頭都沒有。它們伸出腿,並非因為要走路,只是因為芯片對腿部關節發出了指令。
點錯科技樹?
在機器人這條道路上,是否點錯了科技樹?早期技術探索為工業機器人的落地創造了最好的條件,從汽車工廠中精準焊接的機械臂到物流倉庫中不知疲倦的搬運機器人,這些笨拙但可靠的鋼鐵勞工創造了萬億級市場。
學徒學習:強化學習的引入
2004年,吳恩達的學生彼得·阿比爾開創了一條全新的機器人技術路徑:學徒學習,即將強化學習引入機器人的動作控制。
強化學習的原理
強化學習就是把智能體放到一個環境中,讓智能體自主對環境做出響應,然後AI算法根據結果給予一定的獎勵或懲罰。
實踐案例:機器臂疊毛巾
彼得·阿比爾將一塊毛巾放在機器臂前面,用一個固定的摄像头拍下畫面,通過神經網路提取特徵輸入給AI,由AI控制機械臂做出動作。如果機械臂的關節運動更有利於其最終疊起毛巾,就給予獎勵。經過無數次失敗的嘗試以後,機械臂最終學會了疊起毛巾。
深度學習時代的挑戰
2012年,克里澤夫斯基用兩張顯卡訓練出了AlexNet,宣告了AI深度學習時代的來臨。自此,AI開始一路狂飆,突破圖像識別、擊敗圍棋冠軍、實現語言理解,機器人領域卻依然波瀾不驚。
安全隱憂與轉型
2017年,當谷歌祭出Transformer之時,機器人領域依舊在爭論使用神經網絡訓練機器手是否安全。一些變化正在悄悄發生。同年,谷歌將波士頓動力賣給軟銀,一年後本田的ASIMO黯然退場。2016年,OpenAI發布了OpenAI Gym,並提出了開發通用機器人的目標。在中國,一家名為宇樹科技的公司成立了。
技術突破的希望
新的技術路徑會給機器人帶來真正的突破嗎?人形機器人還面臨哪些問題和挑戰?距離機器人小姐姐還有多遠?