不久前,國內(nèi)機器人公司宇樹科技在其官方公眾號推送了一篇名為《Unitree G1 人形智能體 AI化身 ¥9.9萬元起》的文章,宣布其推出了一款9.9萬的人形智能機器人。十萬不到的價格,瞬間讓人有一種科幻馬上就要照進(jìn)現(xiàn)實的既視感。
盡管2024年的進(jìn)度條走了還不到一半,但有關(guān)人形機器人的炸場消息卻是接連不斷。
先是英偉達(dá)CEO黃仁勛在其3月份召開的GPU技術(shù)大會上與9款人形機器人同臺,接著宣布英偉達(dá)將開啟人形機器人通用基礎(chǔ)模型GR00T項目,用新GPU為人形機器人智能化提供算力支撐。引發(fā)了一陣關(guān)于具身智能的熱議。
一個月后,老牌機器人公司波士頓動力宣布旗下傳統(tǒng)的液壓式人形機器人退役,并推出其全新研發(fā)的全電動Atlas機器人。又掀起了一波關(guān)于人形機器人發(fā)展過往的追憶熱潮。
5月初,特斯拉發(fā)布了一段展現(xiàn)其人形機器人Optimus(擎天柱)的視頻。視頻中,有的機器人在拾取電池芯并將它們準(zhǔn)確插入到對應(yīng)的托盤中,還有機器人在進(jìn)行其他物品的擺放和衣物折疊等操作。
緊接著就是上文提到的,宇樹科技祭出了9.9萬的價格大招。
看到如此一系列密集的大事件,很難讓人不產(chǎn)生一種人形機器人的春天已經(jīng)來臨的幻覺,也難怪有人會高呼“2024年是人形機器人元年”。
到今天,人形機器人經(jīng)歷了怎樣的發(fā)展歷程?為什么大家突然又對其展現(xiàn)出如此大的熱情?在這些歡呼的背后,人形機器人的發(fā)展還面臨哪些問題?本文將就這些議題展開討論。
根據(jù)控制論的觀點,非生命體具備智能的一個關(guān)鍵表現(xiàn),就是其能夠和生命體一樣對周遭復(fù)雜環(huán)境進(jìn)行主動感知,并作出合理反應(yīng)。這需要至少三個要素的支撐:感覺要素、運動要素和思考要素。
如果從這個視角出發(fā),第一臺稱得上人形智能機器人的產(chǎn)品,是早稻田大學(xué)在1972年推出的WABOT-1。這款機器人在不用人類時刻操縱的情況下,可以實現(xiàn)自主行走、抓取物體、用日語交流等行為。通過各類傳感器,這款機器人擁有一定程度的視覺、聽覺和觸覺,可以感知周圍的狀況,并主動調(diào)整自己的動作。
事實上,在波士頓動力和特斯拉站在聚光燈前的日子里,人形機器人領(lǐng)域主要由日本的機構(gòu)和企業(yè)引領(lǐng)。
1984年,WABOT-1的升級版WABOT-2被推出。它被設(shè)定為一款音樂機器人,可以識別樂譜,并根據(jù)樂譜彈奏風(fēng)琴等樂器。
與此同時,工業(yè)巨頭本田也進(jìn)入了這一賽道,并在2000年推出了以著名科幻作家命名的阿西莫(ASIMO)機器人。這是一款具備奔跑、跳躍等多項運動能力,還可以通過視覺、聽覺感應(yīng)器規(guī)劃路線,給人端茶倒水、表演舞蹈,并能夠用語音和手語跟人交流的機器人。
此后,追光燈便打到了北美的舞臺。
先是波士頓動力在2013年推出原型機,并于2016年正式發(fā)布,可以實現(xiàn)跑酷、后空翻、側(cè)滾翻、前滾翻、180度空中轉(zhuǎn)體、空中劈叉、360度空中轉(zhuǎn)體等高難度動作,還能在復(fù)雜的野外環(huán)境中自主完成各種任務(wù)的Atlas機器人,長期引領(lǐng)著人形機器人的話題榜。
接著,在2021年的特斯拉AI Day上,馬斯克通過幻燈片發(fā)布了一款概念人形機器人Tesla Bot,將人形機器人的發(fā)展帶入了一條新賽道——從過去更加關(guān)注軀體的發(fā)展,轉(zhuǎn)向如何讓其擁有更強的通用智能。
人形機器人的發(fā)展并非一帆風(fēng)順。
由于其研發(fā)成本和造價太高,同時又找不到合適的應(yīng)用場景,使得該領(lǐng)域始終無法實現(xiàn)商業(yè)閉環(huán)。本田在2018年就停止了機器人研發(fā)業(yè)務(wù),而波士頓動力更是幾經(jīng)易手,從谷歌到軟銀再到現(xiàn)代,命途坎坷。商業(yè)模式的不明朗,讓人們一度對這個賽道的熱情降至了冰點。
之所以人們在2024年又開啟了對人形機器人的熱情,主要原因來自成本的推力和技術(shù)的拉力。
首先是大語言模型技術(shù)的突破性發(fā)展,讓人們看到了人形機器人向通用性方向發(fā)展的可能性。過去的機器人需要通過編程告訴它們執(zhí)行什么任務(wù)和怎樣執(zhí)行任務(wù),沒法實現(xiàn)編碼之外的感知與行為,這也大幅限制了其應(yīng)用場景。而大語言模型技術(shù)的發(fā)展,一方面讓人機交互變得更加簡單,另一方面也有望實現(xiàn)反應(yīng)層面的涌現(xiàn)與泛化,通過自主學(xué)習(xí)完成那些“意料之外”的工作。
其次,就是新能源汽車等行業(yè)的發(fā)展,讓一些人形機器人的關(guān)鍵零部件的價格持續(xù)下跌,進(jìn)而讓人形機器人整體的成本下降成為了可能。
過去,一臺人形機器人的價格動輒在100萬人民幣以上。但近期,市場上陸續(xù)出現(xiàn)了一批單價價格帶在15到20萬之間的人形機器人,斯坦福機器人、特斯拉、國內(nèi)的智元機器人等都先后表態(tài)會將成本控制在20萬以內(nèi),價格下探成為必然趨勢。
盡管如此,人形機器人要在智能化和市場化方面實現(xiàn)突破,依舊有一段遠(yuǎn)路要走。
上世紀(jì)80年代,人工智能學(xué)者漢斯·莫拉維克、羅德尼·布魯克斯、馬文·閔斯基等人發(fā)現(xiàn),與傳統(tǒng)假設(shè)不同,人類所獨有的高階智慧能力只需要非常少的計算能力,例如推理,但是無意識的技能和直覺卻需要極大的運算能力,并據(jù)此提出了著名的莫拉維克悖論。
以曾經(jīng)在圍棋領(lǐng)域大殺四方的AlphaGo為例。
盡管其圍棋能力領(lǐng)先到令人恐怖的程度,但是嚴(yán)格意義上講它不是一個完整的棋手,只是一個棋手的大腦部分,負(fù)責(zé)識別局勢、做出決策,而充當(dāng)這個棋手軀體的其實是一個人類棋手。AlphaGo根據(jù)對手的招數(shù)給出應(yīng)對后,需要一個專門的人類棋手去移動棋子。
我們常常會忽略這一點,是因為在我們的認(rèn)知習(xí)慣中,移動棋子是一個再簡單不過的操作,在整個對弈過程中,與高深莫測的下棋策略相比,這個動作簡單到可以忽略的程度。但正是這種對人類而言無比簡單的動作,恰恰是智能機器面臨的最大挑戰(zhàn)。
一個完整的對弈過程,其實是多重能力共同驅(qū)動的結(jié)果,既需要感知、判斷、分析和決策這些大腦功能,也需要移動和操作這樣的軀體功能。由于我們本能地對人類引以為傲的智力的重視,使得我們在相當(dāng)長的一段時間里都只關(guān)注機器的智能,而沒有將其視為一個完整的、獨立的物種去看待。
隨著應(yīng)用場景的拓寬和豐富,我們才逐漸意識到,在腦力上能夠戰(zhàn)勝頂尖圍棋手的智能機器,在運動協(xié)調(diào)性上可能還不如一個小孩子。并不是說機器在單純的運動和操作方面不如人類,機器可以搬運很重的東西,也能以讓人類望塵莫及的速度移動,但是它們無法像人類那樣自如地協(xié)調(diào)好智能模塊和體能模塊。
著名認(rèn)知心理學(xué)家史迪芬·平克在其《語言本能》一書中對此評價道:“經(jīng)過35年人工智能的研究,發(fā)現(xiàn)到最重要的課題是‘困難的問題是易解的,簡單的問題是難解的’。四歲小孩具有的本能——辨識人臉、舉起鉛筆、在房間內(nèi)走動、回答問題——事實上是工程領(lǐng)域內(nèi)目前為止最難解的問題。當(dāng)新一代的智慧裝置出現(xiàn),股票分析師、石化工程師和假釋委員會都要小心他們的位置被取代,但是園丁、接待員和廚師至少十年內(nèi)都不用擔(dān)心被人工智能所取代。”
盡管大語言模型的突破為人形智能機器人的發(fā)展帶來了新曙光,但是人形機器人要實現(xiàn)“大腦”和“機體”之間的順暢銜接和絲滑運作,依舊是一段漫長而艱辛的道路,需要不同領(lǐng)域的參與方共同努力推進(jìn)。
除了技術(shù)方面的障礙,價格也是一個問題。
在技術(shù)傳播理論中,有一個概念叫價格價值(Price Value),指消費者在權(quán)衡技術(shù)產(chǎn)品或服務(wù)的感知收益與其感知成本后,所形成的總體評價。簡單來說,就是消費者認(rèn)為購買或使用某項技術(shù)所花費的金錢是否值得。
所以,一個產(chǎn)品是否便宜,不是單方面價格因素決定的,而與消費者的感受有很強的關(guān)系。
如果單純從廠家的角度來看,一臺機器人,我從過去的100萬、50萬降到了9.9萬,這種骨折式降價的努力不可謂不大。但是回到顧客這邊,我花9.9萬買個東西,總得為個什么。顧客看重的,還是我買它過來能干什么,如果只是看它翻跟頭、走路、拿放東西,那多少有點不值當(dāng)。
當(dāng)然,肯定會有一些燒包樂意花錢買個新鮮、炫個闊綽。但是僅靠這些人撐不起一個大市場,無法形成真正的商業(yè)閉環(huán)。
所以,人形智能機器人要解決的第二個問題,就是如何讓它們真正能夠在人類社會發(fā)揮價值。相關(guān)企業(yè)需要把自己克服的技術(shù)障礙轉(zhuǎn)換成真正的客戶收益。
如果從這個角度看,我們需要的或許不是人一樣的機器,而是能夠代替人的機器。
波士頓動力的首席技術(shù)官阿龍·桑德斯(Aaron Saunders)在一次采訪中表示:人形并不一定是機器人完成任務(wù)最好的形態(tài)。
從上世紀(jì)80年代開始,機器人領(lǐng)域就形成了一種共識——機器人應(yīng)該最先應(yīng)用在“4D”領(lǐng)域,即臟(Dirty)、危險(Dangerous)、乏味(Dull)和困難(Difficult)四類場景。這些場景下的任務(wù)通常是人類不愿意或不適合執(zhí)行的,而機器人因其不知疲倦和不怕危險的特性,能夠很好地完成。通過讓機器人承擔(dān)4D場景下的任務(wù),不僅可以提高效率和安全性,還能釋放人類從事更具創(chuàng)造性和價值的工作。
相比于還停留在把機器人當(dāng)小孩子,讓它們給“長輩”表演一些華而不實的節(jié)目階段的人形機器人,一些擺脫了外形桎梏,奔著問題和任務(wù)去的公司,已經(jīng)開始讓自己的機器人產(chǎn)品在對應(yīng)的場景中發(fā)揮價值。
就在宇樹科技發(fā)布9.9萬機器人的第二天,全球第一商業(yè)和金融媒體CNBC公布了第12屆“2024 CNBC Disruptor 50”榜單。在這一被譽為全球科技獨角獸的搖籃的榜單上,OpenAI毫無懸念位列第一,榜單上排名第42位的,是一家名為Gecko Robotics的機器人公司。
這是一家成立于2013年的公司,兩個創(chuàng)始人當(dāng)年還是格羅夫城市學(xué)院學(xué)習(xí)電氣工程的學(xué)生。創(chuàng)業(yè)之前他們參與了一項校內(nèi)鍋爐安全檢查的工程項目,最后以在該項目中發(fā)明的方案為基礎(chǔ),創(chuàng)立了這家公司。
Gecko Robotics的主要產(chǎn)品是名為TOKA的智能機器人,該機器人有多款型號,配備不同數(shù)量超聲波傳感器的它們,可以爬上工廠的任意管道和其他重要的工業(yè)結(jié)構(gòu)墻壁,對油管、鍋爐或者其他設(shè)備進(jìn)行超聲波檢測,然后通過其自主研發(fā)的快速超聲波網(wǎng)格化技術(shù)生成厚度網(wǎng)格圖,并以2D 和 3D 形式直觀地展示在軟件中,用于識別腐蝕和其他損壞機制導(dǎo)致壁層變薄的區(qū)域,可以讓客戶對目標(biāo)設(shè)施的情況了如指掌,提前預(yù)判存在的問題并計劃解決措施。
在這種機器人出現(xiàn)之前,設(shè)備檢測通常是專業(yè)人員手持超聲波探測器進(jìn)行的。這種方式首先是很危險,因為存在一些高空作業(yè)場景和有毒有害場景;其次是用這種方式探測到的范圍和數(shù)據(jù)量都極為有限,通常只能覆蓋占整體大約 3-5% 的設(shè)施。而這種全新的機器人可以在最危險和苛刻的環(huán)境中運行,能夠提供近99%的覆蓋,收集的數(shù)據(jù)量比傳統(tǒng)手持方法高 1000 倍,檢測的速度平均快 10 倍。機器人完成數(shù)據(jù)采集后,將收集到的數(shù)據(jù)提供給專業(yè)人員,最大限度地發(fā)揮專家貢獻(xiàn)的同時還能讓他們免受傷害。
Gecko Robotics首席執(zhí)行官兼聯(lián)合創(chuàng)始人Jake Loosararian曾自豪地表示:“每天,在世界各地的數(shù)百個客戶站點,我們的機器人正在保持發(fā)電廠在線、軍事資產(chǎn)準(zhǔn)備就緒和工廠大門打開。”
在筆者看來,這才是機器人真正應(yīng)該奔赴的方向。
人形機器人正在迎來一個快速發(fā)展的新階段,我們應(yīng)該為其已經(jīng)取得的突破性進(jìn)展感到高興,卻又不能高興得太早。盡管理論的道路已經(jīng)鋪就,但是在實踐層面我們依舊處于起點階段。人形機器人要突破的,除了技術(shù)堵點和成本阻礙外,還要面臨客戶價格價值感受的問題。
企業(yè)讓機器人越來越像人,越來越智能,只是這個故事的一面,這個故事的推進(jìn)還需要解決另一個問題,就是我們絕不是要造出一臺臺跟我們擁有類似能力的機器,而是要創(chuàng)造出一款款能夠在具體應(yīng)用場景下比人類能產(chǎn)生更大價值,同時成本更低的產(chǎn)品。