年初的CES 2025可以說給今年的智能硬件產品拉開了盛大的帷幕,不少創新的智能產品紛紛登場,在AI技術的加持下展現出豐富的應用方向。雖然AI發展還有漫長的道路要走,但從云到端已經成為一個明確的發展趨勢,AI世界在今年開啟了屬于智能硬件的下半場。
這些登場的智能硬件產品里,機器人產品是極具代表性的一類,尤其是人形機器人可以說是展會上最能代表前沿科技成果的焦點。英偉達演講期間14款機器人登場組成的“人形機器人軍團”加上黃仁勛那句“通用機器人的ChatGPT時刻即將到來”的感嘆,令人印象深刻。
從人形機器人前后的發布足跡來看,如果說之前機器人的性能革新,AI技術還隱于底層軟硬件背后,更強調場景任務精密地控制執行。那么最近圍繞人形機器人的性能革新,都已經不約而同地圍繞一個關鍵宣傳詞——AI。
當前AI發展已經用盡了所有人類知識進行訓練,現在開始使用合成數據,并將在未來 3-4 年內發展到可以完成任何認知任務。現階段AI已經給人類生活帶來了改變,未來將繼續帶來巨大變革,甚至可以完成任何人想要的事情。作為智能硬件的代表,機器人與AI的結合自然也更緊密,同時二者的結合也加速了機器人向落地更進一步。
作為引領人形機器人浪潮的Optimus,馬斯克不久前公開表態要把特斯拉的未來押注在Optimus機器人上,2025年特斯拉的目標是制造數千臺人形機器人,2026年特斯拉的人形機器人產量將增加10倍,目標為生產5萬到10萬個人形機器人,以后或每年翻10倍。
除了人形機器人,消費級智能機器人產品也開始涌現,如陪伴機器人、清潔機器人、商業服務機器人均開始在智能化上衍生多樣功能。特別是今年年初陸續登場的眾多創新AI陪伴機器人,帶動了AI機器人玩具這一新賽道的發展。
在前文《CES智能終端崛起引領算力下沉,端側AI芯片性能再革新》中曾提到過,英偉達梳理的AI技術進化路徑是從 Perception 感知AI到 Generative生成式AI,再到Agentic代理型AI,最終實現具備傳感與執行功能的Physical 物理型AI。
在Physical 物理型AI終極形態,任何能感知并執行操作的設備都被視為是機器人,并由AI賦能釋放應用潛力。物理AI這一概念正在引領AI技術在機器人端側的革新,通過硬件與模型的深度融合將AI從數字世界帶入物理世界。
機器人借力智能模型通過多模態能力增強智能理解和決策是現今產業鏈正在推進的方向,從近期人形機器人發展能明顯看出這個趨勢。
不久前阿加犀攜手高通,發布了全球首臺完全基于高通SoC的端側多模態AI大模型人形機器人——“通天曉”(Ultra Magnus)。根據官方給出的定位,這是基于終端側生成式AI的具身智能人形機器人解決方案。
高通的QCS8550處理器為機器人動作控制、感知、決策規劃和語音交互提供底層計算能力支持。同時機器人基于終端側大語言模型技術,運用端側語言小模型識別實現自然語音交互和用戶意圖理解,此外還融合了視覺感知技術對機器人運動控制與作業進行規劃。
在英偉達演講“人形機器人軍團”中亮相的銀河通用Galbot G1則搭載了具身抓取基礎大模型。不久前銀河通用也聯合北京智源人工智能研究院(BAAI)及北京大學和香港大學研究人員正式發布了具身抓取基礎大模型 GraspVLA。Galbot是人形機器人分支下的輪式人形機器人,即下半身采用AMR式的輪式移動地盤,不追求雙足式在靈活移動上的性能,聚焦于上半身的功能執行。
這里不過多展開二者的形態之爭,輪式的優勢在于從目前發展階段的商業化角度來看,輪式人形機器人設計、制造成本會相對較低一些,輪式移動底盤已經相當成熟比雙足的運動控制簡單很多成本也更低,在商業化上可能先取得進展。聚焦在上肢的功能執行,Galbot的模型層通過仿真合成數據自研合成千萬級的場景數據以及海量抓取和導航數據來掌握泛化閉環抓取能力,達成基礎的感知操作模型。
去年剛剛成立的靈初智能不久前也發布首個基于強化學習(RL)的具身模型 Psi R0。該模型也是感知操作模型,支持雙靈巧手將多個技能串聯進行復雜操作,還可以實現跨物品、跨場景級別的泛化。
不止是2B類機器人在融合模型開始智能化升級,在許多消費類機器人產品上,這一趨勢發展得同樣迅速,特別以語言與感知模型與終端側的結合居多。
大象機器人開發陪伴類機器人以動物外觀作為外形設計,搭載AI大模型,理解人類語意和情感判別,提供情緒價值為主的智能交互。
TCL近期推出的的分體式智能家居陪伴機器人Ai Me基于AI大模型不僅能與人進行多模態的自然交互,提供溫暖的情感陪伴和擬人互動,還能智能移動并自動捕捉家庭美好瞬間。此外,Ai Me還會通過與用戶的互動不斷學習和適應家庭成員行為習慣控制家居設備,在陪伴等情緒價值之外兼顧了家居智能中控的功能,功能發散得越來越多樣。
在清潔家電深耕多年的云鯨智能同樣在向機器人+模型的具身智能方向轉變,推出的逍遙系列已經是具身智能雛形,通過大模型下達清潔指令,機器人依靠自己的語義理解去行動、識別、完成清潔。
消費類機器人尤其是提供情緒價值的陪伴類機器人有著很強的玩具屬性,在模型技術的發展下這些機器人從簡單的互動設備進化到集教育、陪伴和娛樂功能于一身。這類機器人和手辦、玩偶以及“谷子”一樣,能在情緒上給予消費者很高價值反饋,有著很高的市場接受度高,市場空間正在打開。
其實將視野再放大一些,很多創新的實體終端設備都開始搭載AI技術來迭代功能,在終端設備與終端側AI的深度融合下,未來手機、PC,家電、汽車、玩具等等設備未嘗不是另一種形態的機器人,這些實體的智能終端也正是物理AI的愿景。
在這些終端市場的發展上,終端側AI也正朝著多模態融合、模型小型化與適配等方向發展,與終端硬件配置協同更新。可以說正是因為模型能力已演進到一定程度能在終端側賦能硬件,才讓物理AI變得可行。
Physical物理型AI在基礎硬件上的需求提升自然是全方位的,聚焦在模型上,硬件配置完備機器人能否在不確定的環境下正常運行,決定因素之一是具不具備泛化決策能力的“大腦”。建立起對空間與物理過程進行精準建模、理解與推理決策的“世界模型”是實現具身智能的前提。
以NVIDIA在CES 2025上面向物理AI開發發布的最新“世界基礎模型”——Cosmos為代表,Cosmos是一套“用于物理感知視頻生成的開放式擴散和自回歸 Transformer 模型”,擁有一系列開放的預訓練世界基礎模型,可以預測和生成虛擬環境未來狀態的物理感知視頻的神經網絡。該世界基礎模型通過生成合成數據,使用包括文本、圖像、視頻和運動在內的輸入數據來生成和仿真虛擬世界,以準確模擬場景中物體的空間關系及其物理交互。
應該說在當前的AI架構和模型范式下,通過生成式物理仿真,捕捉現實世界時空四維鏡像,從而獲取大量的物理數據是實現具身智能的關鍵。和語言大模型不一樣,機器人世界模型所需的訓練數據需要精確標定來進行學習和泛化,很難從現實世界完成龐大的采集量且采集后多模態數據很難標定,度量不一這些數據就無法被模型利用。
機器人模型從Sim到Real也就成了更有效率的一條路,生成大量可控的基于物理學的合成數據,仿真虛擬世界以準確模擬場景中物體的空間關系及其物理交互。在物理AI模型部署到現實世界之前進行仿真測試和調試,以及在虛擬環境中進行強化學習以加速AI智能體學習。然后通過部分真實數據做對齊,進一步提高機器人執行準確性,最終實現物理AI愿景。
當然,實現真正意義上的Physical物理型AI,這些世界模型的建立與應用需要更多的計算能力和海量數據的學習與訓練。除了通向物理AI終局的世界模型,終端側大模型以及細分小模型的應用已經在持續推動終端設備智能化進程,讓其擁有感知環境變化,依據觀測數據優化決策,從而更精確地進行物理交互的能力。而未來更全面更真實世界模型與終端機器人的融合將進一步將AI向物理AI終局推動。
世界模型與下沉到端側的語言、感知、操作模型共同賦能下物理Al將不斷賦予“以機器人為代表的終端物理設備”自我適應和深度決策能力,使其在真實世界中具備更強的動手與動腦能力。
這里強調了是“以機器人為代表的終端物理設備”,物理AI的終局并不一定是現階段我們認知的機器人,尤其不一定是人形。物理形態只是載體,在AI的加持下,設備外形設計適配具體任務的執行即可。在終端設備與終端側AI的深度融合下,未來家電設備、自動汽車等設備又何嘗不是另一種形態的機器人,這些實體的智能終端也正是物理AI的愿景。
世界基礎模型提供物理世界知識和高仿真數據,奠定泛化基礎;端側模型經細化、壓縮及多模態融合優化,適配終端側設備算力需求;加之基礎硬件如專用計算芯片、AI加速器性能的提升,物理AI時代正在慢慢變為現實。