亚洲v欧美v另类v综合v日韩v,好看的黄色片,这里只有精品免费视频,特级做a爱片久久久久久

多模態模型賦能智能終端,AI傳感成關鍵硬件

作者 | 物聯網智庫2025-03-06

在與OpenAI分道揚鑣之后，Figure沒有停下機器人與AI結合的腳步，發布了具身模型Helix。Helix是一款對整個人形機器人上半身進行高頻率、連續控制的視覺-語言-動作（VLA）多模態模型。VLA模型不僅僅是機器人智能化關鍵技術，應該說智能硬件發展到高階智能，多模態能力都是其核心功能。在上篇文章中也提到過，在觸覺相關的感知與處理能力成熟后，VLA發展成全模態的視覺-觸覺-語言-動作VTLA模型也是必要的。

和機器人有著很多共同技術棧的智能汽車行業，有著多模態能力的VLA模型亦在加速崛起。不少智駕從業人士將VLA模型視為當下繼特斯拉端到端方案之后的端到端2.0版本，被譽為“端到端與多模態模型融合得更徹底的產物”。VLA模型從多種傳感器數據中提取豐富的內外部信息，再借助語言端側模型理解指令最后轉化為駕駛操作指令，推動智能駕駛向L3L4等級發展。中國乘用車產業聯盟秘書長近期也表示在量產車市場，未來VLA模型有望成為高階智駕的標配。

在VLA模型的帶動下，具備多模態交互推理能力的多模態模型成為焦點。北大團隊在公布基于DeepSeek-R1更新的多模態版DeepSeek-R——Align-DS-V時也表示“這種全模態的信息流對于大模型范式轉向通用人工智能非常重要”。

隨著DeepSeek正式開啟“開源周”，每天開源一個項目再度引發AI模型的開源潮。與此前推理模型的開源不同，這幾天AI模型在多模態領域“卷”了起來。持續火爆的DeepSeek本身就有著多模態框架，越來越多基于DeepSeek的改良版多模態模型涌現。

與此同時，和智能硬件結合的多模態模型同樣開始催生傳感器端側智能變革。沒有先進的傳感信息收集，全模態的交互處理能力就無用武之地。多模態模型加持的終端設備，正在推動傳感器向AI傳感器變革。

然而多模態模型的應用并非沒有挑戰，數據融合的復雜性要求極高的計算資源，而且融合后的終端側模型參數變得更大，既要求高效實時又要推理能力，這對芯片硬件有相當高的要求。同時海量感知信息收集需要配套的先進多模態感知底座，沒有傳感基礎硬件的支持，一切都只是空中樓閣。

多模態模型與硬件算力結合落地，點燃智能硬件落地前景

機器人賽道上從Figure的Helix來看，里面有兩個關鍵的模塊，第一個模塊是一個擁有70億參數的開源端側互聯網預訓練視覺語言模型，用于處理語音和視覺信息，即VLA中的VL。第二個模塊則是一個擁有8000萬參數的AI模型，負責將語言模型發出的指令轉化為精確的機器人動作，即VLA中的A。這一架構讓Helix能實時處理復雜場景，并提供高度精準的動作反饋。

在VL部分的感知環節上這里主要集中在視覺和語言信息的融合上，將攝像頭、用戶語言等各種感知數據收集，進而轉化為統一的token embedding用于后續處理。根據Figure介紹，Helix完全能夠在嵌入式低功耗GPU上運行。Helix VLA模型與英偉達GPU的結合給火熱的機器人賽道再次升溫。

智駕領域走視覺路線的Nullmax攜手黑芝麻智能也發布了基于華山系列A2000的多模態模型智駕方案，在不依賴激光雷達系統中，通過攝像頭、語音等多模態信息，幫助汽車獲得感官能力并實現多種高階智能功能。

在智駕領域走純視覺感知路線尚沒有定數，走多傳感器融合的方案也不少，毫米波雷達、激光雷達自然也是多模態模型中重要的感知信息。華為智駕3.0的激光雷達+毫米波雷達+視覺融合的多模態模型方案搭配華為的硬件算力，亦是自動駕駛產業融合派的技術代表。

在AI模型上，打造高質量LLM和多模態模型正在為AI的商用應用和終端側推理落地做好準備。對于帶有執行功能的機器人等終端側硬件來說，從多模態模型過渡到VLA模型則是高階智能的未來。

在智能終端硬件側，多模態模型和硬件算力的適配，則是能否真正應用起多模態能力的重點，也是推進終端落地的關鍵。數據融合后高復雜性需要恰當的計算資源讓整個智能系統運轉起來。在多模態模型的技術周期，DeepSeek帶動的AI模型訓練成本下降和開源合作上的結合能讓更多的開發者進行高質量多模態模型開發；與硬件算力的適配將進一步推動多模態能力在終端側的部署和推廣，提升終端側智能體驗。

多模態模型與硬件算力的結合正在積極涌現，面壁智能研發基于MiniCPM系列端側多模態模型已經與安謀科技、愛芯元智、紫光展銳、高通、瑞芯微、英特爾等算力硬件廠商展開深度合作；深思考人工智能不久前發布的鴻蒙系統“TinyDongni”及“DeepSeek”超小端側多模態大模型，已與國產頭部模組廠商廣和通、深開鴻達成合作推出適配國產算力的硬件解決方案。

模型層和算力層的打通，多模態模型與硬件算力適配結合落地，是終端智能設備進入千行百業的關鍵動作，點燃了智能硬件落地前景。

多模態模型催生傳感器端側智能變革，AI傳感打造感知底座

在多模態模型如火如荼地發展下，用于智能硬件多模態模型中的一切數據源頭都建立在傳感器帶來的輸入上，用于感知各類信息的傳感器也迎來智能變革推動力。在智能硬件上不可或缺的AI傳感迎來多模態模型技術周期里的新發展機遇。

在終端側，已經可以看到以汽車和機器人為代表的多模態感知融合＋多模態模型決策能力的體現，Figure的Helix更是展現了多模態感知融合＋多模態模型決策＋精確動作指令執行的潛力。目前消費領域AI眼鏡依靠其多模態感知的硬件特性與多模態模型結合得很快，后續消費電子領域，也會出現更多的案例。

傳感方面視覺傳感是眾多智能設備的剛需，自然是本技術周期內最直接的受益者。在很多消費級智能硬件中核心CMOS 圖像傳感器是視覺感知的基礎器件。索尼的AI圖像傳感IMX系列是其中具有代表性的傳感器件，可單獨進行圖像處理、高速邊端AI處理，能將端側模型寫入嵌入式內存中；國內高性能CMOS圖像傳感器芯片廠商思特威在視覺應用場景上正在推進AI SoC+Sensor系統級集成的端側視覺組合；韋爾股份同樣表示看好AI視覺市場具備的高速增長潛力，在AI＋圖像傳感器上已深度布局。

在直接感應技術上雷達的應用提供了高精度的定位，特別是4D雷達在智能家居、智能駕駛領域起到了關鍵作用，還有不斷下探成本的激光雷達傳感。在傳感器智能變革中，雷達芯片與AI的結合也成為關鍵創新點。在該領域領先的TI、英飛凌均開始在傳感芯片搭載AI處理單元來運行傳感器端側的模型向AI傳感進化。TI在最新的單芯片60GHz毫米波雷達上內置了片上加速器和DSP來支持邊端側模型的運行。

傳感器與AI模型結合的端側傳感方案在終端設備上出現的越來越多，傳感器件也從單一數據采集器向智能決策節點轉變，這對實現更低功耗的感知決策分析，減少數據的傳輸延遲有著積極的推動作用。同時AI傳感器件通過端側模型預分析數據，能為多模態模型提供結構化信息便于進行數據融合處理解析出完備的多模態參數，大幅提升硬件設備的智能化程度，這也是VLA模型所需要的。

傳感器件正在發生的智能變革，可以將其理解成智能化驅動的感知底層邏輯的重塑。傳統的感知范式傳感器只需要完成數據收集，將數據交給云端來做處理與決策，傳感器只需要關心精度是否足夠。而這種變革里新的范式是，傳感器收集到數據后在端側進行處理與預分析，硬件層面上算力與本地感知數據處理完成閉環，既提高了也提升了設備安全，就像是給傳感器裝上了“大腦”。

更進一步的是多模態感知加多模態模型，賦予了端側設備自主理解場景的能力，多模態的信息都能被捕捉并被設備理解，推動感知系統從“采集-傳輸-處理”的線性鏈條向“感知-認知-行動”的閉環進化。

當前傳感器廠商大多通過傳感硬件來做商業盈利，在傳感器智能變革的進程里，未來產生AI傳感器組合預測模型打包而成“傳感器即服務”的商業模式也不為奇。AI時代，硬件是身體，模型是靈魂，產業價值鏈條也在不斷演進。