亚洲v欧美v另类v综合v日韩v,好看的黄色片,这里只有精品免费视频,特级做a爱片久久久久久

RobotSense: 智體科技開創視覺-語言-動作協同的Robotaxi決策新范式
作者 | 物聯網智庫2025-02-10

正如DeepSeek憑借出乎意料的高性能、低成本和開放源代碼策略,迅速引爆全球市場、震撼美股科技板塊,并引來業內大佬連連贊嘆,其技術突破正預示著全球AI競爭格局的深刻變革。這場風暴不僅證明了中國在人工智能領域擁有顛覆性潛力,更顯示出在資源受限的情況下,創新依然能夠打破固有思維,重塑行業規則。與此同時,廣州智體科技作為聯想懂的通信AI生態核心合作伙伴,也在積極布局前沿科技,利用RobotSense決策框架在復雜動態的城市交通環境中掀起一場技術革命。

廣州智體科技非常榮幸應中華網邀稿,通過這篇技術文章向讀者展示RobotSense決策框架,揭示其如何在復雜動態的城市交通中創造價值。為了讓更多讀者了解文章內容,我們將其核心內容搬到公眾號中與您分享。本篇文章聚焦于RobotSense決策框架的核心理念,探討這一框架如何通過“視覺-語言-動作”協同機制,推動自動駕駛決策技術的革新,突破傳統智能駕駛的瓶頸。

1. 引言

自動駕駛技術正經歷著快速的發展,尤其是隨著感知能力和決策算法的進步,越來越多的自動駕駛系統正在走出封閉的測試環境,面臨日益復雜的現實世界駕駛場景。端到端自動駕駛方法的提出試圖將所有模塊融合到一個單一的系統中,直接從傳感器數據映射到控制指令,從而減少信息損失,提高系統效率。然而,在復雜的Robotaxi落地場景中,端到端方法缺乏城市行駛的基本邏輯知識,并且在訓練中容易形成錯誤的捷徑[1]。VLM (視覺-語言模型)的出現為端到端自動駕駛提供了新的技術路徑。VLM能夠將視覺信息與自然語言信息進行融合,從而實現對復雜場景的深度理解,例如識別圖像中的物體、理解交通規則、分析駕駛行為等。而分層規劃方法更能將Robotaxi復雜的規劃任務分解成多個層次,例如全局路徑規劃和局部路徑規劃,從而更加有效地提高規劃效率和應對動態環境的能力。

廣州智體科技提出一種融合 VLM 的語義驅動的Robotaxi自動駕駛決策框架RobotSense。這種新型 Robotaxi 自動駕駛框架結合了VLM和E2E(端到端模型),旨在實現更安全、更智能的自動駕駛。該系統采用分層規劃架構,VLM 負責生成自然語言形式的高級規劃決策,然后根據 VLM 的輸出和低層感知信息生成多級語義動作序列,并將這些動作序列整合成端到端模型的輸入,最終由端到端模型預測精確的軌跡,將抽象的動作指令細化為更具體、更易于執行的底層動作序列,并根據當前的駕駛環境和動態目標的行為預測,生成更具針對性的動作序列,這一創新的方法增強了低層規劃對高級語義信息的理解和利用能力。此外,該框架還采用了多圖像編碼方法、多視圖提示和面向Robotaxi規劃的QA等技術,以提高 VLM 在Robotaxi的場景理解能力和規劃性能。RobotSense自動駕駛決策框架是現階段能夠真正將VLA (Vision-Language-Action 模型)概念落地于Robotaxi場景的自動駕駛框架,其結合了視覺(Vision)、語言(Language)和動作(Action)三個模態的數據,通過深度學習技術實現對復雜場景的理解和決策。

2. 框架設計

2.1 框架總體架構

該 Robotaxi 自動駕駛系統框架包含兩大模塊:RobotSensor模塊通過VLM處理規劃決策的生成,RobotActor模塊通過E2E模型預測精確的軌跡,最終實現更安全、更智能的自動駕駛。

該系統接收多視角圖像序列、Robotaxi 乘客的指令和導航命令作為輸入,最終輸出連續的控制指令,系統流程如下:

  • 多視角圖像序列:由多個攝像頭獲取的圖像信息,提供不同視角下的環境信息,例如車輛周圍的道路狀況、交通參與者等;

  • Robotaxi乘客的指令與導航命令:Robotaxi 乘客的指令包括乘客想要到達的目的地、路線偏好等,導航命令則根據乘客指令和地圖信息生成具體的導航路徑;

  • VLM 感知模塊:該模塊負責處理多視角圖像序列、Robotaxi乘客指令和導航命令,提取語義信息,并提供決策所需的環境理解,例如道路拓撲、交通規則、行人和車輛的屬性與行為意圖、天氣和光照等環境因素;

  • HSARM 模塊整合高層規劃的輸出和低層感知信息,例如車輛自身狀態、周圍環境信息、動態目標信息等,并進行多級推理,生成更細粒度、更具針對性的動作序列。例如,將      “左轉” 分解為 “減速”、“打轉向燈”、“查看側方車輛”、“轉向” 等;

  • 端到端模型: 模型接收 HSARM 模塊輸出的多級語義動作序列和其他感知信息,預測車輛的精確軌跡。

2.2 RobotSensor模塊

RobotSensor模塊主要由三個部分組成:輸入部分獲取輸入信息,視覺編碼器用于從圖像中提取特征信息,然后由Robotaxi視覺適配器實現圖像特征適配。文本編碼器將Robotaxi乘客指令與導航命令編碼為文本tokens[2]。圖像和文本tokens最終被輸入到 LLM 中,LLM 用來預測高級決策。最后,HSARM 部分輸出的多級語義動作序列會被整合到端到端自動駕駛模型的輸入中。

2.2.1 輸入部分

  • 多視角圖像序列:由多個攝像頭獲取的圖像信息,提供不同視角下的環境信息,例如車輛周圍的道路狀況、交通參與者等。

  • Robotaxi乘客指令與導航命令:Robotaxi 乘客的指令包括乘客想要到達的目的地、路線偏好等,導航命令則根據乘客指令和地圖信息生成具體的導航路徑。

2.2.2 VLM 感知部分

VLM 感知部分負責將輸入的圖像和文本信息轉化為可供決策模塊使用的語義信息。該部分由三個子模塊組成:

  1. 高效的視覺編碼器:用于從圖像中提取特征信息。可以使用      ViT、Swin Transformer 等 Transformer 模型提取圖像特征,以提高圖像處理的效率和準確性。

  2. Robotaxi視覺適配器:該視覺適配器將圖像特征映射到 LLM 的特征空間,使其更適合被 LLM 理解和使用。具體方法是通過圖像查詢對圖像特征進行編碼,并結合多頭自注意力機制,捕捉不同視角圖像特征之間的關聯性,輸出精簡后的圖像標記。

  3. LLM(大型語言模型):通過 LLM 對輸入的視覺信息進行理解,將其轉化為具體的語義信息,如道路拓撲、交通規則、目標物體的屬性和行為意圖。該模塊可以采用預訓練的語言模型進行微調,以適應自動駕駛場景。在具體實施中,為了幫助 LLM 區分不同視角的圖像特征并建立空間理解,智體科技為每個視角設計相應的提示模板,例如 "FRONT VIEW: \n {圖像標記} \n","LEFT VIEW: \n {圖像標記} \n" 等。將包含多視角圖像標記和相應提示的文本輸入到 LLM 中,可以增強 LLM 對駕駛場景的空間理解能力。

2.2.3 HSARM部分

在獲取了語義信息后,系統通過分層動態規劃模塊生成控制指令。分層動態規劃模塊的設計需要考慮各種動態約束[3],例如車輛動力學約束、交通規則約束、舒適性約束等,以確保自動駕駛的安全性和舒適性。該部分包含三個子模塊:

  1. 高層規劃:

  • 該子模塊接收感知部分提供的語義信息以及乘客指令,生成全局路徑意圖和語義元動作序列。

  • 高層規劃的目標是提供一個抽象的駕駛計劃,同時考慮全局的動態約束,例如路徑的可行性、交通規則的遵守情況等。

  1. 低層規劃:

  • 該子模塊接收高層規劃的輸出和感知部分提供的語義信息,結合動態約束,最終輸出連續的控制指令(例如轉向角度、加速度)。

  • 低層規劃需要考慮局部的動態約束,例如車輛的動力學限制、避障、車道保持等,以生成安全、舒適且可執行的軌跡[4]。

為了實現分層動態規劃,可以采用模仿學習、強化學習或兩者結合的方法進行訓練。在訓練過程中,智體科技將動態約束顯式地整合到各個模塊中,例如:

  • 高層規劃: 在路徑搜索或策略學習過程中,將動態約束作為限制條件或懲罰項,引導高層規劃生成滿足約束的路徑意圖和語義元動作序列。

  • 低層規劃: 在軌跡生成或策略優化過程中,將動態約束作為優化目標的一部分,例如使用模型預測控制 (MPC) 或動態規劃 (DP) 等方法生成滿足約束的軌跡。

  1. 為了進一步增強低層規劃模塊對高層語義信息的理解和利用能力,并提升其在復雜動態場景下的適應性,智體科技引入了一個名為“多級語義動作推理模塊”(Hierarchical      Semantic Action Reasoning Module,HSARM)。HSARM 接收高層規劃的輸出和低層規劃所需的上下文信息,并進行多級推理,生成更細粒度、更具針對性的動作序列。

HSARM 的核心是一個多級推理機制,該機制包含以下兩個關鍵步驟:

  1. 語義動作嵌入:      HSARM 首先將高層規劃輸出的抽象動作指令(例如,“左轉”、“靠邊停車”或“加速駛入當前車道”)轉換為低維稠密向量,智體科技稱之為“語義動作嵌入”(Semantic      Action Embedding,SAE)。HSARM 內部維護一個可學習的嵌入矩陣,為每個預定義的動作指令分配一個獨一無二的向量表示。

  2. 動態上下文感知推理: HSARM 利用注意力機制將      SAE 與低層規劃感知到的車輛自身狀態、周圍環境信息以及動態目標信息進行融合[5,6,7]。HSARM 根據融合后的信息,對 SAE 進行多級推理,生成更細粒度、更具針對性的動作序列,例如將“左轉”分解為“減速”、“打轉向燈”、“查看側方車輛”、“轉向”等一系列更具體的動作。

2.3 RobotActor模塊

RobotActor模塊以UniAD端到端自動駕駛模型[8]為基礎進行擴展,HSARM部分輸出的多級語義動作序列會被整合到UniAD模型的輸入中。智體科技將語義動作序列中的每個動作都轉換為對應的 SAE,并將這些 SAE 與多視角圖像序列、導航命令等信息一同輸入到UniAD模型中。通過這種方式,UniAD模型能夠更好地理解 HSARM部分推理出的細粒度動作指令,并在生成軌跡時也會將動態約束作為優化目標的一部分,以確保最終生成的軌跡滿足安全性、舒適性和交通規則等方面的要求。實際上,在RobotActor模塊的設計中,基于HSARM部分最終輸出的方式,UniAD模型完全可以靈活地替代為其他端到端自動駕駛模型。

  1. Robotaxi落地場景理解

智體科技設計一系列面向Robotaxi規劃的 QA,從場景描述,動態目標行為預測以及規劃解釋這三個維度來輔助 RobotSensor模塊對Robotaxi落地場景的理解,具體來說:

3.1 場景描述: 根據感知部分提供的語義信息,生成對駕駛場景的文本描述,包括交通狀況、環境、道路類型、天氣狀況等。這可以幫助系統更全面地理解當前的駕駛環境。

3.2 動態目標行為預測: 結合動態目標的歷史軌跡和當前狀態,預測其未來的行為,例如左轉、右轉、直行、加速、減速等。這可以幫助系統更好地預判潛在的風險,并做出更安全的決策[9]。

3.3 規劃解釋: 將高層規劃模塊生成的元動作序列和低層規劃模塊生成的軌跡,轉換成自然語言描述,解釋系統做出當前決策的原因。這可以提高系統的可解釋性,增強Robotaxi的乘客對系統的信任感。

4. 訓練策略

為了有效訓練RobotSensor模塊中的VLM感知部分,智體科技采用了多階段的訓練策略,包括:

  1. 預訓練:使用大規模的圖像-文本數據集對 VLM 進行預訓練,例如 Conceptual Captions、LAION-5B 等數據集。預訓練階段的目標是使 VLM 學習到通用的視覺和語言表示能力。

  2. 駕駛場景微調:使用智體科技自主規劃采集的用于訓練Robotaxi自動駕駛的高質量傳感器數據集ZTCVD(ZT City Vision Dataset) 對預訓練的 VLM      進行微調。微調階段的目標是使 VLM 適應Robotaxi自動駕駛場景,學習到駕駛相關的語義信息。

  • 自動駕駛數據集ZTCVD包含多個區域的復雜城市道路上的真實測試場景。該數據集涵蓋了從密集的城市中心到郊區景觀的各種環境。這個系列由不同的駕駛條件組成,包括城市環境中經歷的天氣、照明、建筑和交通條件的季節變化。該數據集包含上千種駕駛片段,每一片段包含多達幾十秒的連續駕駛畫面,數據集中的車輛、行人、自行車、標識牌等圖像都經過精心標記,包含多個3D標簽和2D標簽等。

  1. 強化學習:使用強化學習算法對      VLM 和分層動態規劃模塊進行進一步訓練,例如 Proximal Policy Optimization (PPO)、Soft      Actor-Critic (SAC) 等算法。強化學習階段的目標是使 VLM 和分層規劃模塊學習到最優的駕駛策略,從而在復雜動態環境中實現安全高效的自動駕駛[10]。

5. 實驗與結果

5.1 實驗設置

為了驗證RobotSense框架的有效性,智體科技在多個復雜場景中進行了實驗,包括城市道路、高速公路和交叉路口等,涵蓋了擁堵、稀疏、雨天和夜間等不同交通狀況。實驗使用了nuScenes和Waymo Open Dataset等多模態數據集。

  • 實驗條件:每組實驗均采用相同的環境設置,保證公平對比。

  • 對比方法:選擇傳統分層規劃算法、標準端到端方法以及RobotSense框架進行對比分析。

5.2 評估指標

以下基于Robotaxi場景的評估指標用于全面衡量系統性能:

  • 路徑規劃誤差:通過均方根誤差(RMSE)評估預測軌跡與真實軌跡的偏差。

  • 碰撞率:統計車輛與動態目標發生碰撞的比例。

  • 乘坐舒適度:評估加速度和轉向角變化的標準差,以衡量平穩性。

  • 遵守交通規則:通過交通規則違反次數,評估車輛對交通規則的遵從程度。

  • 任務完成率:衡量車輛是否成功到達目的地并避開障礙物。

5.3 實驗結果與分析

實驗結果表明,RobotSense框架在多個關鍵指標上相較傳統方法有顯著提升:

  • 路徑規劃誤差:誤差降低了40%,表明系統能夠更準確地生成軌跡。

  • 碰撞率:降低了45%,顯示出對復雜動態環境更好的適應能力。

  • 乘坐舒適度:平穩性提高,加速度和轉向角變化減少了約30%。

  • 遵守交通規則:違反次數較傳統方法減少了20%。

  • 任務完成率:任務成功率達到98%,顯著優于傳統方法的89%。

深入分析:

  1. 復雜場景中的表現:RobotSense在交叉路口等高動態場景中的路徑選擇更加靈活,得益于VLM模塊對環境的深度理解和HSARM的多級推理。

  2. 碰撞率降低的原因:多模態融合和分層動態規劃有效提升了系統對周圍目標行為的預測精度。

  3. 不足與挑戰:在極端天氣或罕見場景下,框架的泛化能力仍需進一步優化。

6. 結論與展望

RobotSense自動駕駛決策框架以語義驅動的多模態融合方法為核心,結合分層動態規劃架構,開創了Robotaxi技術發展的全新路徑。通過將視覺-語言模型深度嵌入感知與決策流程,該框架不僅在路徑規劃精度、安全性和乘坐舒適度等方面實現了顯著突破,更在復雜動態城市交通場景中展現出卓越的適應性和魯棒性,為Robotaxi落地提供了強有力的技術支撐。實驗結果進一步證明了該框架在多模態感知、語義推理和軌跡優化等關鍵環節上的技術優勢,特別是其在交叉路口等高動態環境中的表現,充分驗證了多級語義推理模塊的創新價值。展望未來,RobotSense框架將在數據規模擴展、模型結構優化及未見場景的泛化能力提升等方面繼續迭代,進一步強化其在極端條件下的可靠性和實時響應能力。與此同時,通過引入輕量化設計與高效部署策略,該框架將更加契合實際應用場景對低延遲、高性能的要求。此外,隨著智能交通技術的進一步融合發展,RobotSense將作為關鍵支柱,與行業合作伙伴共同推動智慧交通生態的全面升級,助力構建高效、安全、可持續的智能出行新模式。作為聯想懂的通信AI生態核心合作伙伴,廣州智體科技將充分利用聯想懂的通信在AI和物聯網領域的技術優勢,秉承技術創新驅動發展的理念,繼續致力于探索和完善該框架,為Robotaxi行業樹立全新的技術標桿。

References

  • Hu, Peiyun, et al. "Safe local motion planning with self-supervised freespace forecasting." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.

  • Jiang, Bo, et al. "Vad: Vectorized scene representation for efficient autonomous driving." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.

  • Chitta, Kashyap, Aditya Prakash, and Andreas Geiger. "Neat: Neural attention fields for end-to-end autonomous driving." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021.

  • Jiang, Bo, et al. "Senna: Bridging large vision-language models and end-to-end autonomous driving." arXiv preprint arXiv:2410.22313 (2024).

  • Hafner, Danijar, et al. "Dream to control: Learning behaviors by latent imagination." arXiv preprint arXiv:1912.01603 (2019).

  • Hu, Anthony, et al. "Model-based imitation learning for urban driving." Advances in Neural Information Processing Systems 35 (2022): 20703-20716.

  • Khurana, Tarasha, et al. "Differentiable raycasting for self-supervised occupancy forecasting." European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022.

  • Hu, Yihan, et al. "Planning-oriented autonomous driving." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.

  • Wang, Yuqi, et al. "Driving into the future: Multiview visual forecasting and planning with world model for autonomous driving." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.

  • Bojarski, Mariusz, et al. "Explaining how a deep neural network trained with end-to-end learning steers a car." arXiv preprint arXiv:1704.07911 (2017).


熱門文章
物聯網安全標簽計劃通過給符合相關網絡安全標準的物聯網產品賦予特有的標簽,粘貼在產品或包裝上,讓消費者能夠直觀地了解產品安全的信息,從而做出購買決策。物聯網安全標簽計劃源于海外多個國家,筆者在此前多篇推
2025-02-10
X
主站蜘蛛池模板: 潘金莲一级40分钟| 超薄肉丝美脚国产一区在线| 兰考县| 精品视频在线观看免费| 国产91探花Av在线观看| 午夜被窝电影网| 3d动漫精品一二三四专区| 范冰冰泰国做容器是真的吗| 久久久久久久久久久33| 91色网站| 特黄a又粗又大又黄又爽A片麻豆 | 91国精产品自偷自偷综合伊人 | 虐孕高h调教孕妇| 国产?无码?高潮电影欲动网站| 国产精品免费一区二区三区视频| 男人肌肌桶着女人的肌肌的视频| 一女多男在疯狂伦交在线观看| 人类是如何交匹配的照片| 国产精产国品一二三在观看探花| 亚洲精品久久久久久久久久尿| 九一视频污| 公交车挺进警花紧窄湿润视频| 久久日日躁夜夜躁狠狠躁| 91福利社区在线观看| 国产精品伦子一区二区三区| 亚洲人成电影在线| 男男cos做??无遮挡软件| 手机跑狗网995996| 三上悠亚免费一区二区在线| katsuniav在线播放| 日本videos18高清hd下| sM调教我的奴性奶牛女友小说| 91久久婷婷国产麻豆精品电影| 免费?无码?国产免费软件| 白朗县| 日韩激情| mm1313亚洲精品国产下露蹲| 亚洲男人影院| 小草影院| bbbbbxxxxx性欧美| 巜豪妇荡乳3在线播放|