SafeDrive:大語言模型實現知識驅動和數據驅動的風險-敏感決策
2024年12月來自USC、U Wisconsin、U Michigan、清華大學和香港大學的論文“SafeDrive: Knowledge- and Data-Driven Risk-Sensitive Decision-Making for Autonomous Vehicles with Large Language Models”。
自動駕駛汽車 (AV) 的最新進展利用大語言模型 (LLM) 在正常駕駛場景中表現良好。然而,確保動態、高風險環境中的安全并管理,對安全至關重要的長尾事件仍然是一項重大挑戰。為了解決這些問題,SafeDrive,一個知識驅動和數據驅動的風險-敏感決策框架,提高 AV 的安全性和適應性。所提出的框架引入一個模塊化系統,包括:(1) 一個風險模塊,用于全面量化涉及駕駛員、車輛和道路相互作用的多因素耦合風險;(2) 一個記憶模塊,用于存儲和檢索典型場景以提高適應性;(3) 一個由 LLM 驅動的推理模塊,用于情境-覺察的安全決策;(4) 一個反思模塊,用于通過迭代學習完善決策。
通過將知識驅動的洞察力與自適應學習機制相結合,該框架可確保在不確定條件下做出穩健的決策。對以動態和高風險場景為特征的真實交通數據集,包括高速公路(HighD)、交叉路口(InD)和環形交叉路口(RounD),進行廣泛評估可驗證該框架能夠提高決策安全性(實現 100% 的安全率)、復制類似人類的駕駛行為(決策一致性超過 85%)并有效適應不可預測的場景。
風險量化。風險量化對于 AV 的防撞至關重要。考慮車輛動力學的經典方法,例如碰撞時間 (TTC) [12]、車頭時距 (THW) [13]、反應時間 (TTR) [14] 和車道交叉時間 (TLC) [15],由于其簡單易行,廣泛應用于交通場景中。然而,這些方法在動態、多維環境中往往不足,因為在這種環境中,風險因素變化迅速且相互作用復雜 [13]。為了解決這些限制,Mobileye 的 Shalev-Shwartz 提出責任敏感安全 (RSS) [16],這是一種旨在提供更具解釋性的白盒子安全保障的模型。然而,仍然存在一些難題,例如確定大量參數。
為了克服這些限制,已經提出先進的方法。人工勢場 (APF) 方法 [17] 使用勢場來模擬車輛風險,從而實現基本的防撞。Gerdes [18] 通過結合車道標記來擴展 APF,以創建詳細的風險地圖。Wang [19]、[20] 將道路潛能場與車輛動力學和駕駛員行為相結合,提高風險模擬的準確性,并降低復雜場景中的碰撞風險。然而,這些方法往往側重于當前交通狀態,依賴于眾多參數,并且在不確定的環境中缺乏適應性。Kolekar [21] 引入駕駛員風險場 (DRF),這是一個二維模型,它結合基于概率信念的駕駛員主觀風險感知。通過整合主觀風險評估,這些改進的 APF 和 DRF 方法更好地模擬交通系統動態并增強多維風險評估。然而,Kolekar [22] 提出的 DRF 僅考慮行駛方向(車輛前向半圓)的風險,無法提供全面的全方位風險量化。
決策中的 LLM。決策對于自動駕駛至關重要,因為它直接決定車輛能否安全有效地在復雜、動態和高沖突的交通場景中行駛 [23]。傳統的數據驅動決策方法存在固有的局限性。這些算法通常被視為黑匣子,它們對數據偏差的敏感性、處理長尾場景的困難以及缺乏可解釋性,這些都對為其決策提供人類可理解的解釋提出重大挑戰,尤其是在適應數據稀缺的長尾場景時 [24][25]。
LLM 的進步為解決自動駕駛中的決策挑戰提供寶貴的見解。LLM 展示人類水平的感知、預測和規劃能力 [26]。當 LLM 與矢量數據庫作為內存結合使用時,它們在某些領域的分析能力得到顯著增強 [27]。Li 提出知識驅動的自動駕駛概念,表明 LLM 可以通過常識知識和駕駛經驗增強現實世界的決策能力 [28]。Weng 提出 DiLu 框架,該框架將推理和反思相結合,實現知識驅動、不斷發展的決策,其表現優于強化學習方法 [29]。Jiang 以 DiLu 為基礎,開發一個知識驅動的自動駕駛多智體框架,證明其在各種駕駛任務中的效率和準確性 [30]。Fang [31] 專注于在不同場景中使用 LLM 作為協作駕駛的智體。
最近的進展也凸顯 LLM 在多模態推理方面的潛力。Hwang [32] 引入 EMMA,這是一種使用預訓練 LLM 進行運動規劃的端到端多模態模型,通過 nuScenes 和 WOMD 取得最佳效果。然而,它對圖像輸入的依賴和高計算成本帶來挑戰。Sinha [33] 提出一個兩階段框架,將快速異常分類器與后備推理相結合,用于實時異常檢測和反應性規劃,并在模擬中展示穩健性。這些研究強調 LLM 在 AV 決策中的潛力,其中實時推理和適應性至關重要。然而,大多數研究都集中在簡單的場景上,缺乏在高沖突環境中的適應性。
SafeDrive 是一個基于 LLM 的知識和數據驅動的風險敏感決策框架,如圖所示。SafeDrive 結合自然駕駛數據和高風險場景,使 AV 能夠在復雜、動態的環境中做出自適應的安全決策。

該框架從大量數據輸入開始(圖 a),將所有道路使用者、所有條件場景和全覆蓋數據組合成一個典型和高風險駕駛場景的綜合數據庫。在耦合風險量化模塊(圖 b)中,包括成本圖和多維風險字段在內的高級風險建模動態量化風險,為決策提供詳細的輸入。LLM 決策模塊(圖 c)使用數據驅動的生成、風險先驗知識和思維鏈 (CoT) 推理來生成實時的風險敏感決策。此外,自適應記憶更新,可確保可以回憶起類似的經驗來改進決策過程。這些決策嵌入到風險-敏感駕駛智體(圖 d)中,其提供準確的風險警告,回顧過去的經驗并做出自適應決策。自我調整系統確保實時識別風險,并通過閉環反思機制持續更新駕駛策略。
總體而言,SafeDrive 增強實時響應能力、決策安全性和適應性,應對高風險、不可預測場景中的挑戰。
耦合風險量化
RQ1. 如何有效地對安全-緊要環境中的耦合風險進行建模和量化?
感知風險的概念由 Naatanen & Summala [34] 定義,是事件發生的主觀概率與該事件后果的乘積。本文采用一種動態駕駛員風險場 (DRF) 模型,該模型可適應車輛速度和轉向動態,該模型受到 Kolekar [21-22] 的啟發。DRF 表示駕駛員對未來位置的主觀信念,在靠近自車時分配更高的風險,并隨著距離的增加而降低。事件后果通過根據場景中目標的危險程度為其分配實驗確定的成本來量化,與主觀評估無關。整體量化感知風險 (QPR) 計算為所有網格點的事件成本和 DRF 的總和。這種方法有效地捕捉駕駛員感知和行動中的不確定性,提供駕駛風險的全面衡量標準。
駕駛員風險場。這項工作擴展 DRF,使其能夠考慮基于車速和轉向角的動態變化。DRF 使用運動學汽車模型計算,其中預測路徑取決于車輛的位置 (x/car, y/car)、航向 φ/car 和轉向角 δ。假設轉向角恒定,預測行駛弧的半徑由以下公式給出:R/car = L / tan(δ), 其中 L 是汽車的軸距。利用車輛的位置和圓弧半徑,可以找到轉彎圓心 (x/c , y/c ),然后計算圓弧長度 s,表示沿路徑的距離。
DRF 被建模為具有高斯橫截面的環面。環境中的每個目標都分配有一個成本,從而創建一個成本圖。該圖通過元素乘法與 DRF 相結合,并在網格上求和以計算量化感知風險(QPR)。
該指標反映駕駛員對潛在事故發生可能性和嚴重程度的感知,將主觀感知與客觀風險量化相結合。
全方位風險量化。傳統的駕駛員風險場 (DRF) 僅關注面向前方的半圓。為了實現自動駕駛的現實風險評估,本文模型將其擴展到 360 度視角,同時納入前后車輛的風險。通過包括后車的 DRF 及其與自車的碰撞成本,從各個角度創建統一的風險狀況,增強現場覺察和安全性。
該方法不僅計算總體風險,還評估每個參與者的具體風險屬性。這樣可以識別出那些構成更大危險的,從而更有針對性地識別和警告風險。
風險-敏感的 LLM 決策
RQ2. 如何引導基于 LLM 的智體獲得安全且類似人類的駕駛行為?
基于之前介紹的自動駕駛系統風險量化和先前知識驅動范式,利用大模型的推理能力提出 SafeDrive,這是一個知識具大和數據驅動的框架,如圖所示。本文中,GPT-4 充當決策智體,驅動推理過程并生成動作。用來自現實世界數據集的手動注釋場景描述,并與下一幀動作配對作為真值標簽,包括 HighD(高速公路)、InD(城市交叉路口)和 RounD(環形交叉路口)。這些描述提供環境背景,例如周圍車輛的 ID、位置和速度,使 GPT-4 能夠解釋環境并支持推理和決策。

SafeDrive 架構包含四個核心模塊:風險模塊、推理模塊、記憶模塊和反思模塊。該過程是迭代的:推理模塊根據系統消息、場景描述、風險評估做出決策并存儲類似的記憶;反思模塊評估決策并提供自我反思過程;記憶模塊存儲正確的決策以供將來檢索。使用三個真實世界數據集作為輸入,這個自學習循環提高決策的準確性和處理多樣化復雜場景的適應性。基于 LLM 的整體決策算法如算法 1 所示。

如圖所示,在動態場景中,SafeDrive 接收用戶導航指令和場景描述,實時評估周圍車輛的風險屬性(例如 QPR 值)、位置和速度。然后,系統利用 LLM 推理和歷史記憶進行可行性檢查、車道評估和決策,以確定最安全的操作,例如變道。總體而言,通過將多維風險量化與 GPT-4 的推理相結合,SafeDrive 可提供實時、風險敏感的決策。在高速公路和交叉路口等高風險場景中,它會識別不安全行為并做出自適應決策(例如減速或轉彎)。閉環反射機制確保持續優化,增強響應能力、適應性和安全性。

風險模塊。風險模塊根據上述風險量化模型和定義的閾值為每個參與者生成詳細的文本風險評估。這些閾值是通過實驗確定的,考慮到風險分布和常見的安全標準,解決縱向和橫向風險。這種整合確保在決策中更加謹慎,指導 GPT-4 駕駛智體有效避免或減輕不安全行為。
推理模塊。推理模塊通過三個關鍵組件促進系統決策過程。它從一條系統消息開始,該消息定義 GPT-4 駕駛智體的角色,概述預期的響應格式,并強調決策的安全原則。在收到由場景描述和風險評估組成的輸入后,該模塊與記憶模塊交互以檢索類似的成功過去樣本及其正確的推理過程。最后,動作解碼器將決策轉換為針對自身車輛的具體動作,例如加速、減速、轉彎、變道或保持空轉。這種結構化方法可確保做出明智且有安全意識的決策。
記憶模塊。記憶模塊是系統的核心組件,它通過利用過去的駕駛經驗來增強決策能力。它使用 GPT 嵌入將矢量化場景存儲在矢量數據庫中。數據庫使用一組手動創建的樣例進行初始化,每個樣例都包含場景描述、風險評估、模板推理過程和正確操作。遇到新場景時,系統通過使用相似度分數匹配矢量化描述來檢索相關經驗。在決策過程之后,新樣本將添加到數據庫中。這個動態框架支持持續學習,使系統能夠適應不同的駕駛條件。
反思模塊。反思模塊評估并糾正駕駛智體做出的錯誤決定,啟動思考過程,思考智體為什么選擇錯誤的動作。修正后的決策及其推理會被儲存在記憶模塊中,作為參考,以防止將來再次出現類似的錯誤。該模塊不僅允許系統不斷演進,還為開發人員提供詳細的日志信息,使他們能夠分析和改進系統消息,以改進智體的決策邏輯。


































