自動(dòng)駕駛端到端為什么會(huì)有黑盒特性?
端到端(end-to-end)自動(dòng)駕駛聽起來很厲害,把車載攝像頭、雷達(dá)、激光雷達(dá)等傳感器的原始數(shù)據(jù)直接喂給一個(gè)大網(wǎng)絡(luò),網(wǎng)絡(luò)輸出方向盤轉(zhuǎn)角、加速度、剎車力度,省去了“感知—定位—預(yù)測(cè)—規(guī)劃—控制”那一長(zhǎng)串模塊化步驟。從概念上來看,這是把整條決策鏈用一個(gè)函數(shù)逼近了,讓機(jī)器“直接學(xué)會(huì)開車”。但正因?yàn)榘阉袞|西都塞進(jìn)一個(gè)大模型里,端到端系統(tǒng)很容易表現(xiàn)出所謂的“黑盒”特性,即我們知道輸入和輸出,但不知道中間發(fā)生了什么,無法用傳統(tǒng)工程手段去解釋、驗(yàn)證和控制其內(nèi)部決策過程。
黑盒效應(yīng)的影響及來源
先說為什么端到端“黑盒”是個(gè)問題。汽車是高風(fēng)險(xiǎn)系統(tǒng),任何錯(cuò)誤都有可能導(dǎo)致財(cái)產(chǎn)損失甚至人員傷亡。傳統(tǒng)自動(dòng)駕駛把功能拆成一系列明確接口的模塊,每個(gè)模塊都有可測(cè)的性能指標(biāo)(比如目標(biāo)檢測(cè)的精度、定位的可用性、軌跡規(guī)劃的最小安全距離)。當(dāng)出問題時(shí),工程師可以定位到哪個(gè)模塊、哪個(gè)環(huán)節(jié)失效,進(jìn)而修補(bǔ)或替換。而端到端模型把這些環(huán)節(jié)融在一張大網(wǎng)絡(luò)里,內(nèi)部表示是高維的、分布式的向量,單看這些向量我們幾乎不能直接理解“它代表什么”。這將帶來幾個(gè)直接風(fēng)險(xiǎn),第一,難以做形式化驗(yàn)證或證明其滿足某些安全邊界;第二,難以解釋在特定場(chǎng)景下為什么會(huì)產(chǎn)生某個(gè)危險(xiǎn)決策,影響責(zé)任追責(zé)和事故分析;第三,因?yàn)槟P筒皇怯靡?guī)則表達(dá)安全約束,而是用統(tǒng)計(jì)學(xué)規(guī)律“記住”如何做,因此對(duì)未見過的場(chǎng)景和分布外數(shù)據(jù)更加脆弱;第四,調(diào)試?yán)щy,無法定位到某個(gè)輸入特征、某個(gè)子任務(wù)或某組數(shù)據(jù)導(dǎo)致錯(cuò)誤,從而延長(zhǎng)問題修復(fù)時(shí)間與迭代成本。
那黑盒從哪來?黑盒效應(yīng)源于幾個(gè)核心要素的疊加。深度神經(jīng)網(wǎng)絡(luò)本質(zhì)上是高度非線性的函數(shù)逼近器,它會(huì)在參數(shù)空間中學(xué)習(xí)對(duì)訓(xùn)練數(shù)據(jù)的復(fù)雜映射。網(wǎng)絡(luò)的中間層往往會(huì)形成抽象的、高維的語(yǔ)義或統(tǒng)計(jì)表示,這些表示沒有默認(rèn)的、可解釋的語(yǔ)義標(biāo)注。再加上端到端訓(xùn)練常用的監(jiān)督學(xué)習(xí)或基于回報(bào)的優(yōu)化(行為克隆、逆強(qiáng)化學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等),模型學(xué)習(xí)目標(biāo)往往是直接最小化某個(gè)端到端損失(比如軌跡誤差或駕駛行為的分布差異),而不是學(xué)習(xí)明確的物理、因果規(guī)律。數(shù)據(jù)也是導(dǎo)致黑盒的關(guān)鍵因素,訓(xùn)練數(shù)據(jù)的分布決定了模型行為,長(zhǎng)尾事件稀少、標(biāo)注噪聲或偏差都會(huì)在模型內(nèi)部產(chǎn)生脆弱點(diǎn)。此外,模型訓(xùn)練過程中的過擬合、欠擬合、以及優(yōu)化器的局部極值也可能把錯(cuò)誤策略“寫入”網(wǎng)絡(luò)。黑盒在工程實(shí)踐中也會(huì)被強(qiáng)化,在實(shí)際車隊(duì)迭代中,為了性能和上線速度,工程師常常會(huì)用更大網(wǎng)絡(luò)、更復(fù)雜的輸入變換,卻沒有同步提升可解釋性和監(jiān)測(cè)能力,從而埋下問題。
如何緩解黑盒效應(yīng)?
既然明白了問題,接下來最核心的問題是,如何避免或至少大幅緩解端到端自動(dòng)駕駛的黑盒效應(yīng)?這里的答案不是一句話能講完,而是需要一套工程和研究結(jié)合的防護(hù)線,即把風(fēng)險(xiǎn)分層、用不同策略逐層抵御。總體上可以把策略分為三類,架構(gòu)與產(chǎn)品設(shè)計(jì)層面的選擇、訓(xùn)練與數(shù)據(jù)層面的約束、以及運(yùn)行時(shí)的監(jiān)控與冗余保障。
在架構(gòu)層面,最實(shí)用的思路是“不過度單一化”,也就是說把端到端變成“可解釋的端到端”或“混合架構(gòu)”。一種常見做法是引入可解釋的中間瓶頸(concept bottleneck),網(wǎng)絡(luò)在內(nèi)部顯式預(yù)測(cè)一些比如車道線、行人位置、交通信號(hào)狀態(tài)、預(yù)測(cè)的其他車輛意圖、道路幾何等可讀的語(yǔ)義量,然后把這些語(yǔ)義特征作為后續(xù)決策網(wǎng)絡(luò)的輸入。這樣做一方面保留了端到端學(xué)習(xí)的優(yōu)勢(shì)(從原始感知到?jīng)Q策的聯(lián)合優(yōu)化),另一方面還保留了模塊化的可觀測(cè)接口,便于驗(yàn)證與調(diào)試。另外一種做法是“分層端到端”或“模塊化增強(qiáng)的端到端”,即把系統(tǒng)按功能切分,感知采用傳統(tǒng)或可解釋的模型輸出高可信的環(huán)境表示,規(guī)劃或策略部分用學(xué)習(xí)方法來優(yōu)化舒適性與效率,同時(shí)保留獨(dú)立的安全濾波器或規(guī)則化控制器來保證基本碰撞與邊界條件不被觸犯。換句話說,關(guān)鍵決策的最后一道防線最好是確定性的或可驗(yàn)證的,而不是把關(guān)鍵安全約束完全交給單一黑盒網(wǎng)絡(luò)。
訓(xùn)練與數(shù)據(jù)層面則有一整套可操作措施。訓(xùn)練數(shù)據(jù)必須有針對(duì)性的長(zhǎng)尾覆蓋,不能只靠大量城市高速的“常見場(chǎng)景”來訓(xùn)練。要有系統(tǒng)的稀有事件采集和增強(qiáng)策略,這其中就包括利用仿真環(huán)境合成緊急制動(dòng)、復(fù)雜交叉口、異常車輛行為等場(chǎng)景,并通過domain randomization降低模型對(duì)數(shù)據(jù)表面統(tǒng)計(jì)的依賴。此外,數(shù)據(jù)標(biāo)注也要細(xì)致且一致,必要時(shí)引入多層級(jí)標(biāo)簽(既有低層像素級(jí)或目標(biāo)級(jí)標(biāo)注,也有高層語(yǔ)義意圖標(biāo)注)以支持可解釋性技術(shù)。在訓(xùn)練方法上,除了純行為克隆,還要混合使用帶有安全約束的強(qiáng)化學(xué)習(xí)、逆向強(qiáng)化學(xué)習(xí)與逆向工程學(xué)派的方法,從而確保策略在優(yōu)化效率的同時(shí)對(duì)安全損失有明確懲罰。另一個(gè)關(guān)鍵點(diǎn)是對(duì)抗性訓(xùn)練和應(yīng)變訓(xùn)練,可以故意讓模型見到被擾動(dòng)或異常的輸入(如傳感器噪聲、局部遮擋、惡劣天氣),提升魯棒性。同時(shí)應(yīng)當(dāng)使用模型校準(zhǔn)技術(shù),確保輸出概率與真實(shí)不確定性一致,為后續(xù)的運(yùn)行時(shí)決策提供可靠的置信度信息。
可解釋性(explainability)工具并非只是學(xué)術(shù)玩具,它們?cè)诠こ虒?shí)踐中能帶來直接價(jià)值。常見的技術(shù)包括梯度或激活圖分析(如Integrated Gradients、Grad-CAM等),概念激活向量(TCAV)把內(nèi)部表示與語(yǔ)義概念關(guān)聯(lián),局部可解釋模型(LIME/SHAP)可以在單個(gè)決策上生成近似可解釋的局部規(guī)則。這些工具能夠在事故復(fù)盤或在線監(jiān)控時(shí)指出模型“可能關(guān)注到了什么”或“忽略了什么”。當(dāng)然這些方法不是萬(wàn)靈藥,它們也有局限性,但結(jié)合中間可觀測(cè)變量與單案例的可解釋工具,可以顯著提升工程師對(duì)問題的可追溯性。此外,開發(fā)團(tuán)隊(duì)?wèi)?yīng)當(dāng)把可解釋性結(jié)果標(biāo)準(zhǔn)化納入回歸測(cè)試,每次模型迭代,不只是看性能提升,還要看解釋圖譜是否出現(xiàn)異常或偏移。
不確定性估計(jì)和異常檢測(cè)是緩解黑盒最實(shí)用的手段之一。神經(jīng)網(wǎng)絡(luò)可以輸出一條動(dòng)作,但也應(yīng)當(dāng)伴隨一個(gè)置信度指標(biāo)。常見方法包括貝葉斯近似(例如MC Dropout)、深度集成(deep ensembles)、溫度縮放后的概率校準(zhǔn)、以及基于模型外檢測(cè)(OOD detectors)的方案。基于輸入分布的檢測(cè)器可以在識(shí)別到分布外樣本時(shí)觸發(fā)安全策略,例如降級(jí)到保守策略、請(qǐng)求遠(yuǎn)程人工干預(yù)或者按預(yù)設(shè)做最小風(fēng)險(xiǎn)動(dòng)作(如緩慢停車并開啟危險(xiǎn)燈)。實(shí)現(xiàn)這些方法還需要維護(hù)輸入特征分布的在線統(tǒng)計(jì),并設(shè)定合理的閾值與報(bào)警策略。需要強(qiáng)調(diào)的是,不確定性估計(jì)并非完美,它可能在某些不可預(yù)見的敵對(duì)場(chǎng)景下失敗,因此應(yīng)與其他冗余機(jī)制配合使用。
運(yùn)行時(shí)的冗余與監(jiān)控策略直接決定了端到端系統(tǒng)能否安全落地。冗余體現(xiàn)在傳感方面(攝像頭+雷達(dá)+激光雷達(dá)+慣導(dǎo)的多傳感器融合),也體現(xiàn)在算法層面(不同架構(gòu)、不同訓(xùn)練數(shù)據(jù)和不同損失函數(shù)的模型并行運(yùn)行形成仲裁機(jī)制)。當(dāng)主模型和備份模型產(chǎn)生顯著分歧時(shí),系統(tǒng)應(yīng)及時(shí)警報(bào)并切換到安全模式。監(jiān)控不僅是對(duì)模型輸出的監(jiān)測(cè),也應(yīng)當(dāng)包含對(duì)中間表示的分布監(jiān)測(cè)、對(duì)輸入數(shù)據(jù)完整性的檢測(cè)與對(duì)車輛執(zhí)行狀態(tài)的反饋閉環(huán)。良好的日志系統(tǒng)是調(diào)試黑盒不可或缺的工具,每次決策應(yīng)記錄傳感器原始數(shù)據(jù)、內(nèi)部表示摘要、置信度、候選動(dòng)作以及最終執(zhí)行結(jié)果,這樣在事故調(diào)查與回歸測(cè)試時(shí)才有可追溯的數(shù)據(jù)鏈。
在驗(yàn)證與測(cè)試方面,端到端帶來的挑戰(zhàn)是傳統(tǒng)證明方法難以直接套用,但這并不意味著無法驗(yàn)證。我們需要構(gòu)建“場(chǎng)景驅(qū)動(dòng)”的驗(yàn)證體系,把驗(yàn)證目標(biāo)映射到大量合成與現(xiàn)實(shí)的場(chǎng)景覆蓋指標(biāo)上。場(chǎng)景可以按危險(xiǎn)程度、罕見程度或復(fù)雜性分層,并通過組合生成法放大長(zhǎng)尾。閉環(huán)仿真(在仿真中把車當(dāng)做閉環(huán)被控對(duì)象,而非只做感知評(píng)估)是關(guān)鍵,因?yàn)槎说蕉讼到y(tǒng)的錯(cuò)誤往往是閉環(huán)交互導(dǎo)致的連鎖反應(yīng)。結(jié)合現(xiàn)實(shí)世界的shadow mode(影子模式)運(yùn)行,即在真實(shí)車輛上實(shí)時(shí)運(yùn)行模型但不影響控制,僅記錄模型輸出與真實(shí)司機(jī)行為差別,這樣就可以在不承擔(dān)風(fēng)險(xiǎn)的情況下大規(guī)模驗(yàn)證模型對(duì)現(xiàn)實(shí)復(fù)雜性的適應(yīng)度。除此之外,還應(yīng)采用更系統(tǒng)的攻擊性測(cè)試(fuzzing、對(duì)抗擾動(dòng)、合成錯(cuò)誤標(biāo)注等)來找出模型的薄弱點(diǎn)。
當(dāng)然,也可以給端到端系統(tǒng)建立一個(gè)“安全外殼”,在模型輸出與車輛控制之間放置一層輕量級(jí)的傳統(tǒng)控制器或規(guī)則引擎,專門負(fù)責(zé)執(zhí)行硬約束(例如最大橫向加速度、最小跟車間距、碰撞預(yù)警和緊急制動(dòng)觸發(fā)),且該控制器應(yīng)當(dāng)是無需大量學(xué)習(xí)即可通過理論或經(jīng)驗(yàn)保證其穩(wěn)定性的。這種做法可以讓學(xué)習(xí)系統(tǒng)負(fù)責(zé)“性能優(yōu)化與舒適性決策”,而把“安全邊界”留給可證明或可測(cè)的組件。類似的概念在航空、核電等高安全行業(yè)也常見,叫作運(yùn)行時(shí)保證(runtime assurance)或安全監(jiān)護(hù)(safety cage)。
其實(shí)不要低估人機(jī)交互與ODD(Operational Design Domain,運(yùn)行設(shè)計(jì)域)界定的重要性。端到端技術(shù)目前在受限、結(jié)構(gòu)化的環(huán)境(比如限定道路、限定速度、白天車輛)上比在開放、復(fù)雜的城市街道上成熟得多。明確ODD并嚴(yán)格遵守,是規(guī)避黑盒風(fēng)險(xiǎn)的有效手段。如果把端到端模型僅用于ODD內(nèi)部,且設(shè)計(jì)清晰的退化策略(例如在光照差、雨雪或復(fù)雜交叉口外切換到人工或保守規(guī)則),系統(tǒng)整體風(fēng)險(xiǎn)會(huì)大大降低。對(duì)人機(jī)交互也要有明確策略:當(dāng)系統(tǒng)需要人工接管時(shí),必須保證接管通知明確、響應(yīng)時(shí)間合理,并有駕駛員狀態(tài)監(jiān)控(DMS)作為保障。
最后的話
端到端自動(dòng)駕駛的黑盒效應(yīng)是技術(shù)挑戰(zhàn)也是工程挑戰(zhàn),但并非不可克服。關(guān)鍵在于不要把“端到端”當(dāng)作把所有東西一次性扔給網(wǎng)絡(luò)的借口,而要把它作為工具,用在合適的環(huán)節(jié)并配以必要的可解釋性、中間約束、冗余檢測(cè)與運(yùn)行時(shí)保證。技術(shù)發(fā)展不會(huì)停,方法也在進(jìn)步。未來可解釋性的研究、基于因果推斷的學(xué)習(xí)、可證明的神經(jīng)網(wǎng)絡(luò)子結(jié)構(gòu),都會(huì)繼續(xù)縮小黑盒與可驗(yàn)證性之間的差距。但在技術(shù)足夠成熟之前,謹(jǐn)慎的架構(gòu)設(shè)計(jì)、周到的數(shù)據(jù)策略、嚴(yán)格的運(yùn)行保障與透明的治理體系,才是把端到端自動(dòng)駕駛安全落地的現(xiàn)實(shí)路徑。
-- END --
原文標(biāo)題 : 自動(dòng)駕駛端到端為什么會(huì)有黑盒特性?
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞