人人妻人人澡人人爽欧美一区,亚洲日韩av无码一区二区三区人,中文字幕乱码熟妇五十中出

您當前的位置：首頁 ? 行業(yè)資訊 ? 行業(yè)資訊

內(nèi)部資訊行業(yè)資訊

全面了解端到端自動駕駛的研發(fā)現(xiàn)狀、挑戰(zhàn)與策略應對（二）

發(fā)布日期：2024-11-01

作者 | Jessie

出品 | 焉知

本文接續(xù)前文，首先進一步廣泛調(diào)查自動駕駛端到端開發(fā)方法面臨的關(guān)鍵挑戰(zhàn)。同時，我們總結(jié)了主要方面并提供了深入的分析，包括普遍性、語言引導學習、因果混亂等主題。

涵蓋了如何采用大型基礎模型和數(shù)據(jù)引擎的更廣泛影響。我們相信，這一研究領(lǐng)域及其提供的大規(guī)模高質(zhì)量數(shù)據(jù)可以顯著推進該領(lǐng)域的發(fā)展。

5、可解釋性

可解釋性有助于人類理解端到端模型的決策過程、感知故障和輸出的可靠性，因此，可解釋性在自動駕駛中起著至關(guān)重要的作用。它使工程師和研究人員能夠更好地測試、調(diào)試和改進系統(tǒng)，從社會角度提供性能保證，增加用戶信任，促進公眾接受。然而，實現(xiàn)端到端自動駕駛模型（通常被稱為黑匣子）的可解釋性具有挑戰(zhàn)性。

給定訓練有素的自動駕駛模型，一些事后 X-AI（可解釋的人工智能）技術(shù)可以應用于學習模型以獲得顯著圖。顯著圖突出顯示模型主要依賴于視覺輸入進行規(guī)劃的特定區(qū)域。然而，這種方法提供的信息有限，其有效性和有效性難以評估。相反，我們專注于直接增強模型設計可解釋性的自動駕駛框架。我們將在下面的圖6中介紹每個類別的可解釋性。

圖 6：不同形式的可解釋性總結(jié)。

5.1 注意力可視化：

注意力機制通常提供一定程度的可解釋性。可以應用學習的注意力權(quán)重來聚合中間特征圖中的重要特征。學習注意力權(quán)重以自適應地組合來自不同對象區(qū)域或固定網(wǎng)格的 ROI 池化特征。NEAT迭代聚合特征來預測注意力權(quán)重并細化聚合特征。最近，Transformer注意力機制在許多自動駕駛模型中得到了普遍應用。采用Transformer注意力塊來更好地聚合來自傳感器輸入的信息，注意力圖顯示輸入中用于駕駛決策的重要區(qū)域。在 PlanT 中，注意力層處理來自不同車輛的特征，為相應的動作提供可解釋的見解。與事后顯著性方法類似，雖然學習到的注意力圖可以提供一些關(guān)于模型焦點的直接線索，但它們的忠實度和實用性仍然有限。

5.2 可解釋的任務：

在深度駕駛模型中，輸入最初被編碼為中間表示以供后續(xù)預測。因此，許多基于IL的工作通過將潛在特征表示解碼為其他有意義的信息來引入可解釋性，例如語義分割，對象檢測，可供性預測，運動預測和注視圖估計。盡管這些方法提供了可解釋的信息，但大多數(shù)僅將這些預測視為輔助任務，對最終的駕駛決策沒有明確的影響。一些通過將這些輸出用于最終駕駛動作，但它們僅用于執(zhí)行額外的安全檢查。

5.3 成本學習：

基于成本學習的方法與傳統(tǒng)的模塊化自動駕駛系統(tǒng)有一些相似之處，因此表現(xiàn)出一定程度的可解釋性。NMP和 DSDNet 結(jié)合檢測和運動預測結(jié)果構(gòu)建成本量。P3 將預測的語義占用圖與舒適度和交通規(guī)則約束相結(jié)合來構(gòu)建成本函數(shù)。采用各種表示形式對采樣軌跡進行評分，例如概率占用和時間運動場、緊急占用和自由空間。安全性、舒適性、交通規(guī)則以及基于感知和預測輸出的路線等因素都被明確包含在內(nèi)來構(gòu)建成本量。

5.4 語言可解釋性：

可解釋性的一個方面是幫助人類理解系統(tǒng)，因此自然語言是實現(xiàn)此目的的合適選擇。生成 BDD-X 數(shù)據(jù)集，將駕駛視頻與描述和解釋配對。他們還提出了一種帶有車輛控制器和解釋生成器的自動駕駛模型，并強制兩個模塊的空間注意力權(quán)重保持一致。BEEF提出了一個解釋模塊，融合預測軌跡和中間感知特征來預測決策的理由。也有引入了一個名為 BBD-OIA 的數(shù)據(jù)集，其中包括駕駛決策的注釋和高密度交通場景的解釋。最近，ADAPT 提出了一種基于 Transformer 的網(wǎng)絡，根據(jù) BBD-X 數(shù)據(jù)集中的駕駛視頻來聯(lián)合估計動作、敘述和推理。鑒于多模態(tài)和基礎模型的最新進展，我們相信，進一步將語言與自動駕駛模型相結(jié)合有望實現(xiàn)卓越的可解釋性和性能。

5.5 不確定性建模：

不確定性是解釋模型輸出可靠性的定量方法。由于規(guī)劃結(jié)果并不總是準確或最佳，因此設計者和用戶必須識別不確定的情況以進行改進或必要的干預。對于深度學習來說，有兩種類型的不確定性：任意不確定性和認知不確定性。任意不確定性是任務固有的，而認知不確定性是由于有限的數(shù)據(jù)或建模能力造成的。對端到端自動駕駛系統(tǒng)的不確定性進行了定量評估，可以有效利用模型中的某些隨機正則化來執(zhí)行多個前向傳遞作為樣本來測量不確定性。然而，多次前向傳遞的要求在實時場景中是不可行的。RIP建議通過專家似然模型集合來捕獲認知不確定性，并匯總結(jié)果以執(zhí)行安全規(guī)劃。關(guān)于建模任意不確定性的方法中明確預測了駕駛行為/規(guī)劃和不確定性（通常用方差表示）。根據(jù)預測的不確定性，從多個輸出中選擇不確定性最低的輸出，生成建議行動的加權(quán)組合。VTGNet不直接使用不確定性進行規(guī)劃，但證明對數(shù)據(jù)不確定性進行建模可以提高總體性能。目前，預測的不確定性主要與硬編碼規(guī)則結(jié)合使用。有必要探索更好的方法來建模和利用自動駕駛的不確定性。

5.6 因果混亂

駕駛是一項表現(xiàn)出時間平滑性的任務，這使得過去的動作可以可靠地預測下一個動作。然而，使用多個幀訓練的方法可能會過度依賴此快捷方式，并在部署過程中遭受災難性失敗。這個問題在一些作品中被稱為模仿問題，是因果混亂的表現(xiàn)，即訪問更多信息會導致性能更差。LeCun 等人最早報道了這種效應，他們使用單個輸入幀進行轉(zhuǎn)向預測，以避免這種推斷。盡管很簡單，但這仍然是當前最先進的模仿學習方法中的首選解決方案。不幸的是，使用單幀的缺點是無法提取周圍運動體的速度。因果混亂的另一個來源是速度測量，如下圖 7 顯示了汽車等紅燈的示例。

圖 7：模仿學習中的因果混亂

汽車的速度與制動動作高度相關(guān)，因為汽車正在等待許多速度為零且動作為制動的幀。僅在交通信號燈從紅色變?yōu)榫G色的單幀處，這種相關(guān)性才會被打破。實際上，汽車當前的動作與低維虛假特征（例如速度或汽車過去的軌跡）密切相關(guān)。端到端模型可能會抓住它們，導致因果混亂。

使用多個框架時，有多種方法可以解決因果混淆問題。ChauffeurNet通過在 BEV 中使用中間視覺抽象來解決這個問題。一種抽象是自我代理的過去，而其他抽象不包含此信息。在訓練期間，自我代理過去的動作以 50% 的概率被丟棄。然而，為了使這種方法有效地工作，需要顯式的抽象。有研究者試圖通過訓練預測自我代理過去行為的對抗模型，從學習到的中間瓶頸表示中消除虛假的時間相關(guān)性。這導致了最小-最大優(yōu)化問題，其中模仿?lián)p失最小化，而對抗性損失最大化。直觀地說，這訓練網(wǎng)絡從中間層消除自己的過去。這種方法在 MuJoCo 中效果很好，但無法擴展到復雜的基于視覺的駕駛。第一個致力于驅(qū)動復雜性的是建議增加訓練損失中關(guān)鍵幀的權(quán)重。關(guān)鍵幀是發(fā)生決策更改的幀（因此無法通過推斷過去來預測）。為了找到關(guān)鍵幀，他們訓練了一種策略，僅以自我代理的過去作為輸入來預測動作。PrimeNet通過使用集成來提高與關(guān)鍵幀相比的性能，其中單幀模型的預測作為多幀模型的附加輸入給出。后又有用動作殘差而不是動作來監(jiān)督多幀網(wǎng)絡。OREO將圖像映射到表示語義對象的離散代碼，并將隨機丟棄掩碼應用于共享相同離散代碼的單元。這在 Confounded Atari 中很有幫助，因為之前的操作會呈現(xiàn)在屏幕上。在自動駕駛中，可以通過僅使用激光雷達歷史（具有單幀圖像）并將點云重新對齊到同一坐標系來避免因果混亂的問題。這會刪除有關(guān)自車運動的信息，同時保留有關(guān)其他車輛過去狀態(tài)的信息。

近二十年來，模仿學習中的因果混亂一直是一個持續(xù)的挑戰(zhàn)。近年來，人們投入了大量精力來研究這個問題。然而，這些研究使用了經(jīng)過修改的環(huán)境，以簡化因果混淆問題的研究。在最先進的設置中顯示性能改進仍然是一個懸而未決的問題。

6、魯棒性評測

6.1 長尾分布

長尾分布問題的一個重要方面是數(shù)據(jù)集不平衡，其中少數(shù)類別占大多數(shù)，而許多其他類別只有有限數(shù)量的樣本，如下圖8（a）所示。

圖 8：穩(wěn)健性方面的挑戰(zhàn)

與數(shù)據(jù)集分布差異相關(guān)的三個主要泛化問題，即長尾和正常情況、專家演示和測試場景以及位置、天氣等領(lǐng)域的轉(zhuǎn)移。這對模型泛化到各種環(huán)境提出了巨大的挑戰(zhàn)。有多種方法通過數(shù)據(jù)處理來解決這個問題，包括過采樣，欠采樣和數(shù)據(jù)增強。此外，基于加權(quán)的方法也常用于緩解數(shù)據(jù)集不平衡問題。

研究通過對抗性攻擊以數(shù)據(jù)驅(qū)動的方式生成安全關(guān)鍵場景。有用貝葉斯優(yōu)化被用來生成對抗場景。學習碰撞將駕駛場景表示為構(gòu)建塊上的聯(lián)合分布，并應用策略梯度 RL 方法來生成風險場景。AdvSim修改代理的軌跡，同時仍然堅持物理合理性，以導致失敗并相應地更新 LiDAR。最近的工作提出了一種通過可微運動學模型使用梯度來解決安全關(guān)鍵擾動的優(yōu)化算法。

一般來說，有效生成涵蓋長尾分布的現(xiàn)實安全關(guān)鍵場景仍然是一個重大挑戰(zhàn)。雖然許多工作關(guān)注模擬器中的對抗場景，但更好地利用現(xiàn)實世界數(shù)據(jù)進行關(guān)鍵場景挖掘和對模擬的潛在適應也至關(guān)重要。此外，系統(tǒng)、嚴格、全面、現(xiàn)實的測試框架對于評估這些長尾分布式安全關(guān)鍵場景下的端到端自動駕駛方法至關(guān)重要。

6.2 協(xié)變量平移

行為克隆的一個重要挑戰(zhàn)是協(xié)變量轉(zhuǎn)變。專家策略的狀態(tài)分布和經(jīng)過訓練的代理策略的狀態(tài)分布不同，當經(jīng)過訓練的代理部署在看不見的測試環(huán)境中或當其他代理的反應與訓練時間不同時，會導致復合錯誤。這可能會導致受過訓練的代理處于專家訓練分布之外的狀態(tài)，從而導致嚴重的失敗。

圖 8 (b) 給出了一個示例。DAgger（數(shù)據(jù)集聚合）是克服這個問題的常用方法。DAgger 是一個迭代訓練過程，在每次迭代中推出當前訓練的策略來收集新數(shù)據(jù)，并使用專家來標記訪問過的狀態(tài)。通過添加如何從不完美的策略可能訪問的次優(yōu)狀態(tài)中恢復的示例，豐富了訓練數(shù)據(jù)集。然后在增強數(shù)據(jù)集上訓練該策略，并重復該過程。然而，DAgger 的一個缺點是需要一位可用的專家在線查詢。

對于端到端自動駕駛，通過結(jié)合 DAgger 和基于 MPC 的專家。為了減少不斷查詢專家的成本并提高安全性，SafeDAgger 通過學習估計當前策略與專家策略之間偏差的安全策略來擴展原始 DAgger 算法。只有當偏差較大時才會詢問專家，在那些危險的情況下專家就會接手。MetaDAgger將元學習與 DAgger 結(jié)合起來，聚合來自多個環(huán)境的數(shù)據(jù)。LBC采用DAgger對數(shù)據(jù)進行重采樣，使得損失較高的樣本被更頻繁地采樣。在 DARB中，對 DAgger 進行了一些修改以適應駕駛?cè)蝿铡榱烁玫乩霉收匣虬踩嚓P(guān)樣本，它提出了多種機制，包括基于任務、基于策略以及基于策略和專家的機制，來對此類關(guān)鍵狀態(tài)進行采樣。它還使用固定大小的重播緩沖區(qū)進行迭代訓練，以增加多樣性并減少數(shù)據(jù)集偏差。

6.3 域適配

在端到端自動駕駛的背景下，長尾分布問題尤為嚴重。數(shù)據(jù)集不平衡在駕駛數(shù)據(jù)集中尤其成問題，因為大多數(shù)典型的駕駛都是重復且無趣的，例如，在許多幀中沿著車道行駛。相反，有趣的安全關(guān)鍵場景很少發(fā)生，但本質(zhì)上是多種多樣的。為了解決這個問題，一些工作依賴于手工制作的場景來在模擬中生成更加多樣化和有趣的數(shù)據(jù)。LBC 利用特權(quán)代理來創(chuàng)建以不同導航命令為條件的假想監(jiān)督。LAV 認為，雖然用于數(shù)據(jù)收集的自車很少有容易發(fā)生事故的情況，但其他智能體可能經(jīng)歷過一些安全關(guān)鍵或有趣的情況。因此，它包括其他智能體的軌跡進行訓練，以促進數(shù)據(jù)多樣性。

領(lǐng)域適配（DA）是一種遷移學習，其中目標任務與源任務相同，但領(lǐng)域不同。在這里，我們討論源域有可用標簽而目標域沒有標簽或可用標簽數(shù)量有限的場景。域隨機化也是一種簡單有效的技術(shù)，用于在模擬器中進行 RL 策略學習的模擬到真實的適應，并進一步適用于端到端自動駕駛。它是通過隨機化模擬器的渲染和物理設置來實現(xiàn)的，以覆蓋訓練過程中現(xiàn)實世界的可變性，并獲得具有良好泛化能力的訓練策略。

如圖8（c）所示，自動駕駛?cè)蝿盏念I(lǐng)域適應包含幾種情況。這里需要注意的是，上述情況經(jīng)常重疊。

①　模擬到真實：用于訓練的模擬器與用于部署的現(xiàn)實世界之間存在巨大差距。

②　地理位置到地理位置：不同的地理位置具有不同的環(huán)境外觀。

③　天氣變化：由雨、霧和雪等天氣條件引起的傳感器輸入變化。

④　晝夜：傳感器輸入的照度變化。

⑤　傳感器與傳感器之間：傳感器特性可能存在差異，例如分辨率和相對位置。

VISRI等人使用翻譯網(wǎng)絡將模擬圖像映射到真實圖像，并使用分割圖作為中間表示。強化學習代理根據(jù)翻譯后的模擬圖像進行訓練。通過圖像翻譯器和鑒別器實現(xiàn)域不變特征學習，將兩個域的圖像映射到公共潛在空間。類似地，LUSR 采用循環(huán)一致 VAE 將圖像投影到由特定領(lǐng)域部分和通用領(lǐng)域部分組成的潛在表示中，并在此基礎上學習策略。UAIL 通過將不同天氣條件下的圖像分解為可區(qū)分的風格空間和與 GAN 共享的內(nèi)容空間來實現(xiàn)天氣到天氣的適應。在SESR 中，從語義分割掩模中提取類解纏結(jié)編碼，以減少模擬器中的圖像與現(xiàn)實世界之間的域差距。

目前，通過源目標圖像映射或域不變特征學習進行模擬到真實的適應是端到端自動駕駛的焦點。其他領(lǐng)域適應案例，例如地理到地理或天氣到天氣的適應，是通過訓練數(shù)據(jù)集的多樣性和規(guī)模來處理的。由于激光雷達已成為一種流行的駕駛輸入方式，鑒于當前的工作主要集中在基于圖像的自適應上，因此還必須設計適合激光雷達特性的特定自適應技術(shù)。此外，應注意交通人員的行為和模擬器與現(xiàn)實世界之間的交通規(guī)則差距，因為當前的方法僅關(guān)注圖像中的視覺差距。通過 NeRF 等技術(shù)將現(xiàn)實世界的數(shù)據(jù)納入模擬則是另一個有前途的方向。

7、未來趨勢

考慮到所討論的挑戰(zhàn)和機遇，本文列出了未來研究的一些關(guān)鍵方向，這些方向可能會在該領(lǐng)域產(chǎn)生更廣泛的影響。

7.1 零樣本和少樣本學習

自動駕駛模型最終不可避免地會遇到超出訓練數(shù)據(jù)分布范圍的現(xiàn)實場景。這就提出了一個問題：我們是否可以成功地將模型適應一個看不見的目標領(lǐng)域，其中可用的標記數(shù)據(jù)是有限的甚至沒有。將這項任務形式化為端到端駕駛領(lǐng)域并結(jié)合零樣本/少樣本學習文獻中的技術(shù)是實現(xiàn)這一目標的關(guān)鍵步驟。

7.2 模塊化端到端規(guī)劃

模塊化端到端規(guī)劃框架優(yōu)化多個模塊，同時優(yōu)先考慮下游規(guī)劃任務，其具有可解釋性的優(yōu)勢，某些行業(yè)解決方案（Tesla、Wayve 等）也涉及類似的想法。在設計這些可微感知模塊時，會出現(xiàn)一些關(guān)于損失函數(shù)選擇的問題，例如用于對象檢測的 3D 邊界框的必要性、占用表示是否足以檢測一般障礙物，或者選擇 BEV 分割相對于車道的優(yōu)勢靜態(tài)場景感知的拓撲。

7.3 數(shù)據(jù)引擎

大規(guī)模、高質(zhì)量數(shù)據(jù)對于自動駕駛的重要性怎么強調(diào)都不為過。建立具有自動標記管道的數(shù)據(jù)引擎可以極大地促進數(shù)據(jù)和模型的迭代開發(fā)。自動駕駛的數(shù)據(jù)引擎，特別是模塊化的端到端規(guī)劃系統(tǒng)，需要借助大型感知模型，以自動的方式簡化高質(zhì)量感知標簽的標注過程。它還應該支持挖掘困難/極端情況、場景生成和編輯，以促進數(shù)據(jù)驅(qū)動評估。促進數(shù)據(jù)的多樣性和模型的泛化能力。數(shù)據(jù)引擎將使自動駕駛模型能夠不斷改進。

7.4 基礎模型

語言和視覺大型基礎模型的最新進展對社會的各個方面產(chǎn)生了重大影響。大規(guī)模數(shù)據(jù)和模型能力的利用釋放了人工智能在高級推理任務中的巨大潛力。微調(diào)或即時學習的范式、自監(jiān)督重建或?qū)Ρ葘π问降膬?yōu)化以及數(shù)據(jù)流水線等都適用于端到端端自動駕駛領(lǐng)域。然而，直接語言模型注入自動駕駛代理似乎在兩個目標的不同目標之間不一致。自主代理的輸出通常需要穩(wěn)定且準確的測量，而語言模型中的生成序列輸出旨在表現(xiàn)得像人類，而不管其準確性如何。開發(fā)大型自動駕駛模型的一個可行解決方案是訓練一個視頻預測器，該視頻預測器可以以 2D 或 3D 方式對環(huán)境進行長期預測。為了在規(guī)劃等下游任務上表現(xiàn)良好，大型模型的優(yōu)化目標需要足夠復雜，超出幀級感知。

7.5 車對萬物（V2X）

遮擋和超出感知范圍的障礙物是現(xiàn)代計算機視覺技術(shù)的兩個基本挑戰(zhàn)，這甚至會給人類駕駛員在需要對交叉代理做出快速反應時帶來很大困難。車對車（V2V）、車對基礎設施（V2I）和車對一切（V2X）系統(tǒng)為解決這個難題提供了有前景的解決方案，來自不同觀點的信息補充了自車盲點。這些系統(tǒng)見證了多智能體場景信息傳輸機制的進步，可以提供一種解決方案來實現(xiàn)自動駕駛車輛之間的高級決策智能。

總結(jié)

本文對端到端自動駕駛系統(tǒng)的研發(fā)現(xiàn)狀進行了全面分析，涵蓋了端到端自動駕駛的動機、路線圖、方法論、挑戰(zhàn)和未來趨勢。重點介紹了幾個關(guān)鍵挑戰(zhàn)，包括多模態(tài)、可解釋性、因果混亂、穩(wěn)健性和世界模型等。此外，我們還討論了基礎模型和視覺預訓練方面的當前進展，以及如何將這些技術(shù)整合到端到端駕駛框架中。端到端自動駕駛面臨著巨大的機遇和挑戰(zhàn)，基于端到端研發(fā)現(xiàn)狀的基本方法，通過擁抱快速發(fā)展的基礎模型和數(shù)據(jù)引擎的努力，并強調(diào)了廣泛的關(guān)鍵挑戰(zhàn)提出有希望的解決方案，最終針對智能汽車打造多面智能體是我們這代人可以完全預見的。

上一篇：全面帶你了解端到端大模型的底層邏輯（一）

下一篇：對HIL臺架系統(tǒng)的一點認識

国产美女精品福利一区二区_国产尤物av尤物在线观看_中文字幕在线中文字幕二区_精品国产子伦久久久久久小说_手机在线黄色网址_亚洲一区二区精品

全面了解端到端自動駕駛的研發(fā)現(xiàn)狀、挑戰(zhàn)與策略應對（二）

資質(zhì)榮譽

公司事記

加入我們

聯(lián)系我們

馬上在線溝通：