侵權(quán)投訴
訂閱
糾錯(cuò)
加入自媒體

自動(dòng)駕駛革命:解密端到端背后的數(shù)據(jù)、算力和AI奇跡

作者 |毫末智行數(shù)據(jù)智能科學(xué)家 賀翔

編輯 |祥威

最近,特斯拉FSD V12的發(fā)布引發(fā)了業(yè)界對(duì)端到端自動(dòng)駕駛的熱議,業(yè)界紛紛猜測(cè)FSD V12的強(qiáng)大能力是如何訓(xùn)練出來的。從馬斯克的測(cè)試視頻可以大致歸納一下FSD V12系統(tǒng)的一些核心特征:

·訓(xùn)練數(shù)據(jù):1000萬段、分布多樣、高質(zhì)量的視頻,數(shù)據(jù)的采集、篩選、質(zhì)量、分布是系統(tǒng)成功的重中之重

·訓(xùn)練方式:采用端到端訓(xùn)練,不再有感知、規(guī)控等模塊

·車端代碼:V11有30萬行代碼來處理各類場(chǎng)景,而V12則非常簡(jiǎn)單,不再針對(duì)任何場(chǎng)景定制策略,完全依靠數(shù)據(jù)編程

·運(yùn)行效率:50幀/秒,效率極高

這些特征如此炫酷,引領(lǐng)著自動(dòng)駕駛技術(shù)風(fēng)向。那么究竟什么是端到端自動(dòng)駕駛,如何實(shí)現(xiàn)端到端自動(dòng)駕駛呢?筆者作為自動(dòng)駕駛領(lǐng)域的從業(yè)人員,將從實(shí)戰(zhàn)應(yīng)用的角度出發(fā),探討端到端如何落地。

一、自動(dòng)駕駛的傳統(tǒng)做法

從第一性原理來講,自動(dòng)駕駛就是一個(gè)序列到序列的映射過程,輸入的是一個(gè)傳感器信號(hào)序列,可能包括多個(gè)攝像頭采集到的視頻、Lidar采集到的點(diǎn)云、以及GPS、IMU等各類信息,輸出的是一個(gè)駕駛決策序列,例如可以是駕駛動(dòng)作序列、也可以輸出軌跡序列再轉(zhuǎn)為操作動(dòng)作。

這個(gè)過程與大部分AI任務(wù)基本一致,這種映射過程就相當(dāng)于一個(gè)函數(shù) y = f(x)。但是實(shí)現(xiàn)這種函數(shù)往往難度比較大、任務(wù)極其復(fù)雜,對(duì)于這種復(fù)雜的任務(wù),一般可以通過2類方式來解決:

·分治法:將復(fù)雜任務(wù)分解成多個(gè)子任務(wù),逐個(gè)解決,再組合起來,相當(dāng)于 y = f(x)*g(x)…

·端到端:直接尋找一個(gè)函數(shù)實(shí)現(xiàn)y = f(x)

傳統(tǒng)分治法

分治法是將自動(dòng)駕駛?cè)蝿?wù)進(jìn)行切分,定義多個(gè)子任務(wù),每個(gè)子任務(wù)負(fù)責(zé)解決駕駛過程的某些特定問題,再進(jìn)行系統(tǒng)集成來完成整個(gè)自動(dòng)駕駛?cè)蝿?wù)。傳統(tǒng)上,這些子任務(wù)包括:

·地圖/定位:自動(dòng)駕駛的汽車需要知道駕駛環(huán)境的地圖,其包含的信息一般比我們?nèi)粘J褂玫膶?dǎo)航地圖要多,例如車道數(shù)量、車端邊界、道路曲率、交通路牌、交通信號(hào)燈、停止線、道路拓?fù)涞刃畔。?dāng)前,有些公司采用厘米級(jí)高清地圖,也有些公司采用更加輕量級(jí)的地圖,也有很多公司提出了無圖方案。然后,自動(dòng)駕駛的汽車需要準(zhǔn)確地知道其自身的位置和方向。傳統(tǒng)上有使用全球定位系統(tǒng)(GPS)、慣性測(cè)量單元(IMU)的方式,也有結(jié)合感知技術(shù),進(jìn)行圖片、Lidar點(diǎn)云匹配的方式來估計(jì)自身位置。

·感知/預(yù)測(cè):自動(dòng)駕駛的汽車需要看懂周圍的駕駛環(huán)境,感知任務(wù)負(fù)責(zé)識(shí)別障礙物、車道線、紅綠燈等關(guān)鍵的交通元素。尤其對(duì)于動(dòng)態(tài)障礙物,除了需要實(shí)時(shí)監(jiān)控并跟蹤其位置,還需要對(duì)其未來變化做出預(yù)測(cè),這與人類駕駛汽車是一樣的,需要對(duì)未來趨勢(shì)做一個(gè)預(yù)判,才能采取正確的駕駛決策。這對(duì)于在下游任務(wù)的預(yù)測(cè)至關(guān)重要。

·規(guī)劃/決策:自動(dòng)駕駛的汽車需要結(jié)合定位、感知、預(yù)測(cè)的結(jié)果,來規(guī)劃未來的行駛路徑,從而避開障礙物保證安全。規(guī)劃過程需要考慮體感、安全、效率等各種維度的因素。傳統(tǒng)的自動(dòng)駕駛方案一般通過分場(chǎng)景的方式,來定制不同的駕駛決策,將復(fù)雜的世界抽象為少數(shù)幾類典型場(chǎng)景,不同的場(chǎng)景采取不同的駕駛決策。

·控制:最終,我們需要將駕駛決策轉(zhuǎn)為車輛特定的動(dòng)作來操控車輛。

以百度的apollo為例,整體系統(tǒng)架構(gòu)如圖所示,可見,要完成復(fù)雜的自動(dòng)駕駛?cè)蝿?wù),需要先完成大量相對(duì)簡(jiǎn)單的子任務(wù),這些子任務(wù)可以先進(jìn)行獨(dú)立開發(fā)測(cè)試,然后再將這些子任務(wù)集成到一個(gè)系統(tǒng)里進(jìn)行驗(yàn)證。這種方式通過把復(fù)雜的任務(wù)切分、簡(jiǎn)化、分而治之,大幅度降低了系統(tǒng)開發(fā)難度,同時(shí)可以針對(duì)每個(gè)模塊都的輸入輸出進(jìn)行白盒化分析,系統(tǒng)具備很好的可解釋性,這對(duì)自動(dòng)駕駛而言至關(guān)重要,一旦發(fā)生事故,必須要進(jìn)行深入分析,找到原因。

但是,這種方式也有明顯的弊端,例如模塊太多、集成困難、錯(cuò)誤累加等等,同時(shí)由于系統(tǒng)設(shè)計(jì)時(shí)引入了太多的人為先驗(yàn)經(jīng)驗(yàn),導(dǎo)致自動(dòng)駕駛能力上限比較低,系統(tǒng)的泛化性比較差,對(duì)于沒有見過的場(chǎng)景往往無法處理。

二、「端到端」技術(shù)興起

相比之下,端到端自動(dòng)駕駛不進(jìn)行任務(wù)切分,希望直接輸入傳感器數(shù)據(jù)、輸出駕駛決策(動(dòng)作或者軌跡),從而拋棄傳統(tǒng)自動(dòng)駕駛里的感知、預(yù)測(cè)、規(guī)劃、控制等各類子任務(wù)。這種方式有明顯的優(yōu)勢(shì),例如:

·效果上:不但系統(tǒng)更簡(jiǎn)單,還能實(shí)現(xiàn)全局最優(yōu)。

·效率上:由于任務(wù)更少、避免了大量重復(fù)處理,可以提高計(jì)算效率。

·數(shù)據(jù)收益:不需要大量的人工策略、只需要采集足夠多的優(yōu)質(zhì)駕駛數(shù)據(jù)來訓(xùn)練即可,可以通過規(guī)模化的方式(不斷擴(kuò)展數(shù)據(jù))來不斷提升系統(tǒng)的能力上限。

一個(gè)典型的端到端自動(dòng)駕駛系統(tǒng)如圖所示:

輸入:大部分自動(dòng)駕駛汽車都裝載了相機(jī)、Lidar、毫米波雷達(dá)等各類傳感器,采集這些傳感器的數(shù)據(jù),輸入深度學(xué)習(xí)系統(tǒng)即可。

輸出: 可以直接輸出轉(zhuǎn)向角、油門、剎車等控制信號(hào),也可以先輸出軌跡再結(jié)合不同的車輛動(dòng)力學(xué)模型,將軌跡轉(zhuǎn)為轉(zhuǎn)向角、油門、剎車等控制信號(hào)。

可見,端到端自動(dòng)駕駛系統(tǒng)就像人類的大腦,通過眼睛、耳朵等傳感器接受信息,經(jīng)過大腦處理后,下達(dá)指令給手腳執(zhí)行命令,整個(gè)系統(tǒng)簡(jiǎn)單的都沒啥可介紹的……。但是這種簡(jiǎn)單也隱藏了巨大的風(fēng)險(xiǎn),例如可解釋性很差,無法像傳統(tǒng)自動(dòng)駕駛?cè)蝿?wù)一樣將中間結(jié)果拿出來進(jìn)行分析;對(duì)數(shù)據(jù)的要求非常高,需要高質(zhì)量的、分布多樣的、海量的訓(xùn)練數(shù)據(jù),否則AI就會(huì)實(shí)現(xiàn)垃圾進(jìn)垃圾出。

與傳統(tǒng)的自動(dòng)駕駛方式對(duì)比可見,同樣的輸入、同樣的輸出,傳統(tǒng)自動(dòng)駕駛包含多個(gè)任務(wù)(多個(gè)模塊),但是端到端只有一個(gè)任務(wù)。此處容易產(chǎn)生一個(gè)誤區(qū),即認(rèn)為傳統(tǒng)的自動(dòng)駕駛是多模塊的、端到端自動(dòng)駕駛是單模塊的,把分模塊與分任務(wù)的概念搞混了。

傳統(tǒng)的自動(dòng)駕駛是分任務(wù)的,必然是多個(gè)模塊。端到端自動(dòng)駕駛可以用單模塊來實(shí)現(xiàn),當(dāng)然也可以用多模塊來實(shí)現(xiàn),其區(qū)別在于是否端到端訓(xùn)練。分任務(wù)系統(tǒng)是每個(gè)任務(wù)獨(dú)立訓(xùn)練、獨(dú)立優(yōu)化、獨(dú)立測(cè)評(píng)的,而端到端系統(tǒng)是把所有模塊看成一個(gè)整體進(jìn)行端到端訓(xùn)練、端到端測(cè)評(píng)的。

例如2023年CVPR best paper提出的UniAD就是一種分模塊端到端訓(xùn)練方式,這種方式通過端到端訓(xùn)練避免了多任務(wù)訓(xùn)練的融合難題實(shí)現(xiàn)全局最優(yōu),又保留了分模塊系統(tǒng)的優(yōu)勢(shì)、可以拋出中間模塊的結(jié)果進(jìn)行白盒化分析,反而更具靈活性對(duì)部署也更友好,如圖所示:

分任務(wù)的自動(dòng)駕駛系統(tǒng)更像model centric系統(tǒng),開發(fā)者通過不斷優(yōu)化各個(gè)模型來提升各個(gè)任務(wù)的效果。而端到端自動(dòng)駕駛則更像data centric系統(tǒng),通過對(duì)數(shù)據(jù)的調(diào)優(yōu)來提升系統(tǒng)效果。

早年,由于自動(dòng)駕駛積累的數(shù)據(jù)還非常少,端到端系統(tǒng)的效果往往比較差。最近幾年,隨著帶高階輔助駕駛功能的量產(chǎn)車大規(guī)模落地,通過海量量產(chǎn)車可以采集到豐富的駕駛數(shù)據(jù),覆蓋各類場(chǎng)景,再加上最近幾年AI算力的蓬勃發(fā)展,端到端自動(dòng)駕駛在海量數(shù)據(jù)、海量算力的加持下,取得了突破性進(jìn)展。

以特斯拉為例,通過遍布全球的幾百萬輛量產(chǎn)車,可以采集到足夠豐富、足夠多樣的數(shù)據(jù),再?gòu)闹羞x出優(yōu)質(zhì)數(shù)據(jù),在云端使用數(shù)萬張GPU、以及自研的DOJO進(jìn)行訓(xùn)練和驗(yàn)證,使得端到端自動(dòng)駕駛能夠從paper變成product。

到 2023 年初,特斯拉就聲稱已經(jīng)分析了從特斯拉客戶的汽車中收集的 1000 萬個(gè)視頻片段(clips),特斯拉判斷完成一個(gè)端到端自動(dòng)駕駛的訓(xùn)練至少需要100萬個(gè)、分布多樣、高質(zhì)量的clips才能正常工作。

特斯拉通過分布在全球的幾百萬量產(chǎn)車,基于影子模式,每當(dāng)自動(dòng)駕駛決策與人類司機(jī)不一致時(shí),就會(huì)采集并回傳一個(gè)clip,已經(jīng)累積了200P以上的數(shù)據(jù),不管是數(shù)據(jù)規(guī)模、數(shù)據(jù)分布還是數(shù)據(jù)質(zhì)量上都遙遙領(lǐng)先。為了能在云端處理這些數(shù)據(jù),當(dāng)前特斯拉擁有近10萬張A100,位居全球top5,預(yù)計(jì)到今年底會(huì)擁有100EFlops的算力,并針對(duì)自動(dòng)駕駛自研了Dojo,在算力上同樣遙遙領(lǐng)先。

在2022年,毫末智行也開始了對(duì)端到端自動(dòng)駕駛以及自動(dòng)駕駛大模型的探索,走過了一條從看圖說話到完型填空到寫小作文的道路。

最早,毫末將端到端自動(dòng)駕駛簡(jiǎn)單地定義為一個(gè)看圖說話任務(wù),希望輸入一串圖片、輸出一串駕駛決策,這種方式與機(jī)器翻譯輸入一串中文輸出一串英文非常類似,所以可以選擇端到端的序列模型,通過對(duì)輸入圖片進(jìn)行編碼,再解碼輸出駕駛決策。

但是訓(xùn)練之后,發(fā)現(xiàn)難以找到足夠的數(shù)據(jù)來訓(xùn)練模型,因?yàn)槭掷锊杉降臄?shù)據(jù)絕大部分駕駛行為都是雷同的,例如大部分都是直行,能用的數(shù)據(jù)不到2%。雖然項(xiàng)目效果未達(dá)預(yù)期,但是訓(xùn)練過程發(fā)現(xiàn)端到端訓(xùn)練需要消耗大量的算力,于是又開始著手解決算力問題,并且在2022年底跟火山引擎合作落地了業(yè)界領(lǐng)先的智算中心,等2023年大模型爆發(fā)再加上美國(guó)的制裁,算力市場(chǎng)已經(jīng)一卡難求了,這也算一個(gè)意外收獲。

三、端到端自動(dòng)駕駛的挑戰(zhàn)

從特斯拉的開發(fā)經(jīng)驗(yàn)來看,端到端自動(dòng)駕駛真不是一般的企業(yè)能玩的,其所需的數(shù)據(jù)規(guī)模、算力規(guī)模遠(yuǎn)遠(yuǎn)超出國(guó)內(nèi)企業(yè)的承受能力。除了成本高昂,端到端自動(dòng)駕駛的技術(shù)難度也非常高,想要從實(shí)現(xiàn)從paper到product落地,相當(dāng)于跨越從二踢腳到登月的難度。

·數(shù)據(jù)難題

端到端訓(xùn)練首先需要解決數(shù)據(jù)問題。早年自動(dòng)駕駛企業(yè)大多依賴采集車采集數(shù)據(jù),這種數(shù)據(jù)是不真實(shí)的、分布有偏的、低質(zhì)量的,只能做個(gè)demo,難以進(jìn)行大規(guī)模端到端訓(xùn)練。最近幾年,隨著量產(chǎn)車的規(guī)模化落地,業(yè)界很多公司都開始轉(zhuǎn)向采用量產(chǎn)車通過影子模式采集數(shù)據(jù),但這種模式依然面臨艱巨的挑戰(zhàn)。首先是采集策略問題,即如何平衡數(shù)據(jù)的長(zhǎng)尾問題(有效性)和數(shù)據(jù)的規(guī)模問題(成本),如果采集策略比較寬松,我們往往發(fā)現(xiàn)采集回來的數(shù)據(jù)大部分是垃圾數(shù)據(jù),根本沒有使用價(jià)值,如果采集策略過于嚴(yán)格,又擔(dān)心丟失大量有價(jià)值的數(shù)據(jù)。其次是數(shù)據(jù)的質(zhì)量問題,如何定義數(shù)據(jù)質(zhì)量是個(gè)艱巨的產(chǎn)品問題,如何精準(zhǔn)地挑選出高質(zhì)量的數(shù)據(jù)又是一個(gè)復(fù)雜的技術(shù)問題。然后是數(shù)據(jù)分布問題,如何從海量clips中提取有效的特征、如何統(tǒng)計(jì)數(shù)據(jù)的分布、應(yīng)該考慮哪些維度,都需要大量的工作。對(duì)大部分自動(dòng)駕駛企業(yè),還會(huì)面臨嚴(yán)重的數(shù)據(jù)泛化問題,因?yàn)椴煌能囆蛡鞲衅髋渲貌町惥薮螅杉臄?shù)據(jù)往往難以復(fù)用,而國(guó)內(nèi)車企普遍車型眾多,最后很可能是采了一堆數(shù)據(jù)放在那沒法使用,看起來是數(shù)據(jù)資產(chǎn),其實(shí)都是存儲(chǔ)成本。毫不夸張地說,數(shù)據(jù)會(huì)占據(jù)端到端自動(dòng)駕駛開發(fā)中80%以上的研發(fā)成本。

·算力難題

在美國(guó)多輪制裁之下,國(guó)內(nèi)采購(gòu)GPU難上加難,大部分企業(yè)手里擁有的算力資源非常有限,擁有超過1000張A100的企業(yè)寥寥無幾,甚至全國(guó)加起來都沒有特斯拉一家企業(yè)多。如何在算力受限的情況下,進(jìn)行端到端自動(dòng)駕駛的研發(fā),是一個(gè)值得深入討論的問題。

·算法難題

即使有了數(shù)據(jù)、有了算力,如何設(shè)計(jì)合適的自動(dòng)駕駛算法來進(jìn)行端到端訓(xùn)練,依然沒有統(tǒng)一的答案。業(yè)界做過很多的嘗試,包括模仿學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等等。模仿學(xué)習(xí)是模仿人類專家的行為,從中學(xué)習(xí)最優(yōu)策略,例如可以挑選一批高質(zhì)量的駕駛行為數(shù)據(jù)來訓(xùn)練模型。強(qiáng)化學(xué)習(xí)則是通過與環(huán)境的交互和獎(jiǎng)罰不斷試錯(cuò)進(jìn)行學(xué)習(xí),可以設(shè)定一個(gè)獎(jiǎng)勵(lì)機(jī)制,例如更少的碰撞、更高的效率等,在仿真環(huán)境里進(jìn)行大規(guī)模試錯(cuò)。

·驗(yàn)證難題

端到端自動(dòng)駕駛的評(píng)估也是一個(gè)十分困難的問題。自動(dòng)駕駛測(cè)評(píng)分為2類:閉環(huán)評(píng)估和開環(huán)評(píng)估,主要區(qū)別在于閉環(huán)評(píng)估可以接受到反饋信號(hào)從而形成反饋閉環(huán)。開環(huán)評(píng)估可以對(duì)不同的任務(wù)通過輸入輸出來進(jìn)行評(píng)估,例如單獨(dú)評(píng)估感知、預(yù)測(cè)、規(guī)劃的效果,并與真實(shí)數(shù)據(jù)或者標(biāo)注數(shù)據(jù)進(jìn)行對(duì)比,傳統(tǒng)的自動(dòng)駕駛可以通過開環(huán)評(píng)估迭代。而端到端自動(dòng)駕駛則難以進(jìn)行開環(huán)評(píng)估,甚至也有人認(rèn)為開環(huán)評(píng)估的端到端自動(dòng)駕駛根本沒有意義。閉環(huán)評(píng)估一般通過在仿真引擎構(gòu)建的虛擬世界里建立反饋閉環(huán),但是仿真不真是業(yè)界一大難題,很難推廣到現(xiàn)實(shí)世界中的各種場(chǎng)景。例如在接近大貨車時(shí),即使自動(dòng)駕駛能完美地通過,乘客往往也會(huì)有嚴(yán)重的恐慌心理,這種心理很難模擬。而如果采用實(shí)車閉環(huán)測(cè)評(píng),一方面測(cè)評(píng)成本太高,另一方面危險(xiǎn)場(chǎng)景的hard case使用實(shí)車測(cè)評(píng)危險(xiǎn)太大。

·可解釋性難題

如前文所述,可解釋性是端到端自動(dòng)駕駛的一個(gè)弱點(diǎn)。尤其是對(duì)于單模塊端到端自動(dòng)駕駛模型,實(shí)現(xiàn)可解釋性極為困難,雖然可以將注意力權(quán)重可視化來提供部分解釋性,但可靠性和實(shí)用性仍然十分有限,難以對(duì)事故、售后定責(zé)等問題給出有效的證據(jù)。對(duì)于分模塊的端到端系統(tǒng),雖然可以將中間結(jié)果拋出以提供更多的信息,但是這種信息往往是神經(jīng)網(wǎng)絡(luò)的隱層特征,跟直觀的、真實(shí)的證據(jù)鏈還是有一定的差距,難以跟客戶解釋清楚。

·上車難題

終于在云端完成了端到端自動(dòng)駕駛的訓(xùn)練了,仿真效果也很好,最后是如何把這套系統(tǒng)搬到車上并且高效的運(yùn)行。云端系統(tǒng)為了處理數(shù)以百萬計(jì)的clips,一般都采用復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)、巨大的網(wǎng)絡(luò)參數(shù)(高達(dá)10億甚至更多),再用成千上萬張A100進(jìn)行訓(xùn)練。但是車端往往只有非常低的算力、非常低的功耗,卻要求極高的幀率(每秒處理的圖片數(shù)量)、極低的延遲,這導(dǎo)致端到端自動(dòng)駕駛上車十分困難,只有經(jīng)過大規(guī)模的量化剪枝等提效手段之后才有可能。

這些最難的部分,特斯拉還沒公開談過是如何解決的。今年的特斯拉AI Day,大家可以期待一下特斯拉的端到端如何破解以上難題。在這之前,筆者談一下毫末是如何做的。

四、自動(dòng)駕駛端到端的探索

為了降低訓(xùn)練難度,毫末考慮將端到端大模型進(jìn)行拆分,分為2個(gè)階段,一個(gè)階段解決感知問題(看懂世界),一個(gè)階段解決認(rèn)知問題(駕駛決策),這樣做的好處有2個(gè):

1.可以先獨(dú)立訓(xùn)練,再進(jìn)行聯(lián)合finetue,降低訓(xùn)練難度;

2.不同的階段可以采用不同的數(shù)據(jù),大幅降低數(shù)據(jù)成本。

在感知階段,主要任務(wù)是把視覺信號(hào)轉(zhuǎn)為感知結(jié)果,可以利用海量的帶高清視頻的采集數(shù)據(jù)和量產(chǎn)車回傳的各類corner case視頻來訓(xùn)練。而在認(rèn)知階段,則根據(jù)感知結(jié)果來進(jìn)行駕駛決策,不需要輸入視頻,只需要輸入感知結(jié)果和駕駛行為即可,這種數(shù)據(jù)可以通過量產(chǎn)車進(jìn)行大規(guī)模定向采集。通過這種拆解,既降低了任務(wù)的難度,又能充分利用不同的數(shù)據(jù)。

對(duì)于感知大模型,毫末從第一性原理出發(fā),認(rèn)為要實(shí)現(xiàn)端到端自動(dòng)駕駛,感知就必須跟人類一樣,同時(shí)具備識(shí)別二維紋理和三維結(jié)構(gòu)、認(rèn)識(shí)萬物這三個(gè)條件,并且最好是純視覺的。基于這樣的原則,我們建立了自監(jiān)督感知大模型,將車載攝像頭的二維視頻數(shù)據(jù)進(jìn)行編碼,然后通過NeRF渲染來預(yù)測(cè)視頻的下一幀圖像,構(gòu)建了4D特征空間。再通過多模態(tài)技術(shù)將視覺信號(hào)與文本信號(hào)對(duì)齊,實(shí)現(xiàn)識(shí)別萬物。

對(duì)于認(rèn)知大模型,輸入的是感知結(jié)果、輸出的是駕駛決策,由于感知結(jié)果和駕駛決策都是結(jié)構(gòu)化文本,其處理的都是文本符號(hào),我們自然而然地想到了引入NLP相關(guān)的技術(shù)。

在2023年之前,BERT模型在互聯(lián)網(wǎng)領(lǐng)域取得了非常成功的應(yīng)用,于是我們嘗試將BERT類的掩碼模型引入自動(dòng)駕駛認(rèn)知模型,通過量產(chǎn)車回傳海量的<感知結(jié)果、司機(jī)動(dòng)作>數(shù)據(jù)對(duì)。這樣輸入歷史10秒的<感知結(jié)果、司機(jī)動(dòng)作>、再用掩碼蓋住未來幾秒的司機(jī)駕駛動(dòng)作,然后讓模型來預(yù)測(cè)駕駛動(dòng)作,如果模型預(yù)測(cè)對(duì)了,就說明模型學(xué)會(huì)了開車,我們稱之為完形填空。

但是訓(xùn)練效果并沒有達(dá)到預(yù)期,分析后發(fā)現(xiàn),與NLP任務(wù)完全不同,NLP通過mask部分單詞,然后結(jié)合上下文可以把詞猜出來,確實(shí)是完形填空。但是自動(dòng)駕駛場(chǎng)景下,mask歷史動(dòng)作是毫無意義的,只能mask未來動(dòng)作,即只有上文沒有下文,這其實(shí)是寫作文,大家都知道寫作文的難度比完形填空高太多了。

而且,人類駕駛汽車不僅依賴歷史感知結(jié)果,還更多的依賴對(duì)未來的預(yù)判,老司機(jī)往往對(duì)未來幾秒的交通環(huán)境有非常好的預(yù)判,例如隔壁車道的車會(huì)不會(huì)突然變道、路邊的行人會(huì)不會(huì)橫穿馬路等;谶@種預(yù)判,老司機(jī)再采取合理的駕駛動(dòng)作。這種預(yù)判,從模型上講就是一種生成式模型。于是我們將算法調(diào)整為GPT生成式模型,將歷史感知結(jié)果使用BEV方式表達(dá)出來,再將BEV序列輸入模型,讓模型預(yù)測(cè)幾秒鐘之后未來世界可能發(fā)生的變化,這樣就構(gòu)建一個(gè)自回歸的生成式模型,如下圖所示:

然后,將感知和認(rèn)識(shí)進(jìn)行聯(lián)合訓(xùn)練就可以實(shí)現(xiàn)端到端自動(dòng)駕駛了。但是,我們發(fā)現(xiàn)僅通過這種方式進(jìn)行訓(xùn)練,想要達(dá)到非常好的駕駛效果,需要的數(shù)據(jù)規(guī)模、算力規(guī)模都極為龐大,我們根本無法承受。

例如,在傳統(tǒng)的分任務(wù)自動(dòng)駕駛范式下,感知算法識(shí)別塑料袋后,可以人為設(shè)計(jì)一個(gè)塑料袋可以壓過去的駕駛策略,這樣訓(xùn)練成本很低,但是在端到端范式下想要讓自動(dòng)駕駛識(shí)別塑料袋并學(xué)習(xí)到塑料袋是可以壓過去,需要大量數(shù)據(jù)進(jìn)行訓(xùn)練,成本極高,這也是特斯拉手握數(shù)萬卡的原因之一。

塑料袋、泡沫等軟性材質(zhì)是可以壓過去的、交警的手勢(shì)優(yōu)先級(jí)是高于紅綠燈的、救護(hù)車是要避讓的,這些其實(shí)都屬于人類社會(huì)的世界知識(shí),這些知識(shí)都是人類經(jīng)過長(zhǎng)期學(xué)習(xí)之后獲得的。

傳統(tǒng)的基于人工策略的自動(dòng)駕駛成本很低,就是因?yàn)橥ㄟ^人工策略直接把人類社會(huì)積累的知識(shí)用在了自動(dòng)駕駛上,省去了訓(xùn)練成本。但是駕駛知識(shí)包羅萬象,如果要基于人類知識(shí)為世間萬物定制各類策略,也是一件不可能的事情。

那如何既能利用人類社會(huì)沉淀的知識(shí),又能降低端到端自動(dòng)駕駛的訓(xùn)練成本呢?考慮到大語(yǔ)言模型中壓縮了幾乎全人類的知識(shí),如果能將跟駕駛決策相關(guān)的知識(shí)提取出來,應(yīng)該能大幅度降低訓(xùn)練成本。

于是,毫末在端到端自動(dòng)駕駛中又引入了大語(yǔ)言模型,通過感知大模型識(shí)別萬物后,將這些信息輸入LLM,通過LLM來提取世界知識(shí),并作為輔助特征來指導(dǎo)駕駛決策。如圖所示,這個(gè)系統(tǒng)極為復(fù)雜,算力消耗非常大,目前還只能在云端運(yùn)行,未來幾年將加快向車端的落地。

五、未來趨勢(shì)

過去一年,大語(yǔ)言模型的發(fā)展思路給端到端自動(dòng)駕駛很多啟發(fā),在模型、數(shù)據(jù)上都值得借鑒。

·大模型

在自然語(yǔ)言處理領(lǐng)域,Chatgpt作為基礎(chǔ)模型展示了極強(qiáng)的泛化能力。最近,學(xué)術(shù)界的研究在語(yǔ)言-視覺大模型上也取得了突破性進(jìn)展,這種基礎(chǔ)模型無疑會(huì)讓自動(dòng)駕駛?cè)缁⑻硪怼?/p>

特斯拉、Wayve等公司也提出將World Model作為自動(dòng)駕駛基礎(chǔ)模型的思路。World model是一種基于視頻來預(yù)測(cè)未來世界的模型,例如特斯拉的world model可以根據(jù)prompt給出的動(dòng)作來做出反饋,并生成未來的世界圖像,而且能保證多視角、時(shí)序的一致性。

·借助大語(yǔ)言模型LLM

大語(yǔ)言模型壓縮了人類的大部分知識(shí),當(dāng)然也包括駕駛知識(shí)。可以通過與LLM進(jìn)行交互,提取駕駛常識(shí)。例如傳統(tǒng)的占用網(wǎng)絡(luò),遇到前方一個(gè)大塑料袋時(shí),往往會(huì)以為空間被占用,但是基于LLM,我們可以獲取塑料袋的物理知識(shí),從而知道不必躲閃。通過這種方式,相當(dāng)于副駕坐了一位見多識(shí)廣的陪練,隨時(shí)可以告訴你遇到corner case應(yīng)該如何處理,但是通過語(yǔ)言模型指導(dǎo)自動(dòng)駕駛依舊風(fēng)險(xiǎn)巨大,因?yàn)長(zhǎng)LM提供的答案幻覺十分嚴(yán)重。

·數(shù)據(jù)生成

端到端自動(dòng)駕駛可以說是數(shù)據(jù)為王,為了解決長(zhǎng)尾數(shù)據(jù)問題,業(yè)界也在嘗試用AIGC技術(shù)構(gòu)造數(shù)據(jù)。面對(duì)一個(gè)尚未解決的問題,如果現(xiàn)實(shí)環(huán)境難以采集到類似的數(shù)據(jù),例如車禍,可以考慮使用AIGC技術(shù)來定向生成類似場(chǎng)景的數(shù)據(jù),來快速提升效果。也可以使用仿真引擎來構(gòu)造類似的場(chǎng)景,生成數(shù)據(jù)。

·Zeroshot/fewshot learning

然而,不管數(shù)據(jù)規(guī)模有多大,自動(dòng)駕駛模型始終都會(huì)遇到超出數(shù)據(jù)分布的場(chǎng)景,每次遇到問題都去找數(shù)據(jù)來訓(xùn)模型顯然不夠優(yōu)雅,最好的方式是自動(dòng)駕駛模型具備足夠的泛化能力,只需要少量樣本,甚至不需要樣本就能解決這種分布之外的場(chǎng)景。大模型的出現(xiàn),讓這種能力成為可能。

長(zhǎng)期來看,縱然各種挑戰(zhàn)仍在,但筆者相信,端到端自動(dòng)駕駛是未來最有希望實(shí)現(xiàn)無人駕駛的途徑之一,大模型將對(duì)自動(dòng)駕駛的技術(shù)發(fā)展產(chǎn)生深度影響。

       原文標(biāo)題 : 自動(dòng)駕駛革命:解密端到端背后的數(shù)據(jù)、算力和AI奇跡

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

智能汽車網(wǎng) 獵頭職位 更多
文章糾錯(cuò)
x
*文字標(biāo)題:
*糾錯(cuò)內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號(hào)