訂閱
糾錯(cuò)
加入自媒體

采用 ChatGPT 類似大模型作為自動(dòng)駕駛算法核心的 - Waymo 的端到端多模態(tài)算法 EMMA

最近,一直采用激光雷達(dá)和高精地圖實(shí)現(xiàn) L4 的自動(dòng)駕駛公司 Waymo 的一個(gè)內(nèi)部研究團(tuán)隊(duì),發(fā)布了一篇關(guān)于利用端到端多模態(tài)自動(dòng)駕駛模型實(shí)現(xiàn)自動(dòng)駕駛的新論文。

它采用類似于 ChatGPT 的大語言模型 Gemini LLM 作為算法核心,算法所有的輸入和輸出表示為普通文本,具有非常強(qiáng)大的通用性和泛化性,算法還具有可解釋性。

引起了自動(dòng)駕駛行業(yè)的轟動(dòng)。所以,本文將初步總結(jié)和介紹Waymo 的端到端多模態(tài)自動(dòng)駕駛模型EMMA相關(guān)信息:

目前智能駕駛行業(yè)算法的四種算法方案。

“端到端多模態(tài)自動(dòng)駕駛模型”(EMMA)是怎么做的?

當(dāng)前 EMMA 類方案有什么局限性?

對(duì)當(dāng)前智能駕駛乃至汽車行業(yè)產(chǎn)生什么影響?

希望能給大家?guī)硪恍┲悄荞{駛和汽車發(fā)展的信息和思路。

目前智能駕駛行業(yè)算法的四種算法方案

模塊化自動(dòng)駕駛算法

模塊化的高階智能駕駛系統(tǒng)采用,感知 、地圖、預(yù)測(cè)和規(guī)劃等不同的模塊或者組件來實(shí)現(xiàn)。

這種設(shè)計(jì)便于單個(gè)模塊或組件的調(diào)試和優(yōu)化,但由于模塊間的錯(cuò)誤積累和模塊間的通信有限,它在可擴(kuò)展性方面面臨挑戰(zhàn)。特別需要指出的是,這些模塊通常是基于目標(biāo)場(chǎng)景預(yù)先定義的,所以,這些基于規(guī)則設(shè)計(jì)的模塊間接口(例如感知和行為模塊之間的接口)可能難以適應(yīng)新環(huán)境。

這種方案在現(xiàn)在的智能駕駛應(yīng)用,能夠?qū)崿F(xiàn)針對(duì)性場(chǎng)景下高性能,高性價(jià)比,我們之前文章《被逼墻角的Mobileye,祭出 CAIS 大旗,挑戰(zhàn)端到端大模型智能駕駛》中介紹的Mobileye是這方面的強(qiáng)者代表。端到端自動(dòng)駕駛算法

特斯拉FSD V12,首先發(fā)起在智能駕駛方面采用端到端的自動(dòng)駕駛算法,直接從傳感器數(shù)據(jù)學(xué)習(xí)生成駕駛行為。該方法消除了模塊之間信號(hào)接口的需求,并允許從原始傳感器輸入聯(lián)合優(yōu)化駕駛目標(biāo)。這種端到端算法是專門針對(duì)駕駛這種特定的任務(wù),它需要收集大量的道路駕駛數(shù)據(jù)來訓(xùn)練全新的模型。

這也就是當(dāng)前特斯拉以及國(guó)內(nèi)一眾智能駕駛公司的方法,數(shù)據(jù),算力為王,大家都在賣力重復(fù)造自己的輪子,希望有朝一日自己輪子能夠成為米其林或者馬牌輪胎,獨(dú)步天下。但是,長(zhǎng)尾理論一直存在,大家一直在 push 尋找這個(gè)長(zhǎng)尾到底有多長(zhǎng)。端到端自動(dòng)駕駛算法+LVM圖像語言模型。我們之前文章《智能駕駛技術(shù)演進(jìn)與未來挑戰(zhàn):從目標(biāo)物識(shí)別到大模型上車》分享了將現(xiàn)有智能駕駛系統(tǒng)的能力與多模特語言模型進(jìn)行整合和增強(qiáng)的案例,它就是借用大語言模型對(duì)世界理解的能力去解讀道路圖片信息來增強(qiáng)端到端算法能力,彌補(bǔ)長(zhǎng)尾。

業(yè)內(nèi)理想汽車最新的自動(dòng)駕駛就是采用此類方案E2E大模型+LVM圖像語言模型。端到端多模態(tài)自動(dòng)駕駛大模型本文介紹的 Waymo 端到端多模態(tài)自動(dòng)駕駛模型EMMA是另外一種方法,當(dāng)然它目前只是學(xué)術(shù)論文,沒有進(jìn)行工程化。它采用多模態(tài)大型語言模型為自動(dòng)駕駛中的人工智能提供了一個(gè)有前景的新范式,采用專門針對(duì)駕駛調(diào)整過的通用基礎(chǔ)大語言模型,作為智能駕駛算法的核心算法或者組件。大語言模型在兩個(gè)關(guān)鍵領(lǐng)域表現(xiàn)出色,所以采用它不需要重新訓(xùn)練一個(gè)模型:他們是基于人類在互聯(lián)網(wǎng)上積累的文字信息訓(xùn)練而成,所以可以理解為三體中的“智子”他把人類豐富的“世界知識(shí)”全部折疊進(jìn)入它算法內(nèi),它的知識(shí)量遠(yuǎn)遠(yuǎn)超過我們常見駕駛?cè)罩局兴膬?nèi)容。它們通過鏈?zhǔn)剿季S推理等技術(shù)展示了卓越的推理能力 ,這些能力在專用駕駛系統(tǒng)中并不具備。

其實(shí)目前業(yè)內(nèi)已經(jīng)有兩三家開始靠近這個(gè)方案,例如我們之前文章《探秘美國(guó)加州自動(dòng)駕駛路試:豪橫競(jìng)逐、勤奮探索與技術(shù)挑戰(zhàn)》提到的采用Open AI大模型的 Ghost (今年已經(jīng)倒閉)和 Wayve,但他們應(yīng)該是部分采用這個(gè)思維。“端到端多模態(tài)自動(dòng)駕駛模型”(EMMA)是怎么做的?“端到端多模態(tài)自動(dòng)駕駛模型”(EMMA)是以谷歌的大語言模型 Gemini 框架為算法核心構(gòu)建。Gemini 是一個(gè)基于文本的 LLM,類似于 Open AI的 ChatGPT,它使用大量通用文本語料庫進(jìn)行訓(xùn)練,從而獲得世界和人類自然語言的知識(shí)。同時(shí)該算法針對(duì)大量有關(guān)道路和駕駛的文本以及許多其他通用知識(shí)進(jìn)行訓(xùn)練和微調(diào)。此外,還添加了基于駕駛視頻的“端到端”訓(xùn)練。EMMA的關(guān)鍵創(chuàng)新在于能夠同時(shí)處理視覺輸入(如攝像頭圖像)和非視覺輸入(如基于文本的駕駛指令和歷史上下文)。

通過將駕駛?cè)蝿?wù)重新表述為視覺問答(VQA)問題,這樣,EMMA能夠利用Gemini原有模型中編碼的大量知識(shí),同時(shí)賦予其處理各種駕駛?cè)蝿?wù)的能力。以下是論文中討論的幾個(gè)關(guān)鍵要素:多模態(tài)輸入:EMMA接受攝像頭圖像(視覺數(shù)據(jù))以及導(dǎo)航等文本輸入,駕駛指令和歷史上下文,使其能夠理解并應(yīng)對(duì)涉及視覺和非視覺信息的復(fù)雜駕駛場(chǎng)景。視覺問答VQA方法:將駕駛?cè)蝿?wù)重新表述為視覺問答問題,允許EMMA在文本指令的上下文中解讀視覺數(shù)據(jù)。這有助于模型更好地理解駕駛中的動(dòng)態(tài)和多樣化的情況。使用任務(wù)特定提示進(jìn)行微調(diào):EMMA通過使用駕駛?cè)罩竞腿蝿?wù)特定的提示進(jìn)行微調(diào),從而使其能夠生成各種駕駛輸出,如運(yùn)動(dòng)規(guī)劃的未來軌跡、感知目標(biāo)、道路圖元素和場(chǎng)景語義等。EMMA概述圖:

它的三個(gè)輸入:

導(dǎo)航指令,類似于人類使用導(dǎo)航一樣,系統(tǒng)接收來自于導(dǎo)航的high level高層次文本指令,例如前方100m左轉(zhuǎn),前方路口右轉(zhuǎn)等等類似指令。自車的歷史狀態(tài),表示為不同時(shí)間戳下的鳥瞰視圖(BEV)空間中的一組路標(biāo)坐標(biāo)。所有的路標(biāo)坐標(biāo)都表示為普通文本,不使用專門的標(biāo)記。方便擴(kuò)展為包含更高階的自車狀態(tài),如速度和加速度。攝像頭視頻感知。通過攝像頭感知三維世界、識(shí)別周圍的物體、道路圖以及交通狀況。Waymo 團(tuán)隊(duì)將EMMA構(gòu)建為一個(gè)通用模型,能夠通過訓(xùn)練混合處理多個(gè)駕駛?cè)蝿?wù)。Waymo 團(tuán)隊(duì)使用視覺-語言框架將所有的輸入和輸出表示為普通文本,從而提供了將許多其他駕駛?cè)蝿?wù)融入系統(tǒng)的靈活性。對(duì)原有大語言模型采用指令微調(diào)(instruction-tuning),將感知任務(wù)組織為三個(gè)主要類別:空間推理、道路圖估計(jì)和場(chǎng)景理解。

空間推理是理解、推理并得出關(guān)于物體及其在空間中的關(guān)系的能力。這使得自動(dòng)駕駛系統(tǒng)能夠解釋并與其周圍環(huán)境互動(dòng),從而實(shí)現(xiàn)安全導(dǎo)航。Waymo 團(tuán)隊(duì)巧妙的將空間推理結(jié)果的7維框((x, y, z)是車輛坐標(biāo)系中的中心位置,l, w, h是邊界框的長(zhǎng)、寬和高,θ是航向角)轉(zhuǎn)換為文本表示。道路圖估計(jì)側(cè)重于識(shí)別關(guān)鍵的道路元素,以確保安全駕駛,包括語義元素(如車道標(biāo)線、標(biāo)志)和物理屬性(如車道曲率)。這些道路元素集合構(gòu)成了道路圖。場(chǎng)景理解任務(wù)測(cè)試模型對(duì)整個(gè)場(chǎng)景上下文的理解,這對(duì)于駕駛尤為重要。

例如,由于施工、緊急情況或其他事件,道路可能暫時(shí)被堵塞。及時(shí)檢測(cè)這些堵塞并安全繞行對(duì)于確保自動(dòng)駕駛車輛的順暢和安全運(yùn)行至關(guān)重要;然而,場(chǎng)景中的多個(gè)線索必須結(jié)合起來才能確定是否存在堵塞。所有的輸入和輸出都是文本信息,EMMA通過使用駕駛?cè)罩竞腿蝿?wù)特定的提示進(jìn)行微調(diào),從而使微調(diào)的 LLM 語言大模型能夠生成各種駕駛輸出運(yùn)動(dòng)規(guī)劃和駕駛控制信號(hào)。

這樣的算法實(shí)現(xiàn)了三個(gè)優(yōu)點(diǎn):自監(jiān)督:唯一需要監(jiān)督的是自車未來的位置,不需要專門的人工標(biāo)簽。僅使用攝像頭:唯一的傳感器輸入是周圍視角攝像頭。無需高清地圖:除了來自導(dǎo)航系統(tǒng)(如Google Maps類似于我們用的高德和百度地圖)的高層次導(dǎo)航信息外,不需要高清地圖。其實(shí)端到端大模型,最大的問題是可解釋性,EMMA引入了鏈?zhǔn)剿季S提示(Chain-of-Thought Prompting),它可以增強(qiáng)多模態(tài)大型語言模型(MLLMs)的推理能力,并提高其可解釋性。在EMMA中,Waymo團(tuán)隊(duì)通過要求模型在預(yù)測(cè)最終的未來軌跡路標(biāo)Otrajectory 時(shí)闡明其決策理由(Orationale),將鏈?zhǔn)剿季S推理融入端到端規(guī)劃軌跡生成中。Waymo 團(tuán)隊(duì)將駕駛推理結(jié)構(gòu)化為四種粗到細(xì)的信息類型:R1 - 場(chǎng)景描述:廣泛描述駕駛場(chǎng)景,包括天氣、時(shí)間、交通狀況和道路條件。

例如:“天氣晴朗,白天。道路是四車道的未分隔街道,中間有行人道,街道兩邊停著車。”R2 - 關(guān)鍵物體:指那些可能影響自車駕駛行為的路面上的其他代理物體,我們要求模型識(shí)別其精確的3D/BEV坐標(biāo)。例如:“行人位于[9.01, 3.22],車輛位于[11.58, 0.35]。”R3 - 關(guān)鍵物體的行為描述:描述已識(shí)別關(guān)鍵物體的當(dāng)前狀態(tài)和意圖。例如:“行人目前站在人行道上,朝向道路,可能準(zhǔn)備過馬路。車輛目前在我前方,朝相同方向行駛,未來軌跡表明它將繼續(xù)直行。”R4 - 元駕駛決策:包括12類高層次駕駛決策,總結(jié)基于前述觀察的駕駛計(jì)劃。例如:“我應(yīng)該保持當(dāng)前的低速。”Waymo 團(tuán)隊(duì)強(qiáng)調(diào),駕駛推理文本是通過自動(dòng)化工具生成的,而沒有任何額外的人工標(biāo)簽,從而確保了數(shù)據(jù)生成流程的可擴(kuò)展性。

當(dāng)前 EMMA 有什么局限性這么好的東西,那么直接上車了?Waymo 團(tuán)隊(duì)指出其當(dāng)前模型每次只能處理有限數(shù)量的圖像幀(最多4幀),搞自動(dòng)駕駛的朋友肯定知道,當(dāng)前牽扯安全的場(chǎng)景,甚至可能需要更多幀圖片來確定場(chǎng)景。同時(shí)這限制了其捕捉駕駛?cè)蝿?wù)所需的長(zhǎng)期依賴關(guān)系的能力。有效的自動(dòng)駕駛不僅需要實(shí)時(shí)決策,還需要在較長(zhǎng)的時(shí)間范圍內(nèi)進(jìn)行推理,能夠預(yù)測(cè)并應(yīng)對(duì)不斷變化的場(chǎng)景。所以,此類算法還需要解決長(zhǎng)時(shí)間記憶問題

另外,目前,哪里有能跑如此多參數(shù)的大模型車載算力芯片,我們之前文章《高通的下一代智能汽車芯片 - 驍龍 Cockpit Elite 和 Ride Elite》介紹過高通下一代智能汽車芯片,最大能跑數(shù)十億個(gè)參數(shù)的大型語言模型;最近小鵬AI日表示其新一代Turing芯片也最高可運(yùn)行300億 參數(shù)大模型,還不知道何時(shí)能上車。而現(xiàn)在的大語言模型參數(shù)量都是千億級(jí)別。

除此之外,隨著算力的增大,整個(gè)計(jì)算系統(tǒng)從緩存到帶寬再到熱管理都需要跟上,這都需要當(dāng)前車載算力平臺(tái)能夠跟上。

同時(shí),另外一個(gè)要命的問題是實(shí)時(shí)性,大模型用作ChatGPT對(duì)話,或者M(jìn)idjourny畫圖延遲幾秒完全沒問題,不會(huì)影響到生命安全,但是對(duì)于汽車來講毫秒必爭(zhēng),都是事關(guān)安全?偟膩碇v,當(dāng)前大語言模型,需要通過蒸餾,來縮小參數(shù),保證一定的準(zhǔn)確性來實(shí)現(xiàn)。所以這個(gè)方法必須要優(yōu)化模型,或者將其蒸餾成適合實(shí)時(shí)部署的更緊湊版本,同時(shí)確保不犧牲性能和安全。此外,當(dāng)前這個(gè)模型可以直接預(yù)測(cè)駕駛信號(hào),而無需依賴中間輸出(如物體檢測(cè)或道路圖估計(jì))。這種方法在實(shí)時(shí)驗(yàn)證和后期分析時(shí)帶來了挑戰(zhàn)。盡管Waymo 團(tuán)隊(duì)已經(jīng)證明,模型可以生成如物體和道路圖預(yù)測(cè)這樣的可解釋輸出,并且駕駛決策可以通過思維鏈推理來解釋,但這些輸出與實(shí)際駕駛信號(hào)之間并不總是能夠完全一致,也就是說這個(gè)可解釋性目前有時(shí)候也會(huì)出錯(cuò)

最后,當(dāng)前的模型主要依賴于預(yù)訓(xùn)練的多模態(tài)大語言模型(MLLMs),這些模型通常不包括LiDAR或雷達(dá)輸入,汽車冗余多傳感器方案部署是個(gè)大問題。所以此類大模型上車,需要解決工程問題有:強(qiáng)大算力的芯片,支持本地高達(dá)百億,千億參數(shù)的LLM大模型。蒸餾優(yōu)化后縮小參數(shù)可以部署上車的大模型,適合實(shí)時(shí)部署,同時(shí)確保不犧牲性能和安全,這個(gè)有點(diǎn)和小鵬汽車的云端大模型,車端小模型理論相吻合。

支持長(zhǎng)記憶的LLM大模型,并降低延遲。泛化并融合好例如激光雷達(dá)和雷達(dá)。

解決好此類的工程問題,才為上車工程化鋪好了路。對(duì)當(dāng)前智能駕駛乃至汽車行業(yè)產(chǎn)生什么影響?首先,Waymo 發(fā)布的端到端多模態(tài)自動(dòng)駕駛模型 EMMA 給智能駕駛時(shí)代又添加了一顆定心丸,當(dāng)前基于AI的人工智能,端到端方案理論上能夠?qū)崿F(xiàn)自動(dòng)駕駛,接下來就是工程化落地。它一定能夠幫助人類實(shí)現(xiàn)自動(dòng)駕駛,而且還不會(huì)太遠(yuǎn)。另外,通用人工智能會(huì)成為智能駕駛的發(fā)動(dòng)機(jī),智能汽車的劃分,可以通過模型參數(shù)和算力來實(shí)現(xiàn)能力的分級(jí),猶如燃油車時(shí)代,發(fā)動(dòng)機(jī)排量決定車輛的等級(jí)和性能。那么對(duì)于車企來講,如果需要贏的智能汽車時(shí)代,可能需要擴(kuò)大自己的野心,做一個(gè)足夠大的集團(tuán)覆蓋汽車,機(jī)器人等人工智能落地的制造機(jī)器集團(tuán)?赡鼙仨氁匝型ㄓ萌斯ぶ悄懿⒗ AI 賦能整個(gè)汽車和機(jī)器項(xiàng)目,提高汽車機(jī)器制造業(yè)的附加值。抑或采用通用人工智能打造差異化產(chǎn)品實(shí)現(xiàn)競(jìng)爭(zhēng)。最終或許通用人工智能接管人類的重復(fù)性的腦力勞動(dòng),猶如現(xiàn)在機(jī)械取代人類的體力勞動(dòng)。

*未經(jīng)準(zhǔn)許嚴(yán)禁轉(zhuǎn)載和摘錄-參考資料:

EMMA: End-to-End Multimodal Modelfor Autonomous Driving - waymo

Could Foundation Models really resolveEnd-to-end Autonomy?Hongyang Li

The Next Frontier in Embodied AI:Autonomous DrivingCUED Guest Lecture – 25 April 2024

introduce autonomous vehicles - 英偉達(dá)

GAIA-1: A Generative World Model for Autonomous Driving - wayve

       原文標(biāo)題 : 采用 ChatGPT 類似大模型作為自動(dòng)駕駛算法核心的 - Waymo 的端到端多模態(tài)算法 EMMA

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯(cuò)
x
*文字標(biāo)題:
*糾錯(cuò)內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號(hào)