Waymo首次公布技術(shù)細(xì)節(jié),自動(dòng)駕駛老司機(jī)的煉成
雖然Waymo已經(jīng)在美國(guó)當(dāng)?shù)貢r(shí)間12月5日宣布正式商用,但是外界對(duì)Waymo的技術(shù)細(xì)節(jié)知之甚少。Waymo也很清楚這種信息差異會(huì)讓外界對(duì)其技術(shù)信心不足。這是Waymo需要改變的地方——公布更多技術(shù)細(xì)節(jié),提高公眾信心。
在美國(guó)當(dāng)?shù)貢r(shí)間12月11日,Waymo在其官方博客上首次對(duì)外發(fā)布了部分技術(shù)細(xì)節(jié)——如何用名為“ChauffeurNet”的深度循環(huán)神經(jīng)網(wǎng)絡(luò)【recurrent neural network (RNN) 】來(lái)打造世界上最有經(jīng)驗(yàn)的司機(jī)。
Waymo要打造的最有經(jīng)驗(yàn)的機(jī)器人司機(jī)像任何一個(gè)優(yōu)秀司機(jī)一樣,需要通過(guò)識(shí)別周?chē)奈矬w,從而感知和理解周?chē)氖澜纾㈩A(yù)測(cè)它們下一步的行為,然后在遵守交通規(guī)則的前提下安全駕駛。
近年來(lái),用大量標(biāo)記數(shù)據(jù)對(duì)深層神經(jīng)網(wǎng)絡(luò)進(jìn)行監(jiān)督訓(xùn)練,在很多領(lǐng)域得到了應(yīng)用,特別是在感知和預(yù)測(cè)領(lǐng)域,可以迅速提高技術(shù)水平,Waymo在這方面也有廣泛的應(yīng)用。
隨著神經(jīng)網(wǎng)絡(luò)在感知領(lǐng)域的成功,接來(lái)下的想法就是,Waymo已經(jīng)擁有了超過(guò)1000萬(wàn)英里的自動(dòng)駕駛數(shù)據(jù),是否可以使用純粹的監(jiān)督的深度學(xué)習(xí)方法來(lái)訓(xùn)練出最有經(jīng)驗(yàn)的司機(jī)呢?
因此,數(shù)據(jù)專(zhuān)家創(chuàng)建了一個(gè)神經(jīng)網(wǎng)絡(luò),不僅能模擬開(kāi)車(chē),在具有挑戰(zhàn)性的情形下,還足以驅(qū)動(dòng)一輛真正的車(chē)進(jìn)行測(cè)試。但是,簡(jiǎn)單的模仿大量的“好司機(jī)”的駕駛習(xí)慣,并不能創(chuàng)造出一種功能強(qiáng)大、可靠的自動(dòng)駕駛技術(shù)。
相反,Waymo發(fā)現(xiàn)從良好的感知和控制中引導(dǎo)簡(jiǎn)化學(xué)習(xí)任務(wù)是有價(jià)值的,同時(shí),除了模仿“好司機(jī)”的駕駛習(xí)慣,還要模仿“壞司機(jī)”不良駕駛行為,用額外的不良駕駛行為來(lái)訓(xùn)練出更好的駕駛行為。
1、創(chuàng)建ChauffeurNet
為了通過(guò)模仿“好司機(jī)”來(lái)駕駛,Waymo創(chuàng)建了一個(gè)名為“ChauffeurNet”的深度循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),該網(wǎng)絡(luò)通過(guò)觀察場(chǎng)景的中層表示作為輸入來(lái)發(fā)出駕駛軌跡。中間層的表示不直接使用原始的傳感器數(shù)據(jù),從而分解出感知任務(wù),并允許結(jié)合真實(shí)和模擬數(shù)據(jù),以便更容易地進(jìn)行學(xué)習(xí)。
如下圖所示,這個(gè)輸入表示由一個(gè)自頂向下(鳥(niǎo)瞰)的環(huán)境視圖組成,該視圖包含諸如地圖、周?chē)鷮?duì)象、交通燈狀態(tài)、汽車(chē)軌跡信息。該網(wǎng)絡(luò)還提供了一條谷歌地圖風(fēng)格的路線(xiàn),指引車(chē)輛到達(dá)目的地。
ChauffeurNet在每次迭代中輸出未來(lái)驅(qū)動(dòng)軌跡上的一個(gè)點(diǎn),同時(shí)將預(yù)測(cè)的點(diǎn)寫(xiě)到內(nèi)存中,該內(nèi)存將在下一次迭代中使用。從這個(gè)意義上說(shuō),RNN不是傳統(tǒng)的,因?yàn)閮?nèi)存模型是地精心設(shè)計(jì)的。ChauffeurNet的軌跡輸出由10個(gè)未來(lái)點(diǎn)組成,然后被提供給一個(gè)低級(jí)控制器,該控制器將其轉(zhuǎn)換為控制指令,如轉(zhuǎn)向和加速,使其能夠駕駛汽車(chē)。
此外,還使用了一個(gè)單獨(dú)的“PerceptionRNN”頭,它迭代地預(yù)測(cè)環(huán)境中其他移動(dòng)對(duì)象的未來(lái),并且這個(gè)網(wǎng)絡(luò)與預(yù)測(cè)軟件駕駛的RNN共享特性。未來(lái)的一種可能性是,在選擇我們自己的駕駛軌跡的同時(shí),預(yù)測(cè)其他因素的反應(yīng),這一過(guò)程會(huì)發(fā)生更深層次的交叉。
驅(qū)動(dòng)模型的呈現(xiàn)輸入和輸出
從左到右:路標(biāo)、紅綠燈、限速和路線(xiàn)。從左到右的底部行:當(dāng)前代理框、動(dòng)態(tài)框、過(guò)去代理位姿和輸出未來(lái)代理位姿。
ChauffeurNet有兩個(gè)內(nèi)部部分:FeatureNet和AgentRNN
AgentRNN消耗一個(gè)圖像的呈現(xiàn)過(guò)去代理姿勢(shì),一組特性計(jì)算卷積網(wǎng)絡(luò)“FeatureNet”呈現(xiàn)的輸入,與最后一劑盒渲染圖像,一個(gè)外顯記憶呈現(xiàn)的預(yù)測(cè)未來(lái)的代理對(duì)預(yù)測(cè)未來(lái)代理構(gòu)成和自頂向下的鳥(niǎo)瞰圖圖。這些預(yù)測(cè)用于更新AgentRNN的輸入,以便預(yù)測(cè)下一個(gè)時(shí)間步驟。
2、模仿“好司機(jī)”
Waymo用相當(dāng)于60天“好司機(jī)”駕駛數(shù)據(jù)的例子對(duì)模型進(jìn)行了訓(xùn)練,同時(shí)加入了訓(xùn)練技術(shù),以確保網(wǎng)絡(luò)不會(huì)簡(jiǎn)單地繼續(xù)從過(guò)去的運(yùn)動(dòng)中推斷,而是對(duì)環(huán)境做出正確的反應(yīng)。
正如許多人在我們之前發(fā)現(xiàn)的,包括上世紀(jì)80年代的阿爾文項(xiàng)目(ALVINN Project),純粹模仿“好司機(jī)”給出的模型,只要情況不太偏離培訓(xùn)中看到的情況,模型就能平穩(wěn)運(yùn)行。
該模型學(xué)會(huì)了對(duì)諸如停車(chē)標(biāo)志和交通燈等交通管制作出適當(dāng)?shù)姆磻?yīng)。然而,會(huì)有偏差,例如對(duì)軌跡引入擾動(dòng)或?qū)⑵渲糜诮咏鲎驳那闆r下,會(huì)導(dǎo)致其表現(xiàn)不佳,因?yàn)榧词乖谑褂么罅繑?shù)據(jù)進(jìn)行訓(xùn)練時(shí),它也可能從未在訓(xùn)練過(guò)程中看到過(guò)這些確切的情況。
經(jīng)過(guò)純模仿學(xué)習(xí)訓(xùn)練的Agent被困在一輛停著的車(chē)輛后面
在沿著彎曲的道路行駛時(shí)無(wú)法從偏離的軌跡中恢復(fù)
上述兩幅動(dòng)圖備注:藍(lán)綠色的路徑表示輸入路徑,黃色的框表示場(chǎng)景中的動(dòng)態(tài)對(duì)象,綠色的框表示Agent,藍(lán)色的點(diǎn)表示Agent的過(guò)去位置,綠色的點(diǎn)表示預(yù)測(cè)的未來(lái)位置。
3 、“合成壞司機(jī)”
從真實(shí)世界的駕駛中獲得的“好司機(jī)”駕駛行為中,通常只包含在良好情況下駕駛的例子,因?yàn)槌鲇诿黠@的原因,我們不希望我們的“好司機(jī)”駕駛陷入近碰撞或爬坡限制,只是為了向神經(jīng)網(wǎng)絡(luò)展示如何在這些情況下恢復(fù)。
為了訓(xùn)練網(wǎng)絡(luò)走出困境,模擬或綜合合適的訓(xùn)練數(shù)據(jù)是有意義的。一種簡(jiǎn)單的方法是加入一些例子,在這些例子中,我們干擾了“好司機(jī)”實(shí)際的駕駛軌跡。這種擾動(dòng)使得軌跡的起點(diǎn)和終點(diǎn)保持不變,偏離主要發(fā)生在中間。這教會(huì)神經(jīng)網(wǎng)絡(luò)如何從干擾中恢復(fù)。
不僅如此,這些擾動(dòng)還會(huì)產(chǎn)生與其他物體或道路限制物發(fā)生合成碰撞的例子,我們通過(guò)增加阻止此類(lèi)碰撞的顯式損失來(lái)教會(huì)網(wǎng)絡(luò)避免這些碰撞。這些損失使我們能夠利用領(lǐng)域知識(shí)來(lái)指導(dǎo)學(xué)習(xí)在新的情況下更好地泛化。
通過(guò)將當(dāng)前Agent位置(紅點(diǎn))從lane center拉出,然后擬合一個(gè)新的平滑軌跡,使agent沿lane center回到原來(lái)的目標(biāo)位置,從而對(duì)軌跡進(jìn)行擾動(dòng)。這項(xiàng)工作演示了一種使用合成數(shù)據(jù)的方法。除了我們的方法之外,還可以對(duì)高度交互或罕見(jiàn)情況進(jìn)行廣泛的模擬,同時(shí)使用強(qiáng)化學(xué)習(xí)(RL)調(diào)整驅(qū)動(dòng)策略。
然而,做RL需要我們精確地模擬環(huán)境中其他道路參與者的真實(shí)行為,包括其他車(chē)輛、行人和騎自行車(chē)的人。由于這個(gè)原因,我們?cè)诋?dāng)前的工作中專(zhuān)注于一種純粹的監(jiān)督學(xué)習(xí)方法,記住我們的模型可以用來(lái)創(chuàng)建自然行為的“智能代理”來(lái)引導(dǎo)RL。
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
11月20日火熱報(bào)名中>> 2024 智能家居出海論壇
-
11月28日立即報(bào)名>>> 2024工程師系列—工業(yè)電子技術(shù)在線(xiàn)會(huì)議
-
12月19日立即報(bào)名>> 【線(xiàn)下會(huì)議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
即日-12.26火熱報(bào)名中>> OFweek2024中國(guó)智造CIO在線(xiàn)峰會(huì)
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書(shū)》
-
精彩回顧立即查看>> 【在線(xiàn)會(huì)議】多物理場(chǎng)仿真助跑新能源汽車(chē)
推薦專(zhuān)題
- 1 腦機(jī)接口芯片,華為出了新專(zhuān)利!
- 2 今年諾獎(jiǎng)對(duì)人工智能的重視,給我們的基礎(chǔ)教育提了個(gè)醒
- 3 銀行業(yè)AI大模型,從入局到求變
- 4 巨頭搶布局,VC狂撒錢(qián),為了能讓「AI讀心」這些公司卷瘋了
- 5 阿斯麥ASML:“骨折級(jí)”洋相,又成AI第一殺手?
- 6 蘋(píng)果市值創(chuàng)新高,iPhone 16能否助力突破4萬(wàn)億美元大關(guān)?
- 7 一場(chǎng)“載入史冊(cè)”的發(fā)布會(huì),讓馬斯克失去了4700億
- 8 百度谷歌比較研究2024:中美“遠(yuǎn)古AI龍頭”的現(xiàn)狀與趨勢(shì)
- 9 洞見(jiàn)AI風(fēng)潮 第二屆vivo藍(lán)河操作系統(tǒng)創(chuàng)新賽開(kāi)啟招募
- 10 地平線(xiàn)開(kāi)啟配售,阿里百度各砸5000萬(wàn)美金,市值最高超500億
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷(xiāo)售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷(xiāo)售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專(zhuān)家 廣東省/江門(mén)市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市