“蔚小理華”誰才是世界第二?自動(dòng)駕駛端到端的燒錢戰(zhàn)局
/// 自動(dòng)駕駛端到端,開啟燒錢競賽。
作者:鹿白編輯:肖瑩
自去年8月特斯拉發(fā)布FSD Beta V12引入端到端概念之后,端到端在國內(nèi)智駕圈兒就火了起來。眾多車企和智駕公司紛紛開始轉(zhuǎn)向端到端技術(shù)的研發(fā)和量產(chǎn)工作。
其中,“蔚小理華”在端到端技術(shù)的研發(fā)和量產(chǎn)上,都在爭搶特斯拉第一之后的第二席位。
4月,采用全新端到端架構(gòu)的的華為ADS 3.0亮相,并于8月率先量產(chǎn)至享界S9;
5月,小鵬發(fā)布國內(nèi)首個(gè)量產(chǎn)上車的端到端大模型;
7月,理想、蔚來先后發(fā)布基于端到端的技術(shù)架構(gòu);同時(shí),小鵬汽車宣布將向全球用戶全量推送AI天璣系統(tǒng)XOS 5.2.0版本。
在各家發(fā)布技術(shù)架構(gòu)的同時(shí),也伴隨著“國內(nèi)首個(gè)量產(chǎn)上車”;“行業(yè)首個(gè)雙系統(tǒng)量產(chǎn)方案”;“國內(nèi)首個(gè)端到端一體化模型”;“業(yè)內(nèi)首個(gè)應(yīng)用端到端技術(shù)的AEB”等定語名詞。
對(duì)于愈發(fā)“內(nèi)卷”的汽車行業(yè)而言,誰都想要擠進(jìn)智駕“第一梯隊(duì)”?梢钥吹,現(xiàn)階段端到端技術(shù)正成為國內(nèi)智駕系統(tǒng)發(fā)展的主流技術(shù)趨勢,以“蔚小理華”為代表的企業(yè),都在加碼端到端,并力圖將其搬上車。
誰能成為率先量產(chǎn)端到端自動(dòng)駕駛技術(shù)的第二名?各家端到端技術(shù)架構(gòu)又有何異同點(diǎn)?以及未來端到端技術(shù)將如何發(fā)展?我們今天就來簡單聊一聊。
01
全面爭戰(zhàn)端到端
在主流的自動(dòng)駕駛方案中,以規(guī)則算法為基礎(chǔ),整個(gè)系統(tǒng)架構(gòu)劃分為感知、決策和執(zhí)行三大模塊。
而所謂的端到端,就是把三個(gè)模塊劃歸為一個(gè),從傳感器數(shù)據(jù)輸入開始,中間只要一步,到控制信號(hào)輸出,實(shí)現(xiàn)完整閉環(huán)。
簡言之,就是要建立一個(gè)完整的學(xué)習(xí)系統(tǒng),直接從原始數(shù)據(jù)中不斷學(xué)習(xí),并生成所需的輸出,不需要人為將任務(wù)分解成多個(gè)中間步驟。
特斯拉提出端到端技術(shù)架構(gòu)之后,這在自動(dòng)駕駛行業(yè)引發(fā)了強(qiáng)烈反響,不少車企和自動(dòng)駕駛公司開始研發(fā)端到端技術(shù),國內(nèi)的智駕路線也開始“轉(zhuǎn)向”。
可以說,一夕之間,國內(nèi)智駕技術(shù)開始全面轉(zhuǎn)向端到端。
在這其中,以蔚小理為代表的造車新勢力走在最前面,甚至在組織架構(gòu)上都進(jìn)行了相應(yīng)的調(diào)整。
先來看蔚來,其對(duì)智駕研發(fā)部架構(gòu)進(jìn)行了系統(tǒng)調(diào)整。
此前,蔚來智能駕駛研發(fā)部分為感知、規(guī)控和集成等部分。調(diào)整后,感知和規(guī)控團(tuán)隊(duì)合并為大模型團(tuán)隊(duì),集成團(tuán)隊(duì)重組為交付團(tuán)隊(duì)。
在此次調(diào)整之后,蔚來決定將放棄業(yè)界沿用多年的“感知-決策-規(guī)控”的技術(shù)路線,明確地表示探索用端到端大模型實(shí)現(xiàn)高階智能駕駛。
同時(shí),蔚來還單獨(dú)設(shè)立了一個(gè)大模型部,專門負(fù)責(zé)端到端的模型研發(fā)。
小鵬汽車則是以其智駕“靈魂人物”吳新宙離職為契機(jī),智駕團(tuán)隊(duì)的中高層更新了一批新鮮血液。同時(shí),小鵬汽車也在智駕部門下成立了AI部門,專門推進(jìn)端到端等技術(shù)。
今年3月,通用旗下自動(dòng)駕駛Cruise公司前資深工程師Xianming Liu已經(jīng)加入小鵬汽車,擔(dān)任小鵬AI團(tuán)隊(duì)負(fù)責(zé)人,接替劉蘭個(gè)川(Patrick)的職位。
此外,還有一些Cruise工程師和Waymo(谷歌旗下自動(dòng)駕駛公司)工程師也已經(jīng)加入小鵬汽車。
理想汽車也在去年底為端到端模型單獨(dú)成立了一個(gè)團(tuán)隊(duì)。
“我們對(duì)智駕核心的思路就是端到端+大模型,就是系統(tǒng)1+系統(tǒng)2的理念,我們認(rèn)為這個(gè)方式是更接近于人類駕駛的更有前途的智能駕駛方案。”
理想汽車智能駕駛負(fù)責(zé)人郎咸朋近期闡述了其智駕最新發(fā)展理念。
理想汽車CEO李想也曾在2024重慶論壇上公開表示,今年第三季度,理想將向測試用戶推送端到端+VLM(視覺語言模型)的智駕方案。
可以看到,“蔚小理”智駕團(tuán)隊(duì)調(diào)整背后,是其在智駕領(lǐng)域正朝著端到端大模型進(jìn)發(fā),即用AI神經(jīng)網(wǎng)絡(luò),來重構(gòu)傳統(tǒng)的智駕感知、決策、規(guī)劃等技術(shù)模塊。
除了蔚小理之外,作為深度影響汽車行業(yè)的華為,也正在全面布局端到端技術(shù)。
今年4月華為發(fā)布了乾崑ADS3.0,已首發(fā)搭載在享界S9上面。據(jù)悉,華為乾崑 ADS 3.0 版本具備融合端到端能力,在激光雷達(dá)輔助下將會(huì)對(duì)智駕能力帶來巨大提升。
事實(shí)上,對(duì)于當(dāng)前高度“內(nèi)卷”的汽車行業(yè)而言,搶先實(shí)現(xiàn)端到端模型落地量產(chǎn),加速城市NOA“開城進(jìn)度”,已經(jīng)各大車企爭奪市場份額、提升品牌競爭力的關(guān)鍵策略。
02
端到端仍是模塊化設(shè)計(jì)
雖然各家都在布局端到端,但從目前各家發(fā)布的技術(shù)架構(gòu)來看,各家布局端到端技術(shù)架構(gòu)的方式以及對(duì)未來技術(shù)架構(gòu)體系的思考,卻并不完全一樣。
小鵬汽車的端到端大模型主要包含三個(gè)部分:
神經(jīng)網(wǎng)絡(luò)XNet:通過聚合動(dòng)態(tài)XNet、靜態(tài)XNet和行業(yè)首個(gè)量產(chǎn)純視覺2K占用網(wǎng)絡(luò),能夠讓自動(dòng)駕駛系統(tǒng)如同裸眼3D。規(guī)控大模型XPlanner:就像人類的小腦,通過海量數(shù)據(jù)時(shí)刻訓(xùn)練,使得駕駛策略不斷向擬人進(jìn)化,擁有“老司機(jī)般的腳法”,使得前后頓挫減少50%、違?ㄋ罍p少40%、安全接管減少60%,進(jìn)一步提高舒適性和安全性。大語言模型XBrain:可以使得自動(dòng)駕駛系統(tǒng)擁有人類大腦般的理解學(xué)習(xí)能力,大幅提升處理復(fù)雜甚至未知場景的泛化處理能力,對(duì)真實(shí)物理世界的宏觀邏輯的推理能力亦是如此。
按照小鵬汽車的說法,在XBrain的加持下,自動(dòng)駕駛系統(tǒng)能夠認(rèn)識(shí)待轉(zhuǎn)區(qū)、潮汐車道、特殊車道、路牌文字,秒懂各種令行禁止、快慢緩急的行為指令,進(jìn)而做出兼顧安全、性能的擬人駕駛決策。
理想汽車的端到端則是采用了“行業(yè)首個(gè)雙系統(tǒng)量產(chǎn)方案”,簡單來說,理想汽車自動(dòng)駕駛路線核心思路是用一顆Orin X芯片用于端到端,也就是快系統(tǒng),一顆Orin X用于VLM,也就是慢系統(tǒng)。
系統(tǒng)1,即快系統(tǒng),由端到端實(shí)現(xiàn),具備高效、快速響應(yīng)能力,能夠應(yīng)對(duì)駕駛車輛時(shí)95%的常規(guī)場景。
系統(tǒng)2,即慢系統(tǒng),由VLM (Visual Language Model,視覺語言模型)來實(shí)現(xiàn),其接收傳感器輸入后,經(jīng)過邏輯思考,輸出決策信息給到系統(tǒng)1,占日常駕駛的約5%,目前達(dá)22億參數(shù)量。
系統(tǒng)3,世界模型,除了端到端和VLM模型外,理想汽車還講了未來的智駕技術(shù)思路,即世界模型。該模型結(jié)合重建和生成兩種技術(shù)路徑,將真實(shí)數(shù)據(jù)通過3DGS(3D高斯濺射)技術(shù)進(jìn)行重建,并使用生成模型補(bǔ)充新視角。兩者結(jié)合所構(gòu)建的場景為自動(dòng)駕駛系統(tǒng)能力的學(xué)習(xí)和測試創(chuàng)造了更優(yōu)秀的虛擬環(huán)境,使系統(tǒng)具備了高效閉環(huán)的迭代能力,確保系統(tǒng)的安全可靠。
蔚來的端到端,則是以智能駕駛世界模型NWM(NIO World Model)為主導(dǎo)的架構(gòu)體系。
據(jù)介紹,NWM,是一個(gè)多元自回歸生成式的具身駕駛模型,可全量理解數(shù)據(jù)、具有長時(shí)序推演和決策能力,能在100毫秒內(nèi)推演出216種可能發(fā)生的場景,尋找到最優(yōu)決策。
作為生成式模型,NWM可將3秒鐘的駕駛視頻作為Prompt(提示詞),生成長達(dá)120秒的視頻。NWM還具備與生俱來的閉環(huán)仿真測試能力,已在復(fù)雜交互場景中全面測試并驗(yàn)證性能。
蔚來智能駕駛技術(shù)架構(gòu)NADArch2.0將在算法層引入世界模型的端到端架構(gòu),直接從原始傳感器數(shù)據(jù)生成駕駛決策,減少傳統(tǒng)方案中的信息損耗。同時(shí),預(yù)測能力也將更強(qiáng),讓智能駕駛體驗(yàn)更安全、更擬人。
華為的乾崑ADS 3.0,據(jù)目前已經(jīng)公布的信息顯示,其號(hào)稱“端到端架構(gòu)體驗(yàn)更類人”。
這一架構(gòu),感知環(huán)節(jié)去掉BEV,只保留一張GOD網(wǎng)絡(luò),決策、規(guī)劃合為一張PDP網(wǎng)絡(luò),從而實(shí)現(xiàn)類人化的決策和規(guī)劃,行駛軌跡更類人,通行效率更高,復(fù)雜路口通過率>96%。
也就是說,乾崑ADS 3.0方案,采用GOD網(wǎng)絡(luò)負(fù)責(zé)感知,PDP網(wǎng)絡(luò)負(fù)責(zé)預(yù)決策規(guī)劃。
如果從量產(chǎn)上車的角度,目前小鵬汽車走在前列,其端到端技術(shù)架構(gòu)已經(jīng)量產(chǎn)上車,并開啟了全球全量推送。華為則緊跟其后,理想和蔚來暫時(shí)還沒有明確上車時(shí)間。
而從技術(shù)架構(gòu)體系上來說,各家基本還都處于模塊化設(shè)計(jì),也被稱為“分段式端到端”。對(duì)此,有業(yè)內(nèi)人士認(rèn)為,分段式端到端從感知模型,到規(guī)控模型,中間會(huì)出現(xiàn)信息丟失。
事實(shí)上,在端到端之前,分模塊主要由人工手寫規(guī)則來定義,每個(gè)模塊都會(huì)存在大量信息損失。
現(xiàn)在,分段式端到端,感知、決策規(guī)劃各用一個(gè)模型,當(dāng)感知傳到?jīng)Q策規(guī)劃時(shí),信息量已非常少,用于做決策規(guī)劃模型的體量比感知模型小幾倍,因此無法稱作大模型。
業(yè)內(nèi)有觀點(diǎn)認(rèn)為,分段式大概率會(huì)向“一張網(wǎng)”發(fā)展。只不過,那是一個(gè)浩大的工程,需要特斯拉那般的大手筆。
從分段式到一張網(wǎng),需要很長時(shí)間,要看企業(yè)有沒有足夠的錢。目前,端到端自動(dòng)駕駛在小范圍都能跑,之后能不能做,得看實(shí)際效果。要幾十萬用戶用起來,那是另一個(gè)故事。
當(dāng)然,即便在宣傳上最為激進(jìn)的特斯拉,其端到端技術(shù)方案也并非指向一個(gè)從感知到控制的“大一統(tǒng)”模型,而是仍然具有感知與規(guī)劃模塊之分,通過將規(guī)劃模塊從專家系統(tǒng)、蒙特卡羅樹等傳統(tǒng)技術(shù)向深度學(xué)習(xí)模型的升級(jí),以及使用聯(lián)合損失函數(shù)同時(shí)訓(xùn)練兩大模塊,構(gòu)成了其所謂的“端到端”智駕。
03
真正的端到端尚需時(shí)間
由于大模型技術(shù)的不成熟,以及智能駕駛的安全要求,短期內(nèi)端到端技術(shù)或?qū)㈦y以真正實(shí)現(xiàn)。
一方面,從行業(yè)現(xiàn)狀來看,相比于特斯拉號(hào)稱“輸入圖像、輸出控制”的端到端方案相比,國內(nèi)的端到端思路暫時(shí)只能做到從感知端到預(yù)測決策端,最終的控制執(zhí)行模塊,依然由工程師的手寫規(guī)則來兜底。
長城汽車智能平臺(tái)開發(fā)中心高級(jí)總監(jiān)姜海鵬表示,現(xiàn)在幾乎每一個(gè)算法公司或者主機(jī)廠都在研究端到端,但已經(jīng)按照端到端架構(gòu)去做的不超過三家。
另一方面,想要真正訓(xùn)練端到端大模型,這背后離不開海量高質(zhì)量數(shù)據(jù)的支持,以及強(qiáng)大的算力支持。
數(shù)據(jù)方面,去年馬斯克在財(cái)報(bào)會(huì)上談到過數(shù)據(jù)對(duì)自動(dòng)駕駛模型的重要性,“訓(xùn)練了100萬個(gè)視頻Case,勉強(qiáng)夠用;200萬個(gè),稍好一些;300萬個(gè),就會(huì)感到Wow;到1000萬個(gè),就變得難以置信了。”
而數(shù)據(jù)的收集需要大量的時(shí)間和渠道,數(shù)據(jù)類型除了駕駛數(shù)據(jù)外還包括各種不同的道路、天氣和交通情況等場景數(shù)據(jù),特別是,實(shí)際駕駛中周圍方位的信息收集難以保證。
在《馬斯克傳》中,馬斯克也親口解釋過,特斯拉全球200萬臺(tái)車每天約可收集1600億幀的駕駛視頻用于模型訓(xùn)練。但是,管理如此龐大的數(shù)據(jù)并非易事,因?yàn)榻^大多數(shù)視頻都是無用的。
真正寶貴的是那些車流量異常大、或是有眾多行人做出各式各樣的行為、路況極其復(fù)雜的畫面,但是這個(gè)占比甚至連1%都不到。而為了提取這1%畫面,需要龐大人力、算力、儲(chǔ)存甚至是電力等巨額成本。
算力層面,門檻更高,背后則需要龐大的資金支撐。
在2024年Q1財(cái)報(bào)會(huì)議上,特斯拉透露如今其已經(jīng)擁有35000塊H100的計(jì)算資源,而2024年底這一數(shù)字將達(dá)到85000塊。
這意味著,要達(dá)到跟目前FSD V12同樣的水平,大概率35000塊H100和數(shù)十億美金的基礎(chǔ)設(shè)施資本開銷是必要前提。再往下,門檻還在進(jìn)一步拔高。
事實(shí)上,目前國內(nèi)車企也正在追趕,比如在算力上,理想表示公司有5000張A100、A800這樣等同的訓(xùn)練卡數(shù)量,是小鵬的兩倍。
在數(shù)據(jù)上,小鵬則表示基于折算10億+里程的視頻訓(xùn)練、超646萬累計(jì)公里數(shù)的實(shí)車測試、超2.16億累計(jì)公里數(shù)的仿真測試,小鵬端到端大模型能夠做到“兩天迭代一次”。
雖然各家都在積極努力在算力和數(shù)據(jù)等層面,加大投入做端到端技術(shù)研發(fā),但從目前行業(yè)發(fā)展現(xiàn)狀來看,短期內(nèi)還不能夠?qū)崿F(xiàn)真正的端到端。
但基于端到端技術(shù)體系,來不斷進(jìn)行整個(gè)智能駕駛系統(tǒng)技術(shù)的迭代升級(jí),從而為用戶帶來更好的智能駕駛體驗(yàn)效果,則成為可能。
原文標(biāo)題 : “蔚小理華”誰才是世界第二?自動(dòng)駕駛端到端的燒錢戰(zhàn)局
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字
圖片新聞
最新活動(dòng)更多
-
11月19日立即報(bào)名>> 【線下論壇】華邦電子與恩智浦聯(lián)合技術(shù)論壇
-
12月19日立即報(bào)名>> 【線下會(huì)議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
精彩回顧立即查看>> 蔡司新能源汽車三電質(zhì)量解決方案
-
精彩回顧立即查看>> 蔡司新能源汽車三電質(zhì)量解決方案
-
精彩回顧立即查看>> 2024(第五屆)全球數(shù)字經(jīng)濟(jì)產(chǎn)業(yè)大會(huì)暨展覽會(huì)
-
精彩回顧立即查看>> 【線下會(huì)議】全數(shù)會(huì)2024電子元器件展覽會(huì)
推薦專題
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市