国产香蕉偷在线观看视频,在线看免费观看中国av

地平線，開始賺“端到端”的錢

2024-04-23 09:40

作者 | 朱世耘

編輯 | 章漣漪

“我們是一個披著芯片外衣的軟件算法公司。” 地平線創(chuàng)始人兼CEO 余凱曾在采訪中這樣解讀地平線的優(yōu)勢打法：“在變化中抓確定性，全局是以一打十，局部是以十打一。”

如何“局部十打一”？

去年，地平線作為第一作者提出的Unified Autonomous Driving(UniAD)，首次為自動駕駛端到端通用網絡架構的設想給出了具體范式，并一舉榮獲CVPR 2023 最佳論文。今年年初，地平線又開源了稀疏化端到端自動駕駛感知算法——Sparse4D系列。

但Sparse4D并不僅僅是范式，其還將是地平線征程5、征程6芯片之上的算法樣板間之一。

換而言之，當其他人還在討論時，地平線已經要開始做端到端的生意，賺端到端的“錢”了。

以十打一的“武器”

“如果論及如何實現自動駕駛，目前除了端到端，我想不到其它的技術。”地平線副總裁兼軟件平臺產品線總裁余軼南博士向《賽博汽車》表示：“地平線和特斯拉走的（技術）路線是一樣的，落地端到端的方案大概晚一年。”

地平線副總裁兼軟件平臺產品線總裁余軼南

3月下旬，特斯拉在一周之內連續(xù)發(fā)布了“完全由神經網絡組成”的端到端FSD系統 V12.3.1和V12.3.3兩個版本。此前，一周一版已經是業(yè)內“卷王”級別的發(fā)版速度。效果上，Tesla FSD Tracker（FSD用戶主動上傳）的數據顯示，FSD V11的無接管行駛里程為100英里左右，而V12.3已經達到368.7英里，622.33公里。

3月26日，馬斯克在X上表示：“本周開始，全美所有適用車輛將能免費試用FSD一個月”。4月13日，特斯拉宣布調整海外FSD月度訂閱費價格由199 美元降低至99美元。

做近十年FSD，特斯拉為什么突然變得非常之快？

“端到端（和現有系統）的核心區(qū)別在于解決一個問題時，使用寫代碼的方式，還是數據和模型的方式。” 余軼南表示。

傳統感知系統和端到端感知系統的對比

業(yè)內有一句話，“有多少人工，就有多少智能”。底層原因在于，通過代碼解決問題時，首先需要人類工程師研究所有的場景數據，定位真問題之后，寫代碼解決。研發(fā)效率上，需要1-5個工程師一周的時間去解決幾個問題。人類工程師的人效，決定著系統的智能程度。

神經網絡的“智商”則取決于模型、數據和算力三者之間協同效應的大小，主要通過構建算力，采集、挖掘、補充數據，訓練迭代來提高其智能程度。只要算力充足，一天即可“消化”數十，甚至數百倍人效的工作。

“端到端之后，研發(fā)的需求就從分析、拆解問題，變?yōu)楦銛祿ビ柧毮Ｐ�，然后評估。解決問題的規(guī)模、效率和泛化能力是完全不一樣了。” 余軼南表示，“過去的瓶頸不在于有多少車（采集、提供數據），而在于有多少人去分析這些問題。現在端到端將分析問題的能力一下子提升之后，A公司每天處理200個案例，B公司每天處理一百萬個案例，這就相當于是兩個物種了。”

地平線感知端到端的商業(yè)閉環(huán)

“隨著Sparse4D量產，地平線將完成端到端感知系統的商業(yè)閉環(huán)。” 余軼南表示。

今年開始，隨同征程5、征程6芯片，地平線將向智能駕駛一級供應商（Tier One，T1）和主機廠提供Sparse4D感知算法模型。與當下第一梯隊玩家量產的模塊化+后處理組成的BEV+Transformer感知方案不同，Sparse4D是完全的端到端感知系統。其完全由神經網絡，消除了由人類撰寫代碼的后處理環(huán)節(jié)。通過前端傳感器輸入數據后，可直接輸出3維（長寬高 3D）+時間的4D感知結果，以及3-9秒（依據不同精度）的預測結果。

在nuScenes純視覺3D檢測和3D跟蹤兩個榜單上，Sparse4D均位列第一，成為SOTA（state-of-the-art model 某領域的最佳實踐模型），領先于包括SOLOFusion、BEVFormer v2和StreamPETR在內的一眾最新方法。

Sparse4D算法架構但要做端到端，就意味著放棄現有算法積累的代碼。“因為我們是聚焦于計算方案和感知系統的，所以對我們來說做端到端感知是剛需。” 余軼南表示。

因為征程6希望“搞定”城市NOA。地平線余凱曾在采訪中明確表示，地平線已經在城區(qū)智駕領域投入三年時間和數百人的團隊。這一代征程6（高階版）追求“讓用戶覺得城區(qū)智駕功能真正有價值（安全、可靠、舒適）。”

目前，城區(qū)智駕處于成本、體驗和效率的“不可能”三角當中。高成本、高體驗的Robotaxi難以快速擴張運行范圍；低成本、覆蓋廣的高速NOA難以在城區(qū)復制體驗；已經落地的“無圖”城市NOA處于體驗差、擴張慢，成本難以收斂的現狀。

究其原因，人類工程師撰寫代碼解決問題的速度，遠趕不上城市場景中出現問題的速度。

而端到端將改變速度不匹配的現狀。在余軼南看來，目前端到端為系統帶來至少兩個數量級的迭代效率提升，未來則將有可能是上千，甚至上萬倍的提升。

僅做端到端的感知系統，又可有效避免端到端黑盒特性帶來的潛在風險。由于感知是對物理世界的度量，無論是神經網絡+代碼，還是端到端的感知系統架構，都是通過感知位置、角度、速度、加速度的準確性、一致性、誤差均值進行比較。

“只要誤差比別人小，就相當于有了比較優(yōu)勢。” 余軼南表示：“T1和主機廠是集成標準化的部分，自己把握非標準化的環(huán)節(jié)。自動駕駛系統中，感知是標準答案，規(guī)控取決于車企對用戶的認識，是非標準化的部分。所以地平線作為Tier2要把能標準化的標準化，并把效率做到盡可能最高。在這個認識的基礎上，我們團隊就做了效率最高的感知端到端。”

稀疏化的Sparse4D，一切為了效率

“如果只需要走1公里，用腳就可以。但如果要一天走1000公里，就需要發(fā)明火車、飛機” 余軼南這樣類比面對城市智駕場景，解題效率提升的重要性。

不僅是端到端的路線選擇，地平線Sparse4D的算法架構也高度服務于這一效率思維。

目前，各家“無圖”NOA都存在在主輔路、岔路口“不認路”的現實困境，在復雜路況中對其它動靜態(tài)目標的檢測也不完全，部分玩家選擇采用OCC（占用網絡）做遠端硬隔離。

底層原因之一，是動態(tài)目標和車道線等自動駕駛感知的關鍵目標，在空間中的分布通常很稀疏。導致稠密輸入/輸出的BEV范式中，有大量的計算被浪費。在目標相對較少的高速路段，車端算力尚能支撐。但在城市路況中，端側算力便開始捉襟見肘。同時特征級的多攝融合也并不等價于BEV。

DETR3D 搭建了純稀疏感知的基本框架，即稀疏Query +稀疏特征采樣的范式Sparse4D的目標，是實現一個高性能高效率的長時序純稀疏融合感知算法：既能加速2D到3D 的轉換效率，又能在圖像空間直接捕獲目標跨攝像頭的關聯關系。

稀疏化計算是更類似人腦的一種神經網絡架構方式。

稠密計算的深度神經網絡傾向于將每一層中的每個新神經元都與前一層中的所有神經元連接起來。但靈長類生物大腦中的神經元越多，平均下來每個神經元與其他神經元的連接就越少。但由于大腦天然對“重點”敏感，人類大腦消耗的能量是GPU的十分之一，但強度要高出10億倍。

Transformer的自注意力機制構建起了能夠“注意重點”的深層神經網絡。但要在端側處理諸如城市駕駛這樣的超復雜問題，仍需進一步提升計算效率。與人類類似的，盡可能高效使用神經網絡中每個權重的稀疏網絡便成為新的解題方式。

從結果來看，稀疏類計算的Sparse4D在不增加模型推理計算量的前提下，顯著提升了模型的檢測效果。

同時，由于已經實現了目標檢測的端到端（無需dense（稠密）-to-sparse（稀疏）的解碼），instance（實例，如一張行人正在穿過車前的圖片）在時序上已經具備了目標一致性（同一個instance始終檢測同一個目標）。Sparse4D在無需修改任何訓練流程的情況下，即可拓展完成端到端的檢測和多目標跟蹤任務。

基于稀疏實例的Recurrent 時序方案在論文中，Sparse4D仍被表達為純視覺的端到端感知方案。但余軼南表示，Sparse4D本質上是一個多模態(tài)的感知模型。“是完全兼容的插件模式，純視覺、多模態(tài)都是完全兼容的。”

“對神經網絡來說，不同模態(tài)的數據都可以被表示成一種標準結構，只要把時間同步做好，甚至不對齊也可以，因為它可以自己學。你唯一要管的就是算力，即背后的成本和功耗。”

跟或者不跟，端到端的未來

“如果是一個純粹的技術選擇，我會說放下手頭所有東西去做端到端。如果我只是個技術人員，我覺得我今天做得最聰明的（代碼）可能都沒有意義。”余軼南表示：“但對于一個公司來說，一個產品是基于公司業(yè)務、商業(yè)變現、營收利潤、市場品牌等一系列通盤考慮的結果，是基于現狀進行資源分配的問題：一方面要聚焦把當前的產品做好，另一方面也要有余裕做下一代技術預研。”

盡管端到端已成為今年自動駕駛界的熱詞，但并不意味著當下會有眾多玩家迅速跟進。

首先，端到端意味著技術路線的改變，對此前積累的揚棄。從地平線的經驗來看，端到端并非是將現有模塊間的后處理消除，實現模塊間的連續(xù)可導即可，需要建設新的、巧妙的網絡架構。由此，之前架構中已經被驗證的參數失效，并放棄大量人力寫出的有效代碼。

換而言之，目前能夠被用于開城的技術成果要被放棄。而端到端的不可解釋性和數據、算力需求，則是實打實的成本。

4月9日，馬斯克在X上發(fā)文稱，特斯拉儲備了3-35萬塊英偉達H100，即約29.67-346.15Eflops算力。作為對比，目前國內百度為極越準備的算力為2.2Eflops，小鵬扶搖超算中心的算力為0.6Eflops。不過，余軼南估計端到端的初步算力建設門檻或為1000塊英偉達A100，即19.5Pflops算力。目前，一塊A100的價格約17萬元，在不考慮建設和運營費用，僅“買卡”的情況下，基礎的端到端起步便需要1.7億元的成本。“一個單獨的（端到端）軟件算法是無法構筑壁壘的。算力、算法、數據中，核心的壁壘是算力，因為算力是稀缺的。數據也構成壁壘，但它不是一個顯性的壁壘，端到端未來一定會對數據有指數級的需求。”余軼南表示。

此外，大模型訓練所需的分布式系統的硬件架構、數據閉環(huán)、訓練方法，將成為端到端落地新的技術壁壘。

但端到端的吸引力也頗為巨大。

除特斯拉FSD V12目前表現出來的強泛化性和智慧涌現等顯性優(yōu)勢外，目前困擾企業(yè)的路線選擇也將不再是問題。

“端到端的體系下，傳感器的取舍從先驗（預設、小范圍試驗）變成了后驗（實際使用），不再是方案選擇的問題，而成了一個成本問題。”余軼南表示。

當下，業(yè)內對純視覺和激光雷達、有圖無圖，甚至純視覺是否要包含毫米波雷達等技術方案爭論不休。底層原因在于選擇一種技術路線，涉及傳感器、芯片、算法導整車整個垂直系統的整合、驗證，成本大、周期長，且是基于預期效果進行選擇，全憑技術大牛的直覺。

端到端體系下，極高的研發(fā)效率可在極短時間內將各類技術方案的邏輯鏈路、研發(fā)鏈路實際跑一遍，企業(yè)只需要就方案的實際效果和成本進行評估選擇即可。

蔚小理、小米、智己都公布了自己的端到端模型上車計劃，地平線在Sparse4D之外，也在預研全棧（感知+規(guī)控）端到端技術。

“我們還是比較冷靜的。”余軼南將地平線對熱技術、熱概念的打法歸納為兩步：“在我們沒有看準的時候，我們不會冒進，盡可能保持低成本的方式跟隨。一旦看準要上的時候，會投入可能十倍于別人的資源去推動核心技術突破，然后將沉淀下的經驗成果開放地賦能給合作伙伴。”--END--

原文標題 : 地平線，開始賺“端到端”的錢