訂閱
糾錯(cuò)
加入自媒體

一個(gè)大腦、兩類終端,一文看懂特斯拉2022 AI Day

一個(gè)大腦、兩類終端,一文看懂特斯拉2022 AI Day

文|盧瀅西 周文斌

“特斯拉是有四個(gè)輪子的機(jī)器人,而Optimus就是有兩條腿的機(jī)器人!

北京時(shí)間10月1日,特斯拉CEO馬斯克在2022年AI Day上,正式發(fā)布人形機(jī)器人擎天柱Optimus原型機(jī),展示了人形機(jī)器人在汽車工廠搬運(yùn)箱子、澆植物、移動(dòng)金屬棒的視頻。

一個(gè)大腦、兩類終端,一文看懂特斯拉2022 AI Day

“擎天柱”在搬運(yùn)箱子

馬斯克一直在強(qiáng)調(diào)“我們就是想盡快設(shè)計(jì)出有用的量產(chǎn)機(jī)器人”,售價(jià)要在2萬美元左右,3~5年內(nèi)實(shí)現(xiàn)量產(chǎn)。這決定了機(jī)器人的整體設(shè)計(jì)路線,走的并不是如波士頓動(dòng)力一樣“高大上”的實(shí)驗(yàn)室路線。

除了人形機(jī)器人的炫酷之外,作為機(jī)器人和智能汽車共同應(yīng)用的部分,自動(dòng)駕駛也是此次AI DAY的重要組成部分。

這次AI DAY上,特斯拉從基礎(chǔ)訓(xùn)練、Occupancy系統(tǒng)、車道和物體、規(guī)劃、人工智能編譯器和推理、自動(dòng)貼標(biāo)、模擬、數(shù)據(jù)引擎這八個(gè)部分,整體介紹了自家自動(dòng)駕駛從環(huán)境感知、數(shù)據(jù)收集、訓(xùn)練、處理、到應(yīng)用的整套流程。

而從這次介紹中我們也發(fā)現(xiàn),特斯拉的自動(dòng)駕駛技術(shù)方案于8月底毫末在AI DAY上提出的方向都頗有許多一致性。

比如雙方都對云端訓(xùn)練的重視,并投入了大量的資源在超算中心和云端訓(xùn)練算法上。比如在車端推理上基于Attention的 transformer做前融合,比如仿真訓(xùn)練,以及自然語言處理等等。

這其實(shí)都在說明,無論是國外還是國內(nèi),自動(dòng)駕駛在工程化上的探索,終于走到了相互交集的時(shí)候。下面一起來看看具體內(nèi)容。

3年量產(chǎn)、售價(jià)2萬美元,人形機(jī)器人有哪些技術(shù)細(xì)節(jié)?

1、“擎天柱”的整體情況

在去年AI Day上介紹特斯拉機(jī)器人的概念以后,“擎天柱”一共迭代了三個(gè)版本。最新一代的“擎天柱”身高170cm,體重73kg,用電功率在靜坐時(shí)為100W,快走時(shí)500W,全身有200多個(gè)自由度,手部27個(gè)自由度。

一個(gè)大腦、兩類終端,一文看懂特斯拉2022 AI Day

“擎天柱”的內(nèi)部構(gòu)造

設(shè)計(jì)“擎天柱”的過程中,為了減少功耗,特斯拉將配電和計(jì)算集中到軀干中心,在軀干里裝了一個(gè)2.3千瓦時(shí)的電池組,并且還搭載著特斯拉自研的SoC芯片,配備Wi-Fi和LTE連接網(wǎng)絡(luò)。特斯拉官方稱,這個(gè)電池組能夠維持機(jī)器人一整天的工作,但有媒體根據(jù)已知的數(shù)據(jù)測算,如果不間斷地工作,“擎天柱”的續(xù)航時(shí)間大概在1.5-2小時(shí)之間。

在大腦部分,特斯拉的全自動(dòng)駕駛系統(tǒng)FSD直接被應(yīng)用在擎天柱身上,但由于人形機(jī)器人的需求和形式與汽車仍然存在差異,因此,還做了三方面的改變。

首先,基于多個(gè)感官傳感輸入,讓機(jī)器人能夠處理視覺數(shù)據(jù)并做出決策;其次,有很多無線連接和音頻支持通信。另外,在硬件上,“擎天柱”也需要確保安全性,包括保護(hù)機(jī)器人本身和機(jī)器人周圍的人,這就涉及到機(jī)器人的四肢控制。

機(jī)器人的結(jié)構(gòu)基礎(chǔ)上,人形機(jī)器人復(fù)用了特斯拉汽車基于物理的生產(chǎn)能力以及模擬能力,讓用于汽車撞擊實(shí)驗(yàn)的軟件也來做機(jī)器人的撞擊實(shí)驗(yàn),進(jìn)行損害破壞的控制,防止昂貴的“大腦”過度損傷。同時(shí),“擎天柱”身上有很多的執(zhí)行器,通過這些執(zhí)行器可以讓人形機(jī)器人完成比如上樓、下蹲、拿東西等各類任務(wù)。

2、“擎天柱”靠什么動(dòng)起來?

實(shí)現(xiàn)這些動(dòng)作就需要設(shè)定相應(yīng)的指標(biāo),而這些設(shè)計(jì)也來自于一些生物學(xué)的非線性原理。通過展示出機(jī)器人在進(jìn)行上樓梯、下蹲等動(dòng)作時(shí),關(guān)節(jié)會呈現(xiàn)什么樣的壓力曲線,來滿足安全性的相關(guān)要求。另外,動(dòng)作的實(shí)施也對執(zhí)行器的扭矩提出相關(guān)要求。

那么“擎天柱 ”的執(zhí)行器是如何設(shè)計(jì)、生產(chǎn)出來的呢?

在機(jī)器人身上,執(zhí)行器所執(zhí)行的工作與關(guān)節(jié)所要承受的壓力相關(guān),在實(shí)踐之前需要先進(jìn)行驗(yàn)證,將相關(guān)參數(shù)放到優(yōu)化模型中來適應(yīng)不同的場景,根據(jù)任務(wù)所需能耗和時(shí)間來對執(zhí)行器的成本進(jìn)行詳細(xì)設(shè)計(jì)。因此,特斯拉先對“擎天柱”的28個(gè)結(jié)構(gòu)執(zhí)行器進(jìn)行共性分析,測試如何讓執(zhí)行器可以滿足多于一個(gè)關(guān)節(jié)的要求,再進(jìn)行點(diǎn)云解析。

一個(gè)大腦、兩類終端,一文看懂特斯拉2022 AI Day

點(diǎn)云解析

發(fā)布會上透露,執(zhí)行器一共有6種不同的設(shè)計(jì),它們的扭矩、輸出力和質(zhì)量都完全不同。機(jī)器人身體不同部分的關(guān)節(jié)自由度各不相同,因此需要在極限情況下對執(zhí)行器進(jìn)行測試。AI DAY的現(xiàn)場,通過一段提起一架將近半噸的鋼琴的視頻,對執(zhí)行器的承壓能力進(jìn)行了演示。

一個(gè)大腦、兩類終端,一文看懂特斯拉2022 AI Day

6種不同設(shè)計(jì)的執(zhí)行器

在手部的抓取上,特斯拉的人形機(jī)器人團(tuán)隊(duì)為“擎天柱”設(shè)計(jì)了金屬基件,通過金屬基件驅(qū)動(dòng)機(jī)器人的手,能夠抓取很小、很薄的東西。此外,“擎天柱”的手指上還裝有手指驅(qū)動(dòng)器,離合機(jī)制讓機(jī)器人即使不打開手也能夠進(jìn)行活動(dòng)。

一個(gè)大腦、兩類終端,一文看懂特斯拉2022 AI Day

“擎天柱”的手部關(guān)節(jié)展示

3、“擎天柱”如何實(shí)現(xiàn)看得見、走得穩(wěn)?

“擎天柱”機(jī)器人采用了和汽車一樣的感知方案——用攝像頭輸入數(shù)據(jù),以神經(jīng)網(wǎng)絡(luò)進(jìn)行計(jì)算。同時(shí),在運(yùn)動(dòng)、規(guī)劃和控制性上,特斯拉已經(jīng)在汽車場景上積累了不少經(jīng)驗(yàn),形成了一套FSD系統(tǒng),而運(yùn)動(dòng)規(guī)劃的沉淀又可以復(fù)用到機(jī)器人上,生成機(jī)器人運(yùn)動(dòng)學(xué)模型進(jìn)行相應(yīng)的路徑規(guī)劃。

為了讓人形機(jī)器人對時(shí)間和空間形成一定的記憶,特斯拉對“擎天柱”進(jìn)行了一系列的訓(xùn)練,改善了占用網(wǎng)絡(luò)使用方法,使得機(jī)器人能夠更準(zhǔn)確、快速地識別行駛區(qū)域。此外,還運(yùn)用了大量的渲染,讓人形機(jī)器人能夠與現(xiàn)實(shí)環(huán)境更好地互動(dòng)。

一個(gè)大腦、兩類終端,一文看懂特斯拉2022 AI Day

機(jī)器人看到的世界

在人形機(jī)器人關(guān)鍵的運(yùn)動(dòng)控制方面,雖然“擎天柱”目前能夠?qū)崿F(xiàn)整體的平衡,但在現(xiàn)實(shí)中,機(jī)器人不僅要有對于自身物理存在的感知以及對周圍環(huán)境的完整感知,還需要讓運(yùn)動(dòng)軌跡和機(jī)器人可以提供的支撐力量更好地結(jié)合,防止跌跌撞撞的情況發(fā)生,扭矩是其中非常重要的一個(gè)因素。

只有使用傳感器和計(jì)算機(jī)視覺對周圍世界的感知進(jìn)行動(dòng)態(tài)評估,才能確保機(jī)器人保持良好的姿態(tài)和步態(tài)。

為此,特斯拉通過對動(dòng)作進(jìn)行捕捉后,做可視化處理,形成“關(guān)鍵幀”。軀干、手、腿的位置都會做詳細(xì)的關(guān)鍵幀分析,再將這些數(shù)據(jù)映射到機(jī)器人身上,更好地實(shí)現(xiàn)軌跡優(yōu)化。

目前,特斯拉已經(jīng)搜集了很多數(shù)據(jù)并建立了可用的數(shù)據(jù)庫,通過軌跡優(yōu)化程序讓機(jī)器人能夠更好地了解自己的物理位置以及物理軌跡。

一個(gè)大腦、兩類終端,一文看懂特斯拉2022 AI Day

運(yùn)動(dòng)軌跡

這個(gè)被網(wǎng)友戲稱,跟小米的“鐵大”住在同一個(gè)養(yǎng)老院的“擎天柱”雖然目前功能并不完善,甚至走得都不算穩(wěn)健,但馬斯克對人形機(jī)器人的未來依然充滿信心:“擎天柱預(yù)計(jì)產(chǎn)量非常高,未來可達(dá)數(shù)百萬臺。價(jià)格將比汽車低得多,可能不到2萬美元。”

一個(gè)大腦、兩類終端,一文看懂特斯拉2022 AI Day

       16萬客戶,年底全球推出,特斯拉自動(dòng)駕駛有哪些進(jìn)展?

這次AI DAY 除了人形機(jī)器人之外,自動(dòng)駕駛也是重要組成部分。

會上,特斯拉Autopilot負(fù)責(zé)人Ashok Ellaswamy表示,2021年特斯拉FSD Beta只有2000名客戶,但如今這一數(shù)字增長到16萬,而這一成果,來源于自動(dòng)駕駛團(tuán)隊(duì)對75,000多個(gè)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。

而在具體實(shí)踐方面,自動(dòng)駕駛面臨哪些問題、挑戰(zhàn),以及解決方案,這次AI DAY上特斯拉也從基礎(chǔ)訓(xùn)練、Occupancy系統(tǒng)、車道和物體,規(guī)劃、人工智能編譯器和推理、自動(dòng)貼標(biāo)、模擬、數(shù)據(jù)引擎這八個(gè)部分分別進(jìn)行了細(xì)致的講解。

一個(gè)大腦、兩類終端,一文看懂特斯拉2022 AI Day

特斯拉自動(dòng)駕駛實(shí)踐模型

1、路線規(guī)劃與計(jì)算

首先是路線規(guī)劃方面,特斯拉向觀眾展示了一個(gè)十字路口行人過馬路場景,自動(dòng)駕駛的車輛要繞過行人實(shí)現(xiàn)左轉(zhuǎn),如何把握最好的轉(zhuǎn)向時(shí)機(jī)、是從行人的前方通過,還是從后方繞行、以及如何防止和周圍的車輛發(fā)生碰撞,都是路線規(guī)劃方面的問題。

一個(gè)大腦、兩類終端,一文看懂特斯拉2022 AI Day

在這個(gè)場景中,特斯拉自動(dòng)駕駛可以通過大量的計(jì)算實(shí)現(xiàn)路線規(guī)劃和障礙物的規(guī)避。

簡單來說,就是自動(dòng)駕駛首先通過感知系統(tǒng)識別感知到障礙物,比如圖片中正在過馬路的路人,然后通過對它的行進(jìn)軌跡、行進(jìn)速度計(jì)算得出它可能的行進(jìn)路線。

就像這樣,特斯拉需要將這個(gè)路口周圍所有的障礙物的軌跡都計(jì)算出來,然后再根據(jù)自己行動(dòng)速度進(jìn)行路線規(guī)劃,看是從他的前方通過,還是從后面繞行。

這個(gè)過程說起來簡單,但實(shí)際的決策會涉及到許多規(guī)劃的問題,比如后方突然來車,就需要用到防碰撞系統(tǒng)。因此整個(gè)系統(tǒng)具體可以包括軌跡評分、碰撞計(jì)算、平順性分析、進(jìn)入性可行性分析四個(gè)部分。

一個(gè)大腦、兩類終端,一文看懂特斯拉2022 AI Day

       2、Occupancy網(wǎng)絡(luò)和視頻訓(xùn)練庫

在路線規(guī)劃系統(tǒng)背后,就需要應(yīng)用到大量的計(jì)算和強(qiáng)大的環(huán)境感知,也就是后面提到的Occupancy,即占用網(wǎng)絡(luò)。通過占據(jù)網(wǎng)絡(luò),特斯拉可以讓模型獲得預(yù)測物體所占據(jù)空間的能力,并在向量空間里生成由一個(gè)個(gè)立方體組成的環(huán)境。

有這個(gè)環(huán)境作為基礎(chǔ),特斯拉自動(dòng)駕駛在行駛過程中,路線規(guī)劃就會可以避開這些“立方體”,車輛可以在不必識別出具體是什么障礙物的情況下做出避讓動(dòng)作。除此之外,F(xiàn)SD還可以借助該數(shù)字環(huán)境識別道路坡度/曲率,讓車輛根據(jù)實(shí)際道路情況提前預(yù)測加速/減速,進(jìn)一步提高安全性和舒適度。

由于數(shù)據(jù)訓(xùn)練都是基于大量原始視頻文件,所以特斯拉為此專門設(shè)計(jì)了一個(gè)視頻訓(xùn)練庫,它可以存儲大量的視頻原始文件并直接提供給服務(wù)器使用。

相比普通的存儲服務(wù)器,這個(gè)視頻訓(xùn)練庫可以讓訓(xùn)練速度提升30%,存儲文件的空間下降11%,讀取速度最小每秒讀寫次數(shù)提升4倍。

3、自動(dòng)標(biāo)注與仿真訓(xùn)練

擁有了數(shù)據(jù),緊接著而來的問題就是對數(shù)據(jù)進(jìn)行標(biāo)注和處理。

為了完成這個(gè)任務(wù),特斯拉內(nèi)部有一個(gè)由1.4萬個(gè)GPU組成的超級計(jì)算機(jī)。這1.4萬GPU,有4千個(gè)用在了汽車貼標(biāo)測試上,有1萬個(gè)用在了數(shù)據(jù)訓(xùn)練。在此之外,特斯拉還有許多視頻緩存方面的應(yīng)用,因?yàn)樵跀?shù)據(jù)訓(xùn)練的時(shí)候,需要大量的圖像同時(shí)導(dǎo)入導(dǎo)出,而要保證這些圖像的流暢,就需要對緩存進(jìn)行非常好的處理。

當(dāng)然,即使有4千個(gè)GPU用作數(shù)據(jù)標(biāo)注,但如果所有的標(biāo)注都依靠人工,那光特斯拉每天收集的數(shù)據(jù)就需要人工處理幾個(gè)月的時(shí)間。所以特斯拉為此還開發(fā)了一個(gè)“數(shù)據(jù)自動(dòng)標(biāo)注”系統(tǒng)。

除了數(shù)據(jù)自動(dòng)標(biāo)注之外,特斯拉還在做的一個(gè)事情是仿真模擬的自動(dòng)生成,這是一個(gè)類似數(shù)字孿生的的概念。通過模擬仿真,特斯拉可以在系統(tǒng)中對自動(dòng)駕駛進(jìn)行訓(xùn)練,按AI DAY上的說法,這可以將自動(dòng)駕駛的訓(xùn)練效率提高1000倍。

仿真訓(xùn)練是針對有標(biāo)數(shù)據(jù)的,然后再把這些數(shù)據(jù)導(dǎo)入到數(shù)據(jù)引擎,看看這些仿真訓(xùn)練的數(shù)據(jù)是否成立,如果不成立,就再返回去再重新計(jì)算。

仿真訓(xùn)練的一個(gè)好處是,它可以模擬許多現(xiàn)實(shí)環(huán)境中不存在的情況,這些情況通過實(shí)際的路測很難遇到,但我們無法保證這些情況不會出現(xiàn),如果一旦出現(xiàn),系統(tǒng)沒有準(zhǔn)備,那結(jié)果可能將是致命的。

而模擬仿真可以將這些現(xiàn)實(shí)極難碰到,或者不可能出現(xiàn)的情況模擬出來,用作自動(dòng)駕駛訓(xùn)練。為此,特斯拉模擬了舊金山的交通數(shù)據(jù),這個(gè)數(shù)據(jù)如果人類來做需要一兩周甚至幾個(gè)月的時(shí)間,但是用模擬器來做,一夜之間就能完成。

4、DOJO超級計(jì)算機(jī)

說到這里,其實(shí)我們會發(fā)現(xiàn),數(shù)據(jù)、訓(xùn)練一直是特斯拉自動(dòng)駕駛的關(guān)鍵詞,而要完成這么多的訓(xùn)練,算力就成為了其中的關(guān)鍵。

用特斯拉工程師的話說, 算力是訓(xùn)練的基本糧食,沒有算力,訓(xùn)練會很難執(zhí)行,或者效率會非常低。所以在這次AI DAY上,特斯拉也著重介紹了自家的超級計(jì)算機(jī)——DOJO。

DOJO來自日語“道場”,也有訓(xùn)練場的意思。而在特斯拉內(nèi)部,DOJO就是專門用來進(jìn)行模擬訓(xùn)練的,它往往要面對規(guī)模極大的模型,包含數(shù)以億計(jì)的數(shù)據(jù)、參數(shù)。

為了解決這些問題,特斯拉的方法是將25個(gè)D1芯片集成在一個(gè)訓(xùn)練瓦片(Tile)上,讓每個(gè)訓(xùn)練瓦片都具備54P算力和13.4TB/S對分帶寬。6個(gè)訓(xùn)練瓦片、20片接口處理器又可以組成一個(gè)托盤,兩個(gè)托盤又可以形成一個(gè)機(jī)柜,許多個(gè)機(jī)柜組合在一起,就形成了超算DOJO。

簡單理解,其實(shí)超算DOJO就是無數(shù)個(gè)D1芯片的疊加累計(jì)。 當(dāng)然這最后的效果是非常明顯的,因?yàn)槊颗_ExaPOD的訓(xùn)練性能都具備1.1E算力、1.3T高速內(nèi)存、13TB高帶寬內(nèi)存,4臺即相當(dāng)72個(gè)GPU機(jī)柜的訓(xùn)練性能。

可以說,DOJO的出現(xiàn),實(shí)現(xiàn)人工智能訓(xùn)練的超高算力,同時(shí)擴(kuò)展帶寬、減少延遲、節(jié)省成本的需求。

總的來說,在這次AI DAY上,特斯拉整體介紹了自家自動(dòng)駕駛從環(huán)境感知、數(shù)據(jù)收集、訓(xùn)練、處理、到應(yīng)用的整套流程。

而這一切的實(shí)現(xiàn),又都是從圍繞著特斯拉汽車周圍的八個(gè)攝像頭的視覺識別開始的。

通常,當(dāng)一輛特斯拉的汽車行駛在路上的時(shí)候,自動(dòng)駕駛首先會對汽車周圍的路況進(jìn)行識別,比如墻、其他汽車、或者建筑等等,然后再導(dǎo)入到神經(jīng)系統(tǒng)中,通過這個(gè)數(shù)據(jù)的導(dǎo)入導(dǎo)出進(jìn)行計(jì)算,然后對未來這這些汽車行動(dòng)進(jìn)行規(guī)劃,然后再結(jié)合地圖信息,比如知道的車在什么位置,下一個(gè)路口需要往什么方向轉(zhuǎn)彎等等,然后再結(jié)合一些其他數(shù)據(jù),最終實(shí)現(xiàn)車輛障礙物的規(guī)避和路線規(guī)劃。

整套邏輯的理論,都是汽車只專注于開好當(dāng)前這段路,這就像人類駕駛員的開車邏輯一樣。這套邏輯和毫末在8月底剛剛舉辦的AI DAY上提出的方向頗有許多一致性。

這種一致性,也表現(xiàn)在其他方面,比如對云端訓(xùn)練的重視,投入了大量的資源在超算中心和云端訓(xùn)練算法上。比如在車端推理上基于Attention的 transformer做前融合,比如仿真訓(xùn)練,以及自然語言處理等等。

這其實(shí)都在說明,自動(dòng)駕駛在工程化上的探索,終于走到了相互交集的時(shí)候。

       原文標(biāo)題 : 一個(gè)大腦、兩類終端,一文看懂特斯拉2022 AI Day

聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報(bào)。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個(gè)字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯(cuò)
x
*文字標(biāo)題:
*糾錯(cuò)內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號