侵權(quán)投訴
訂閱
糾錯
加入自媒體

自動駕駛應(yīng)該像人一樣思考還是感知?

文︱立厷

圖︱網(wǎng)絡(luò)

人們希望自動駕駛汽車能夠像人一樣思考,或像機器人一樣思考,因為計算機的能力比人腦更強;同時還希望像人一樣感知,進而能夠像人一樣開車。要求有點高了,真能做到,自動駕駛也不會是今天的樣子。

早在2019年,特斯拉就在“自動駕駛投資者日”上說,通過觀測人類駕駛員在各種路況所選擇的路徑和典型人類行動,來創(chuàng)建帶有人類標記的圖像來訓(xùn)練網(wǎng)絡(luò)。特斯拉希望利用感知系統(tǒng)超越環(huán)境模仿人類大腦智能感知能力,利用人工智能(AI)讓自動駕駛汽車像機器人一樣思考,就像人類數(shù)以百萬計的神經(jīng)元組成的神經(jīng)網(wǎng)絡(luò)那樣。

結(jié)果呢?直到2021年,對大貨車視而不見車毀人亡的場面還是屢見不鮮,且不僅是特斯拉。

另一種聲音是,像人一樣思考,不如像人一樣感知,而且有了這樣的感知技術(shù)。

人腦的啟示

三十多年來,斯坦福大學(xué)醫(yī)學(xué)院神經(jīng)外科系的臨床教授和醫(yī)學(xué)博士James Doty一直在研究和實施人腦手術(shù)!拔乙恢敝杂诖竽X的力量、可塑性和適應(yīng)性,以及它驚人的能力中有多少用于處理和解釋我們從感官接收到的數(shù)據(jù)!彼f。

Doty還是斯坦福大學(xué)同情和利他主義研究與教育中心的創(chuàng)始人和主任。他與來自多個學(xué)科的科學(xué)家合作,研究人的神經(jīng)基礎(chǔ)。他擁有多項專利,曾是射波刀技術(shù)的發(fā)明者Accuray的前首席執(zhí)行官;也是《走進魔法商店:神經(jīng)外科醫(yī)生探索大腦奧秘和心臟奧秘》的紐約時報暢銷書作者。

他認為,自動駕駛汽車的未來是像機器人一樣思考,更要像人一樣感知。

他指出,隨著AI的迅速崛起,開發(fā)人員需要整合復(fù)雜、多層次的人類感知來增強AI能力。問題在于,這種集成的應(yīng)用如何滿足整個自主統(tǒng)一體的要求,包括從ADAS到移動性,以及卡車運輸、交通、建筑、鐵路、智能交通系統(tǒng)(ITS)、航空航天和國防領(lǐng)域的自動化應(yīng)用。

“很明顯,對我來說,驅(qū)動這些應(yīng)用所需的AI需要模仿地球上最偉大的感知引擎——人類視覺皮層。這些交通工具需要像機器人一樣思考,但先要像人一樣感知!

為了了解更多信息,更好地理解這種人工感知水平如何產(chǎn)生,他成為了AEye的顧問。AEye是一家開發(fā)尖端人工感知和自動駕駛技術(shù)的公司,幫助他們利用人腦知識更好地為系統(tǒng)提供信息。這就是仿生:從生物系統(tǒng)(植物、動物、人類等)學(xué)習(xí)和復(fù)制自然策略,以創(chuàng)造更靈敏、更智能的技術(shù)和產(chǎn)品。從本質(zhì)上說,仿生學(xué)使人們能夠適應(yīng)現(xiàn)有環(huán)境,并以數(shù)十億年來生命成功的方式進化。

為什么將仿生學(xué)和人類感知的各個方面納入自動駕駛汽車的開發(fā)之中呢?

Doty解釋說,因為沒有什么能比人類的視覺皮層接收更多的信息并更快、更準確地處理。人類以高達27Hz的速度對復(fù)雜物體進行分類,大腦在13毫秒內(nèi)處理5.8億像素數(shù)據(jù)。他告誡說:“如果我們繼續(xù)使用傳統(tǒng)的傳感器數(shù)據(jù)收集方法,我們距離自動駕駛車輛中AI實現(xiàn)人腦功能還有25年多的時間。因此,為了使自動駕駛汽車能夠在擁擠的城市環(huán)境中或以高速公路速度安全地獨立行駛,我們必須開發(fā)新的方法和技術(shù),以達到或超過人腦的性能!

2016年科學(xué)家發(fā)現(xiàn),解決視覺沖突需要關(guān)注而并不需要意識相關(guān)機制的參與

人腦像現(xiàn)在的自動駕駛,人類早就滅絕了

下一個問題是:如何做?并非所有物體都生來一樣,人能夠看到一切,卻只關(guān)注重要的事情。人類不斷地分析所處的環(huán)境,不斷“掃描”新的物體,然后并行地(并視情況而定)關(guān)注有趣或潛在威脅的元素。人的視覺皮層處理速度非常快,準確度令人難以置信,幾乎不用大腦巨大的處理能力。“如果人類的大腦像今天的自動駕駛汽車一樣工作,我們就不會作為一個物種存活下來。”Doty說。

Bob Nease在《決策的力量》(The Power of Five Bits)一書中描述人類大腦每秒處理一千兆比特(bit)信息,但只有50比特用于有意識思維。這是由多種進化因素造成的,包括我們對忽略心臟跳動等自主過程的適應(yīng),或者由視覺皮層篩選出與生存無關(guān)的環(huán)境信息。

這就是我們智慧愿景的本質(zhì)。雖然我們的眼睛總是在掃描和搜索,以識別進入場景的新對象,但我們將注意力集中在重要對象上,因為它們移動到受關(guān)注的區(qū)域,使我們能夠做出適當?shù)捻憫?yīng)。簡言之,我們搜索場景,有意識地獲取重要對象,并根據(jù)需要對其采取行動。

當前的自主車輛傳感器配置利用激光雷達、攝像頭、超聲波和雷達的組合作為其“感官”,限于固定搜索模式連續(xù)(單向)收集信息。這些“感官”收集盡可能多的數(shù)據(jù),然后在事件發(fā)生很久之后進行校準、處理和分析。這種后處理速度很慢,無法實現(xiàn)實時捕獲感官數(shù)據(jù)方式的變化。因為這些傳感器不會智能地發(fā)出詢問,所以收集到的90%感官數(shù)據(jù)在處理時會被丟棄,因為這些數(shù)據(jù)要么無關(guān),要么冗余。這種分類行為也會帶來延遲懲罰。在高速公路速度,這種延遲會導(dǎo)致車輛在傳感器數(shù)據(jù)完全處理之前移動超過6米。為了提高效率而丟棄不需要的數(shù)據(jù)效率很低。

對每棵樹、路緣、停放的車輛、道路和其他靜態(tài)對象進行數(shù)據(jù)篩選的艱巨任務(wù)也需要巨大的電力和數(shù)據(jù)處理資源(算力),雖然功率隨算力不斷攀升,整個系統(tǒng)的速度并沒有多大起色,并帶來了風險。這些系統(tǒng)的目標是關(guān)注一切,然后在事后嘗試分析環(huán)境中的每一項,而犧牲及時的行動。這與人類在與駕駛相關(guān)的情況下處理時空數(shù)據(jù)的方式完全相反。

人是直覺學(xué)習(xí)動物

如前所述,人類視覺皮層的掃描頻率為27Hz,而自動駕駛傳感器平均為10Hz左右。大腦自然地從視覺皮層收集信息,形成反饋回路,幫助提高感知過程每一步的效率。然后,大腦引導(dǎo)眼睛搜索并聚焦于某些物體,識別它們并確定其優(yōu)先級,并決定最有效的行動方案,同時在很大程度上忽略其他不太重要的物體。這種優(yōu)先順序允許更高的效率并增加時間和空間采樣,不僅掃描更智能,而且效果更好。

你試試看,環(huán)顧四周,發(fā)現(xiàn)有許多深度、顏色、陰影和其他信息需要用眼睛捕捉,然后是運動。再考慮一下你的經(jīng)驗:某個物體能夠運動還是可能保持靜止?它的行為是可預(yù)測還是不穩(wěn)定的?你覺得這個物體有價值嗎?還是認為它沒什么用?雖然你沒有意識到這些結(jié)果,但大腦是這樣做的。

自動或半自動車輛當前的傳感器系統(tǒng)針對“搜索”進行了優(yōu)化,然后將“搜索”報告給中央處理器。搜索是通過單個被動傳感器完成的,無論環(huán)境如何變化,這些傳感器在任何時候都會在任何地方使用相同功率、強度和搜索模式。

局限性在于:數(shù)據(jù)只從被動傳感器單向流向中央處理器,無法主動適應(yīng)或調(diào)整其采集。所有智能都是在融合和毀滅之后添加的,當實時學(xué)習(xí)和調(diào)整為時已晚時,高達95%的智能會被丟棄。

智能探測和感知

Blair LaCorte是AEye首席執(zhí)行官,也是積極訓(xùn)練同盟(Positive Coaching Alliance)董事會成員,曾榮獲美國宇航局頒發(fā)的“年度創(chuàng)新者”和《行業(yè)周刊》的“年度產(chǎn)品”獎。

在他的公司,智能激光雷達傳感器系統(tǒng)iDAR?(智能探測和測距)是一種創(chuàng)新的高性能固態(tài)主動激光雷達,使自動駕駛車輛能夠像人類一樣“搜索、獲取和行動”。它通過定義新的數(shù)據(jù)和傳感器類型來實現(xiàn)這一點,這些數(shù)據(jù)和傳感器類型可以更有效地傳達可操作的信息,同時具有快速準確地分析這些數(shù)據(jù)的智能。

LaCorte介紹說,iDAR平臺分為四個簡單層次,每層都是為了滿足各種出行要求,如ADAS、交通運輸、建筑、鐵路、ITS、航空航天等領(lǐng)域特定用例或應(yīng)用。四個層次是:設(shè)計性iDAR、觸發(fā)性iDAR、響應(yīng)性iDAR和預(yù)測性iDAR。

設(shè)計性iDAR:允許創(chuàng)建單一的確定性掃描模式,為特殊用例提供最佳信息;

設(shè)計性iDAR

觸發(fā)性iDAR:通過外部輸入(如地圖、速度和天氣)觸發(fā)確定性模式庫;

觸發(fā)性iDAR

響應(yīng)性iDAR:能夠感知場景,實時調(diào)整場景掃描方式,使用不同密度和額外功率。

響應(yīng)性iDAR

響應(yīng)iDAR平臺由反饋回路和其他傳感器(如攝像頭和雷達)通知激光雷達聚焦于特定興趣點。系統(tǒng)智能化能夠主動理解和詢問場景,并不斷優(yōu)化自身掃描模式和數(shù)據(jù)收集,以關(guān)注最重要的信息,類似于人類感知。

因此,與標準激光雷達不同,AEye的主動激光雷達具有情境適應(yīng)性,可以修改掃描模式和資源,如功率、更新率、分辨率、重現(xiàn)和范圍。這使得iDAR能夠動態(tài)利用傳感器資源,以最佳方式搜索場景,有效識別和獲取關(guān)鍵對象,例如道路上的兒童或進入十字路口的汽車,并確定適當?shù)男袆臃桨。實時執(zhí)行此操作對安全出行、避免悲劇至關(guān)重要。

iDAR被認為是唯一一個用于ADAS、移動性等的人工感知平臺,它是真正的軟件可配置的,能夠?qū)崿F(xiàn)智能和主動感知。通過使用主動激光雷達在傳感器級別根據(jù)客戶或應(yīng)用自定義數(shù)據(jù)收集,并提供大量可調(diào)整和自定義的配置設(shè)置,智能收集數(shù)據(jù),以滿足自主應(yīng)用需求。iDAR可以適應(yīng)新的技術(shù)和算法,不斷優(yōu)化成本和性能。

像人類一樣動態(tài)感知

iDAR是一個活躍的多維系統(tǒng),它依靠反饋回路高效地循環(huán)信息,以適當?shù)貙崟r修改反應(yīng),就像人類一樣。攝像頭可以與激光雷達通信,同時傳感器系統(tǒng)可以與路徑規(guī)劃系統(tǒng)實時通信。

除了提高響應(yīng)時間,反饋回路還使人工智能能夠更有效地與人工感知相結(jié)合。現(xiàn)在的傳感器系統(tǒng)無論在什么情況下都會被動地反饋相同類型的數(shù)據(jù)。iDAR將感官數(shù)據(jù)捕獲和處理推送到傳感器,而不是集中處理器,支持更快的集成反饋循環(huán)來通知和排隊操作。通過這種方式,iDAR系統(tǒng)能夠持續(xù)學(xué)習(xí),以便隨時間推移更有效地識別和跟蹤可能威脅自動駕駛車輛、乘客、其他駕駛員和行人安全的對象和情況。

這就是前面所說的預(yù)測性iDAR。像人類一樣,它能夠理解所看到的一切運動,這使得系統(tǒng)能夠用更少的數(shù)據(jù)傳遞更多的信息,將其能量集中在場景中最重要的對象,同時關(guān)注周圍的一切。其最終結(jié)果是通過神經(jīng)網(wǎng)絡(luò)進行運動預(yù)測。與人類的直覺一樣,可以“感知”(預(yù)測)未來不同時間物體的位置,幫助車輛評估碰撞風險并確定安全路線。

預(yù)測性iDAR

當涉及到運動物體感知時,通常需要兩種類型的關(guān)鍵正交數(shù)據(jù)集:空間和時間。空間數(shù)據(jù)確定對象在世界上的位置,而時間數(shù)據(jù)確定對象在時間上的位置。通過將這些數(shù)據(jù)集與其他數(shù)據(jù)集(如顏色、溫度、聲音和氣味)集成在一起,我們的大腦就可以生成周圍世界的實時模型,定義我們的體驗方式。

人類大腦自然地接收各種正交數(shù)據(jù),在我們沒有意識到的情況下,即時分離和重組信息。例如,如果你看到一個棒球向你飛來,你的大腦就會收集關(guān)于它的各種信息,比如空間(球的方向)和時間(球移動的速度)。當你的視覺皮層在“背景”中處理這些數(shù)據(jù)時,你最終意識到的是你需要采取的行動,可能是躲避。

LaCorte認為,能夠成功采用人腦捕獲和處理這些類型數(shù)據(jù)集的方式的AI感知技術(shù)將主宰市場。而現(xiàn)有的機器人傳感器系統(tǒng)只專注于單傳感器模式(攝像頭、激光雷達或雷達),且只具有固定的掃描模式和強度。與人類不同,這些系統(tǒng)沒有當傳感器檢測到物體運動時實時有效地處理和優(yōu)化2D和3D數(shù)據(jù)的學(xué)習(xí)能力。簡單地說,它們不能使用實時正交數(shù)據(jù)來學(xué)習(xí)、排序和聚焦。因此,有效地復(fù)制人類視覺皮層的多維感官處理能力需要一種新的方法來思考如何捕獲和處理感官數(shù)據(jù)。

所謂正交數(shù)據(jù)指的是互補數(shù)據(jù)集,最終為我們提供有關(guān)某個對象或情況,比單獨提供的質(zhì)量信息更多。這使我們能夠確定所處世界中什么是重要的,什么不是。高信息質(zhì)量的正交性概念已被很好地理解,并植根于量子物理等學(xué)科,在這些學(xué)科中,使用線性代數(shù),用正交基集(basis set)表示更復(fù)雜狀態(tài)而不需要冗余的最小信息片段。

AEye的智能感應(yīng)方法能夠捕捉“多種感官”,并對車輛周圍環(huán)境有更廣泛的了解。通過固態(tài)主動激光雷達與高分辨率攝像頭的物理融合,AEye創(chuàng)建了一種稱為動態(tài)Vixel(體素)的新數(shù)據(jù)類型,該數(shù)據(jù)類型可捕獲攝像頭像素和3D激光雷達體素。捕獲RGB和XYZ數(shù)據(jù)使車輛能夠像人類一樣(如果不比人類更好的話)實現(xiàn)可視化。顏色不僅主導(dǎo)著駕駛基礎(chǔ)設(shè)施(如標志或交通燈),也是視覺皮層的主要驅(qū)動因素之一。創(chuàng)造出動態(tài)體素就可以仿生人類視覺皮層的數(shù)據(jù)結(jié)構(gòu)。

與人類視覺皮層一樣,動態(tài)體素中固有的智能隨后被整合到中央感知引擎和運動規(guī)劃系統(tǒng)(即車輛的功能大腦)中。它們是動態(tài)的,因為它們能夠根據(jù)不斷變化的條件進行調(diào)整,例如增加傳感器的功率水平以穿透雨水,或者在同一幀中重新檢查可疑物體以識別障礙物。更好的數(shù)據(jù)驅(qū)動可以獲得更多可操作的信息。

需要超乎想象

如果像機器人一樣思考,像人類一樣感知,就可以從邏輯上減少人類的弱點,如攻擊性行為、疲勞、分心或酗酒風險;有可能達到并超越人類視覺皮層和大腦的能力,實現(xiàn)有史以來最強大的感知引擎。這樣我們就將節(jié)省時間、金錢、減輕壓力并提高安全性。

仿生學(xué)告訴我們,對于自動駕駛車輛,人工感知應(yīng)該在傳感器上進行更多的處理,以便有效地發(fā)揮作用。據(jù)稱,AEye的iDAR傳感器系統(tǒng)是唯一能夠成功處理行業(yè)最具挑戰(zhàn)性極端情況的傳感器,同時實現(xiàn)了超過200Hz(6倍人類視覺)的掃描速度,探測范圍為1公里(當前激光雷達的3-5倍),而這已經(jīng)VSI Labs測試:在超過1000米距離能夠檢測到目標更多的點數(shù)。

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

文章糾錯
x
*文字標題:
*糾錯內(nèi)容:
聯(lián)系郵箱:
*驗 證 碼:

粵公網(wǎng)安備 44030502002758號