榴莲视频在线播放,国产精品亚洲无码

通過視覺信號預測駕駛員意圖

2019-05-22 11:09

本篇文章提出了一種利用深度神經(jīng)網(wǎng)絡來檢測視頻序列中信號的方法，采用該方法對超過一百萬幀視頻資源進行實驗，實驗結(jié)果表明，采用該方法，每幀的精度都很高。

ICRA（International Conference on Robotics and Automation）是IEEE機器人與自動化學會的旗艦會議。2019年的ICRA在加拿大蒙特利爾于當?shù)貢r間5月20日盛大召開。本次ICRA會議，有眾多行業(yè)大咖分享最新的學術成果，并設立一個行業(yè)論壇和IERA計劃、一個政府論壇和一個ICRA－X機器人藝術論壇。

圖片選自ICRA官方網(wǎng)站

往屆的ICRA，匯集世界頂尖研究人員和企業(yè)，共同分享最新的研究成果，很多的機器人和自動化領域的重要前沿科技均是在ICRA首度曝光。隨著機器人自動化領域的不斷擴大，以行業(yè)為中心的活動不斷增加，今年的ICRA2019匯集了更多行業(yè)領軍人才及企業(yè)。

在每日的keynote演講嘉賓名單中，小編發(fā)現(xiàn)了Raquel Urtasun。Raquel Urtasun是優(yōu)步ATG首席科學家兼優(yōu)步ATG多倫多負責人，是多倫多大學計算機科學系的副教授，加拿大機器學習和計算機視覺研究主席以及人工智能矢量研究所的聯(lián)合創(chuàng)始人。研究領域包括：自動駕駛汽車，計算機視覺，機器學習，遙感和機器人。她的實驗室被選為NVIDIA NVAIL實驗室。曾獲得NSERC EWR Steacie、NVIDIA AI獎，教育和創(chuàng)新早期研究員獎，三個Google Faculty Research獎。

22日，Raquel Urtasun將為ICRA做主題為“A future affordable self－driving vehicles”的主旨演講。因為她的主題還未發(fā)表，那么我們先來看看Raquel Urtasun實驗室的投稿論文吧。

小編發(fā)現(xiàn)，在Raquel Urtasun實驗室主頁上顯示，有一篇題為“深度信號：通過視覺信號預測駕駛員意圖 DeepSignals： Predicting Intent of Drivers Through Visual Signals”中投ICRA。本篇文章提出了一種利用深度神經(jīng)網(wǎng)絡來檢測視頻序列中信號的方法，采用該方法對超過一百萬幀視頻資源進行實驗，實驗結(jié)果表明，采用該方法，每幀的精度都很高。

文章詳情

在自動駕駛汽車成為常態(tài)之前，人類和機器人將不得不共享道路。在這種共享的場景中，車輛之間的通信對于向其他車輛發(fā)出緊急或危險的演習警報至關重要。因此，對人類意圖的社會理解對自我驅(qū)動的進步至關重要。這給自動駕駛系統(tǒng)帶來了額外的復雜性，因為這種交互通常很難學習模仿。司機們相互交流意圖，以便做出臨時決策的動作，以便在更早的時候發(fā)出警告，而不是通過運動來推斷。雖然駕駛員的動作傳達了意圖，例如，當駕駛員減速以表示其他車輛可以并道，或接近車道邊界以表示所需的合并位置時，駕駛員的動作提示是微妙的、全動作相關的、并且是短期瞬時的。相比之下，視覺信號，尤其是信號燈，是清晰的，可以提前很長時間發(fā)出警告，這種警告表示可能出現(xiàn)的意外動作。

例如，如果沒有檢測到轉(zhuǎn)彎信號，一輛停著的汽車在駛?cè)胗娑鴣淼能嚵鲿r，同樣有可能保持停著不動。類似地，當司機計劃在另一輛車前面停車時，他們通常會提前發(fā)出安全信號。公共汽車在停車接送乘客時也會發(fā)出閃光信號，允許從后面駛來的車輛改變車道，從而減少了延誤和擁堵。當司機了解其他交通參與者的意圖，這些日常行為是安全的；但如果忽視視覺信號是危險的。因此，人類希望自動駕駛汽車做出反應，通過視覺信號預測駕駛員意圖的問題，并特別關注于解釋信號燈。

圖2 來自1，257，591個標記幀的數(shù)據(jù)集的挑戰(zhàn)性場景。

研究人員在一個全新的、具有挑戰(zhàn)性的真實數(shù)據(jù)集上展示了他們的方法的有效性，該數(shù)據(jù)集包含來自他們實驗室的自動駕駛平臺的34小時視頻。該數(shù)據(jù)集包括在真實的（黑夜白天）城市駕駛場景中發(fā)現(xiàn)的不利條件，包括擁堵、遠距離和不常見的車輛、惡劣天氣等各種場景（參見圖2）。

圖3 在這項工作中，研究人員建議使用一個卷積循環(huán)架構(gòu)來分類車輛的轉(zhuǎn)彎信號狀態(tài)。對于每個輸入幀，使用全卷積網(wǎng)絡預測掩碼（a），然后使用原始輸入圖像獲取element－wise，并使用基于vgg16的CNN提取空間特征（b），然后合并使用卷積LSTM時序特性（c），從最終隱藏狀態(tài)出發(fā)，預測了車輛轉(zhuǎn)彎信號狀態(tài)和視場面的概率分布（d）。

該模型的建立是為了解決三個問題：attention意圖，識別行為人的信號燈； understanding語義理解，識別遮擋和觀察行動者的方向； temporal reasoning時間推理，以區(qū)別閃爍燈和持久燈。針對這些問題研究人員設計了一個深度學習體系結(jié)構(gòu)。請參考圖3以獲得詳細說明。輸入幀首先由應用空間掩碼的attention模塊進行處理，然后使用深度卷積網(wǎng)絡恢復空間概念。然后，將每幀的信息輸入卷積LSTM，將轉(zhuǎn)彎信號和緊急閃光的時間模式與其他內(nèi)容區(qū)分開來。生成的時空特征被傳遞到完全連接的層中進行分類。

研究人員使用多任務丟失來訓練模型。具體來說，在任務上定義了加權交叉熵損失。給定模型輸入x，地面真值標簽y，模型權值θ，任務權值γ，網(wǎng)絡函數(shù)σ，損失函數(shù)為：

其中每個任務損失使用交叉熵定義為：

由于沒有用于轉(zhuǎn)彎信號分類的公共數(shù)據(jù)集，研究人員在自主駕駛平臺上記錄了超過10000條10赫茲下的車輛軌跡，并將其標記為轉(zhuǎn)彎信號狀態(tài)，總共標記了1，257，591幀。每一幀都被標記為左轉(zhuǎn)彎和右轉(zhuǎn)彎燈的ON打開，OFF關閉或UNKNOWN未知。注意，標簽標識了每盞燈的概念狀態(tài)，ON表示即使燈泡沒有被點亮，信號也是活動的。這些較低層次的標簽被用來推斷高層次的動作意圖：左轉(zhuǎn)、右轉(zhuǎn)、閃光、關閉和未知。圖4a顯示了標簽的數(shù)量，它證明了數(shù)據(jù)集中對OFF類有相當大的偏向。還顯示了距離上的分布（圖4c）和視點（圖4d）。

比較FC－LSTM、ConvLSTM、cn－clstm以及文章提出的方法，上述指標如表1所示。FC－LSTM性能最弱；這可以解釋為全連通層在提取空間特征時效率低下，只有通過網(wǎng)絡的大容量來平衡，這使得它可以學習更復雜的功能。ConvLSTM通過利用門的卷積實現(xiàn)了稍好一點的效果，這使得它更適合于空間特征提取。然而，它的內(nèi)存效率低下阻止了使用更深層次的架構(gòu)，因此限制了模型的容量。結(jié)合這兩種方法，得到了一個CNNLSTM，它既能利用CNNs豐富的空間特征提取，又能利用LSTMs的時間特征表示，取得了比之前基線更好的效果。我們提出的方法在LSTM和注意機制中進一步增加了卷積，得到了最好的結(jié)果。

混淆矩陣如表2所示。注意，OFF的檢測精度明顯較高，而FLASHERS的檢測精度較低，因為這兩個類在數(shù)據(jù)集中分別表示過多和過少，即使使用分層抽樣方案，圖4d（a）這種不平衡自然會影響測試性能。

網(wǎng)絡故障模式。（a）夜間明亮的燈光被錯誤地歸類為左轉(zhuǎn)。（b）遠處車輛右側(cè)的明亮反光被誤列為右轉(zhuǎn)彎。（c）一輛不常見的車輛識別結(jié)果為沒有發(fā)出右轉(zhuǎn)信號。（d）姿態(tài)解碼錯誤，輸出翻轉(zhuǎn)。（e）在載有單車的車輛上作假性左轉(zhuǎn)。

結(jié)論

在自動駕駛領域，檢測駕駛員的意圖是一項必不可少的任務，是預測諸如變道和停車等突發(fā)事件的必要手段。在本文中，研究人員解決了轉(zhuǎn)彎信號分類這一重要而尚未探索的問題。提出了一種能夠端到端的訓練方法，能夠處理車輛的不同視點。提出的神經(jīng)網(wǎng)絡通過意圖、卷積和遞歸來推斷空間和時間特征，從而在幀級對一系列觀測信號的轉(zhuǎn)彎信號狀態(tài)進行分類。該實驗使用包含120多萬張實況圖像的數(shù)據(jù)集來訓練和評估的方法。未來在這個問題上，研究領域?qū)䲠U展到緊急車輛信號，以及更多分類的功能（例如來自曝光不足的相機的圖像）的識別問題上。

參考：

［1］ Frossard D， Kee E， Urtasun R．DeepSignals： Predicting Intent of Drivers Through Visual Signals［J］． arXivpreprint arXiv：1905．01333， 2019．

［2］ icra2019．org