日韩欧美国产精品亚洲二区,美腿丝袜国产精品第一页

RSS 2020 | 在目標、動力學和意圖不確定下的隱含信念空間運動規(guī)劃

2020-07-10 14:58

該擾動方程的推導過程與標準的DDP 擾動方程推導相似，不同點在于其根據(jù)當前時刻不同隱變量z 的置信度b（z）進行了加權平均，而且在狀態(tài)轉換時不僅考慮了系統(tǒng)狀態(tài)x 的演變，還考慮了獲得不同的觀測值時置信度b 的變化。通過置信度b 進行加權平均的過程，實際上就是把后續(xù)分支節(jié)點進行合并的過程。所以利用該方法，就可以從軌跡樹的葉節(jié)點開始，進行遞歸操作直至根節(jié)點為止，對整顆軌跡樹進行后向過程操作。

由于問題假設并未對狀態(tài)轉移模型以及損失函數(shù)的形式進行約束，所以Q 的形式一般而言是非線性非凸的。為了沿用凸優(yōu)化的流程，我們需要對Q 進行如下所示的二次近似操作。

此時我們就可以利用標準的凸優(yōu)化方法對整顆軌跡樹進行優(yōu)化操作了。通過求解上述擾動函數(shù)的二次近似函數(shù)的極小值，我們可以得到當前時刻的最優(yōu)動作擾動，如下。

其中k 和K 分別是該時刻下開環(huán)控制和反饋控制的增益（具體推導過程與取值見論文）。

四、實驗及結果

為了進行對比實驗驗證PODDP 算法的效果，論文提出了兩種有實際意義的baseline 算法：

Probability Weighted DDP （PWDDP）：其根據(jù)當前時刻的置信度直接對所有可能性進行加權平均操作，而不考慮由于不同的未來觀測值而產(chǎn)生的軌跡分支；

Maximum Likelihood DDP （MLDDP）：其只考慮當前時刻下置信度最高的隱變量，而忽略其他的可能性。這兩種baseline 算法都是常見的POMDP 應對策略。

論文提出了三類不確定性，并為每一類不確定性都設置了一個實驗場景：

目標函數(shù)不確定（T－Maze 場景）：我們的車輛位于一個T 字型的道路入口處，希望走到一個不確定的目標地點。該目標地點可能是道路的左側，也可能是道路的右側，而車輛必須沿側道路行駛至靠近分叉口的地方才能夠得到更好的觀測，以確定目標所處的位置。

本體系統(tǒng)運動學規(guī)律不確定（Muddy Track 場景）：我們的車輛在一條泥濘的道路上朝一個目標地點行駛，但右側的道路有一定的可能性會更加平滑。而我們的車輛必須在行駛中探索右側道路是否真的更平滑，從而規(guī)劃出一條最優(yōu)的行進路線。

其他個體意圖不確定（Lane Change 場景）：我們的車輛希望并線到左側車道，可是那里已經(jīng)有另一輛車了。我們需要時刻評估對方是比較合作禮讓的，還是比較沖動激進的，進而確定應該超車并線，還是等待對方先向前走遠再并線到它后方。

下圖展示了在三種不同的場景下各個算法的量化表現(xiàn)。在三種場景下，論文提出的 PODDP 算法的累計實際損失函數(shù)值均顯著優(yōu)于另外兩種baseline 算法。

下圖展示了PODDP 算法在三中場景下規(guī)劃出的軌跡樹。

論文還加入了一項額外的實驗，以進一步展示PODDP 算法優(yōu)化出的軌跡的最優(yōu)性。該實驗沿用了T－Maze 場景，在該場景下從小到大調整在同一位置的觀測不確定性的大小規(guī)模，從而對比不同算法在不同的不確定性規(guī)模下的性能。結果如下圖所示，可見PODDP 算法在不同的不確定性規(guī)模下均顯著優(yōu)于baseline 算法，而且具有更高的穩(wěn)定性。

五、討論

這項工作結合了離散化隱變量和連續(xù)空間下的動作軌跡優(yōu)化，提出了一種新的微分動態(tài)規(guī)劃變體，可以有效地處理連續(xù)空間下的多模態(tài)不確定性POMDP 問題，填補了相關空白。由于軌跡樹的復雜度會隨著觀測推演的數(shù)量增加而指數(shù)膨脹，所以論文提出了一種層級PODDP 結構，不必在每一個時刻都進行觀測，以降低運算復雜度，同時保持了控制輸出的頻率。

值得注意的是，雖然在該論文中設置的實驗場景均為無人車應用，但是論文提出的PODDP 算法完全可以應用在各種不同的機器人軌跡規(guī)劃和優(yōu)化場景中，處理不同類型的多模態(tài)不確定性。

關于我“門”

將門是一家以專注于發(fā)掘、加速及投資技術驅動型創(chuàng)業(yè)公司的新型創(chuàng)投機構，旗下涵蓋將門創(chuàng)新服務、將門技術社群以及將門創(chuàng)投基金。將門成立于2015年底，創(chuàng)始團隊由微軟創(chuàng)投在中國的創(chuàng)始團隊原班人馬構建而成，曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術型創(chuàng)業(yè)公司。

將門創(chuàng)新服務專注于使創(chuàng)新的技術落地于真正的應用場景，激活和實現(xiàn)全新的商業(yè)價值，服務于行業(yè)領先企業(yè)和技術創(chuàng)新型創(chuàng)業(yè)公司。

將門技術社群專注于幫助技術創(chuàng)新型的創(chuàng)業(yè)公司提供來自產(chǎn)、學、研、創(chuàng)領域的核心技術專家的技術分享和學習內(nèi)容，使創(chuàng)新成為持續(xù)的核心競爭力。

將門創(chuàng)投基金專注于投資通過技術創(chuàng)新激活商業(yè)場景，實現(xiàn)商業(yè)價值的初創(chuàng)企業(yè)，關注技術領域包括機器智能、物聯(lián)網(wǎng)、自然人機交互、企業(yè)計算。在近四年的時間里，將門創(chuàng)投基金已經(jīng)投資了包括量化派、碼隆科技、禾賽科技、寬拓科技、杉數(shù)科技、迪英加科技等數(shù)十家具有高成長潛力的技術型創(chuàng)業(yè)公司。

<上一頁 1 2 3