訂閱
糾錯(cuò)
加入自媒體

谷歌DADS算法助力智能體實(shí)現(xiàn)多樣化行為發(fā)現(xiàn)

利用模型動(dòng)力學(xué)實(shí)現(xiàn)基于模型的控制

DADS不僅可以發(fā)現(xiàn)可預(yù)測(cè)的潛在有用模型,同時(shí)允許高效地將學(xué)習(xí)到的技能應(yīng)用于下游任務(wù)中去。DADS可以利用學(xué)習(xí)到的技能動(dòng)力學(xué)來(lái)預(yù)測(cè)每個(gè)技能的狀態(tài)轉(zhuǎn)移,預(yù)測(cè)的狀態(tài)轉(zhuǎn)移可以被銜接起來(lái)模擬任意技能的完整狀態(tài)軌跡,而無(wú)需在環(huán)境中執(zhí)行。因此我們可以模擬不同技能的軌跡,并為給定的任務(wù)選擇最高獎(jiǎng)勵(lì)的技能;谀P偷囊(guī)劃方法具有很高的樣本效率并無(wú)需額外的訓(xùn)練。相較于先前的方法是一個(gè)重要的進(jìn)步,無(wú)需針對(duì)學(xué)習(xí)到的技能在環(huán)境中進(jìn)行額外的訓(xùn)練。

利用智能體發(fā)現(xiàn)的技能,就可以在無(wú)需額外實(shí)驗(yàn)的情況下遍歷任意檢查點(diǎn)。上圖顯示了主體在檢查點(diǎn)間的遍歷情況。

真實(shí)實(shí)驗(yàn)

為了驗(yàn)證算法的有效性,研究人員針對(duì)這一算法提出了簡(jiǎn)化版本off-DADS,通過(guò)離線學(xué)習(xí)對(duì)算法和系統(tǒng)上的改進(jìn),使得模型可以利用從不同策略下收集的數(shù)據(jù)來(lái)改進(jìn)當(dāng)前策略。特別是對(duì)于先前數(shù)據(jù)的復(fù)用將顯著提升強(qiáng)化學(xué)習(xí)算法的樣本效率。在改進(jìn)的離線策略基礎(chǔ)上,研究人員從隨機(jī)初始化策略開始訓(xùn)練了小四足機(jī)器人,在沒(méi)有任何環(huán)境獎(jiǎng)勵(lì)和手工探索策略的情況下,通過(guò)DADS定義的內(nèi)部獎(jiǎng)勵(lì)實(shí)現(xiàn)了多種步態(tài)和方向性運(yùn)動(dòng)。

這種新穎的非監(jiān)督學(xué)習(xí)技能發(fā)現(xiàn)方法可以在將來(lái)被用于更為廣泛的真實(shí)世界任務(wù)中,在最小化人類工作的情況下適應(yīng)廣泛場(chǎng)景和任務(wù)需求。未來(lái)研究人員們將在狀態(tài)表示和技能發(fā)現(xiàn)間進(jìn)行更為深入的研究,并探索將高級(jí)的運(yùn)動(dòng)規(guī)劃和底層的控制進(jìn)行分離的技能探索策略。如果想要了解詳細(xì)信息,

<上一頁(yè)  1  2  
聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯(cuò)
x
*文字標(biāo)題:
*糾錯(cuò)內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號(hào)