曰韩无码一区二区三区,v91国产高清在线自在拍

人工智能AI在機(jī)器人運(yùn)動控制領(lǐng)域應(yīng)用盤點(diǎn)

2018-05-31 09:28

1）強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)框架中，有一個包含神經(jīng)網(wǎng)絡(luò)的Agent負(fù)責(zé)決策。Agent以當(dāng)前機(jī)器人傳感器所采集到的環(huán)境為輸入，輸出控制機(jī)器人的行動命令action，機(jī)器人行動后，再觀察新的環(huán)境狀態(tài)和行動帶來的結(jié)果Reward，決定下一步新的行動action。Reward根據(jù)控制目標(biāo)進(jìn)行設(shè)置，并有正反向之分。例如，如果以自動駕駛為目標(biāo)，正向的Reward的就是到達(dá)目的地，反向就是不能達(dá)到目的地，更不好的Reward就是出車禍。然后重復(fù)這個過程，目標(biāo)是最大化Reward。

強(qiáng)化學(xué)習(xí)的控制過程，本來就是個正向反饋的控制過程，是AI用于機(jī)器人控制的基礎(chǔ)。以此為基礎(chǔ)，強(qiáng)化學(xué)習(xí)在機(jī)器人控制方面出現(xiàn)了一些研究成果。

2）環(huán)境中尋找目標(biāo)

16年，李飛飛組放出了一篇論文，基于深度強(qiáng)化學(xué)習(xí)，在以目標(biāo)圖像為輸入的情況下，不建圖去找東西。大致思路是：根據(jù)機(jī)器看到的圖，決定怎么走，然后再看圖，再決定新走的一步，直到找到東西。論文將目標(biāo)圖像作為輸入，訓(xùn)練出來的神經(jīng)網(wǎng)絡(luò)具有通用性。

這種方式找東西更接近人的思維。訓(xùn)練出的控制器并沒有記住物體的位置，更不知道房屋的結(jié)構(gòu)。但它記住了在每一個位置，通向各個物體應(yīng)該怎么走。

3）機(jī)器人抓取

傳統(tǒng)的機(jī)器人學(xué)研究認(rèn)為，需要非常清楚要抓取的物體的三維幾何形狀，分析受力位置和力的大小，再反向計算機(jī)器手如何一步步移動到這些位置。但這種方式抓取不規(guī)則形狀和柔性物體會很困難。例如毛巾，可能需要看成一系列剛體的鏈接，再進(jìn)行動力學(xué)建模分析，但是計算量比較大。而小黃鴨那樣的橡膠，外部并不能看出彈性程度，難以計算出需要施加的正確的力。

Pieter Abbeel、DeepMind和OpenAI關(guān)于機(jī)器人控制的研究，都以此深度強(qiáng)化學(xué)習(xí)為基礎(chǔ)�；趶�(qiáng)化學(xué)習(xí)進(jìn)行機(jī)器人抓取，以機(jī)器視角看到的圖像為輸入，以機(jī)器最終抓到物體為目標(biāo)，不斷對機(jī)器進(jìn)行訓(xùn)練，從而在不建模和不做受力分析的情況下，實現(xiàn)對物體的抓取。Pieter Abbeel已經(jīng)展示過機(jī)器人疊毛巾，開瓶蓋，裝玩具等復(fù)雜的動作。

不過基于強(qiáng)化學(xué)習(xí)也仍有很多問題，如效率低、推理過程長、任務(wù)難以描述、不能終身學(xué)習(xí)、不能最大限度從真實世界獲取信息等。其中一些通過meta學(xué)習(xí)，one－shot學(xué)習(xí)，遷移學(xué)習(xí)，VR示教等方法的引入得到了改善，有些則還暫時難以解決。

4．Dexterity Network

鑒于深度強(qiáng)化學(xué)習(xí)的各種問題，Pieter Abbeel在UCBerkeley的同事Ken Goldberg，則采用了叫做Dexterity Network（Dex－Net）的研究思路。首先通過傳統(tǒng)機(jī)器人學(xué)中分析受力和建模的思路，建立一個包含大量數(shù)據(jù)的數(shù)據(jù)集，這個數(shù)據(jù)集里的每一項數(shù)據(jù)包含一個物體的模型和這個物體在不同姿態(tài)下可以被穩(wěn)定抓起來的施力方式，這些施力方式是通過物體模型計算出來的。有了數(shù)據(jù)之后，用這些數(shù)據(jù)訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)。然后給出一個新物體，通過神經(jīng)網(wǎng)絡(luò)判斷這個物體和數(shù)據(jù)集里哪個物體最相似，然后根據(jù)最相似的物體的數(shù)據(jù)集里包含的施力方式計算出這個新物體的最穩(wěn)定施力方式。

Ken Goldberg的方案的一個重要弊端，是計算量過于龐大。整個算法占用了Google云服務(wù)器上的1500臺虛擬機(jī)的計算量。此方法也讓“云機(jī)器人”這個概念受到了關(guān)注。

目前Pieter Abbeel和Ken Goldberg的兩種方法還處于學(xué)術(shù)爭議階段，新的研究成果還在不斷出現(xiàn)，也還有很多問題沒有解決，尤其是穩(wěn)定性和魯棒性是各方爭議的焦點(diǎn)。不同于語音識別音箱出了錯，無非是鬧個笑話，機(jī)器人系統(tǒng)對穩(wěn)定性和可靠性的要求非常高，系統(tǒng)一旦出錯，輕則毀物，重則造成人類的生命危險。Pieter Abbeel也承認(rèn)目前還沒考慮魯棒性和穩(wěn)定性問題，似乎整體還沒達(dá)到商用產(chǎn)品級。

總結(jié)

總體而言，以強(qiáng)化學(xué)習(xí)為代表，AI在機(jī)器人控制領(lǐng)域近兩年取得了一些進(jìn)展，尤其是在過去研究方法難以突破的環(huán)境交互問題方面取得了進(jìn)展。但基于神經(jīng)網(wǎng)絡(luò)的控制系統(tǒng)，在魯棒性等方面短期似乎難以得到解決，因此離實際應(yīng)用還有很遠(yuǎn)的距離。在多種研究方法的共同努力下，我們也期待機(jī)器人控制問題能夠早日有所突破。

<上一頁 1 2