昨日,谷歌AI在博客介紹了最新成果——投擲機(jī)器人TossingBot,一個能夠在真實(shí)、隨機(jī)的世界里學(xué)會抓取物體,并扔至習(xí)慣范圍外指定位置的拾取機(jī)器人。AI科技評論將之編譯如下。
北京順豐快遞分揀機(jī)器人盡管已在物體抓取、視覺自適應(yīng)、從現(xiàn)實(shí)經(jīng)驗(yàn)學(xué)習(xí)方面取得相當(dāng)大的進(jìn)步,然而我們依舊要考慮機(jī)器人如何執(zhí)行抓取、處理以及物體置放等任務(wù)的——尤其在無規(guī)律的環(huán)境設(shè)置里。讓我們觀察這個在亞馬遜機(jī)器人挑戰(zhàn)賽的裝載任務(wù)中取得第一名的機(jī)器人:
這是一個令人印象深刻的系統(tǒng),擁有許多從運(yùn)動學(xué)角度上來說可以防止由于不可預(yù)見動力而導(dǎo)致物體掉落的設(shè)計(jì)功能:從穩(wěn)定、從容的動作軌跡,到限制物體動量的機(jī)械夾子,無一不在保證該功能的實(shí)現(xiàn)。
與其他機(jī)器人一樣,在最開始設(shè)計(jì)時,它便旨在適應(yīng)無規(guī)律世界的動力因素。這里有一個問題是,除了單純地適應(yīng)動力因素,難道機(jī)器人就不能夠?qū)W會有效使用它們,開發(fā)物理層面的「直覺」,從而能夠更有效地完成指定任務(wù)?這樣做的話也許可以有效提高機(jī)器人的行動能力,進(jìn)而掌握更復(fù)雜的運(yùn)動技能,比如扔?xùn)|西、滑動、旋轉(zhuǎn)、擺動或者是捕捉等,這將能帶來許多有潛力的應(yīng)用,比如災(zāi)難場景中高效作業(yè)的碎片清理機(jī)器人——在這種場景中往往爭分奪秒。
為了進(jìn)一步探索這個概念,我們與來自普林斯頓大學(xué)、哥倫比亞大學(xué)以及麻省理工學(xué)院的研究員們合作開發(fā)出了TossingBot:一個能夠在真實(shí)、隨機(jī)的世界里學(xué)會抓取物體,并扔至習(xí)慣范圍外指定位置的拾取機(jī)器人。通過學(xué)習(xí)拋出,TossingBot得以實(shí)現(xiàn)兩倍于過往系統(tǒng)的拾取速度,并達(dá)到兩倍的有效置放范圍。TossingBot利用從視覺觀察映射至運(yùn)動圖元控制參數(shù)的端到端神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)抓取與投擲策略。通過高架攝像頭追蹤物體落地位置,TossingBot得以借助自我監(jiān)督機(jī)制逐步自我完善。
面臨挑戰(zhàn)
投擲是一項(xiàng)難度特別高的任務(wù),主要取決于多種因素:從物體被拾取的方式,到物體的物理屬性。打個比方,如果你以靠近質(zhì)心的把手位置來抓住一把螺絲刀并扔掉,其著陸位置會比你從金屬尖端抓住并拋出更靠近你,后者的話,它將向前擺動后落在離你較遠(yuǎn)的位置。需要強(qiáng)調(diào)的是,無論是何種拾取方式,拋擲一把螺絲刀與拋擲一個乒乓球,兩者之間有很大的不同,乒乓球?qū)⒁蚩諝庾枇β湓诟拷愕奈恢?。如果要靠手動去設(shè)計(jì)一個能夠妥當(dāng)處理隨機(jī)對象涉及這些因素的解決方案,幾乎是不可能的。
投擲取決于多重因素:從如何撿起它到物體的屬性與動態(tài)
借助深度學(xué)習(xí),我們的機(jī)器人得以從經(jīng)驗(yàn)中學(xué)習(xí),不用依賴手動式的逐案工程。過去我們已證明我們的機(jī)器人能夠?qū)W習(xí)如何推動與抓住各種物體,然而要想準(zhǔn)確投擲物體,需要我們對射彈物理學(xué)有深入的了解。僅僅通過反復(fù)試驗(yàn)試圖獲取這些知識,不僅耗時耗錢,而且往往無法勝任那些不夠具體、且未仔細(xì)進(jìn)行訓(xùn)練方案設(shè)置的任務(wù)。
閃兔分揀機(jī)器人物理和深度學(xué)習(xí)的結(jié)合
TossingBot通過整合基礎(chǔ)物理學(xué)與深度學(xué)習(xí)來學(xué)習(xí)投擲,使之能夠快速被訓(xùn)練,并推廣至新場景中進(jìn)行運(yùn)用。物理學(xué)提供關(guān)于世界如何運(yùn)作的先驗(yàn)?zāi)P?,我們可以運(yùn)用該模型來開發(fā)機(jī)器人的初始控制器。比如在投擲場景里,我們可以利用彈道學(xué)原理幫助我們估計(jì)使物體落至目標(biāo)位置所需的投擲速度。接著利用神經(jīng)網(wǎng)絡(luò)來預(yù)測基于物理估算的調(diào)整,以隨時應(yīng)對可能出現(xiàn)的未知動態(tài),例如現(xiàn)實(shí)世界中的噪聲與變化。我們將這種混合方案稱為殘留物理學(xué),它使TossingBot達(dá)到85%的投擲精度。
訓(xùn)練一開始,伴隨著初始權(quán)重隨機(jī)化,TossingBot反復(fù)嘗試不那么精確的抓取行為。隨著時間的推移,TossingBot逐漸學(xué)會以更好的方式來抓取物體,并在同一時間提高其投擲水平。在這過程中,機(jī)器人會偶爾以過去未曾嘗試過的速度投擲物體,來探索隨后會發(fā)生些什么。當(dāng)垃圾箱被清空時,TossingBot會主動抬起盒子以便讓物體滑落回垃圾箱里。通過這種方式,訓(xùn)練期間的人為干預(yù)被降到最低。通過10,000次左右的抓握與投擲嘗試,它最終實(shí)現(xiàn)85%的投擲準(zhǔn)確度,在雜亂環(huán)境中的抓取可靠性為87%。
推廣至新場景
通過對物理與深度學(xué)習(xí)進(jìn)行整合,TossingBot能夠快速適應(yīng)未出現(xiàn)過的投擲位置與物體。打個比方,當(dāng)我們利用形狀簡單的物體對之進(jìn)行訓(xùn)練,隨后它便可以很好應(yīng)對塑料水果、裝飾物品和辦公物品等新物體。在新物體的抓取投擲任務(wù)上,TossingBot剛開始的表現(xiàn)可能比較一般,然而在經(jīng)過幾百個訓(xùn)練步驟的淬煉后,它可以快速適應(yīng)并實(shí)現(xiàn)與訓(xùn)練物體同等的性能表現(xiàn)。我們發(fā)現(xiàn),將物理學(xué)、深度學(xué)習(xí)與殘差物理結(jié)合,可以達(dá)到比基線方案更好的性能。我們甚至親自上手操作這個任務(wù),驚喜地發(fā)現(xiàn)TossingBot的表現(xiàn)比我們當(dāng)中任何一名工程師還要精準(zhǔn)!即便如此,我們尚未將之與那些具有運(yùn)動天賦的人進(jìn)行測試對比。
TossingBot能力可以輕易被推廣至新物體上,且表現(xiàn)比普通的Google員工要更準(zhǔn)確
快遞分揀機(jī)器人概念股我們還測試了一種可以推廣至過去在訓(xùn)練過程中未曾出現(xiàn)過的新目標(biāo)位置的對策。為此,我們先將模型放在一組箱子上進(jìn)行訓(xùn)練,接著再選擇另一組擁有截然不同著陸區(qū)域的箱子上進(jìn)行測試。在這種情況下,我們發(fā)現(xiàn)投擲背后的殘差物理理論作用很明顯,彈道學(xué)對投擲速度的初始估計(jì)能夠幫助我們推導(dǎo)出新的目標(biāo)位置,而殘差理論可以在這些估計(jì)的基礎(chǔ)上進(jìn)行調(diào)整,以應(yīng)對不同物體屬性在現(xiàn)實(shí)世界中的變化。這與僅僅使用深度學(xué)習(xí)的基線方法形成了強(qiáng)烈對比,后者只能處理訓(xùn)練期間看到的目標(biāo)位置。
TossingBot基于殘差物理理論將物體扔到不可預(yù)見的位置
基于互動的語義擴(kuò)充
為了解TossingBot的學(xué)習(xí)內(nèi)容,我們在箱中放置幾種物體,在捕獲圖像后,將之輸入至TossingBot的訓(xùn)練神經(jīng)網(wǎng)絡(luò)中,以提取中間像素的深層特征。我們基于相似性對特征進(jìn)行聚類,并將最近鄰居可視化為熱圖(越熱的區(qū)域表示該特征空間擁有越多的相似性),這樣便可以準(zhǔn)確定位在該場景中的所有乒乓球。即使橙色墻塊與乒乓球有著相似的顏色,然而其特征已經(jīng)足以讓TossingBot作出區(qū)分。同理,我們也可以利用提取特征來定位所有的馬克筆,即便這些馬克筆擁有相似的形狀與重量,且在顏色上不盡相同。觀察結(jié)果表明,TossingBot可能更多依賴幾何線索來學(xué)習(xí)抓握與投擲行為。此外,學(xué)習(xí)到的特征也可能反映了進(jìn)階屬性,這些屬性決定了該物體應(yīng)該如何被拋出。
在未有明確監(jiān)督情況下,TossingBot習(xí)得了區(qū)分物體類別的深層特征。
這些新興功能是在除了任務(wù)級別的抓取和投擲任務(wù)外,在沒有任何明確監(jiān)督的情況下從頭開始學(xué)習(xí)的。它似乎已經(jīng)足以使系統(tǒng)對物體類別進(jìn)行區(qū)分。這個實(shí)驗(yàn)說明一個與機(jī)器視覺相關(guān)的廣泛概念:機(jī)器人應(yīng)該如何學(xué)習(xí)視覺世界的語義?從經(jīng)典計(jì)算機(jī)視覺的角度來看,語義通常是通過人工圖像數(shù)據(jù)集與人工構(gòu)建的類別區(qū)分來預(yù)先進(jìn)行定義的。然而我們的實(shí)驗(yàn)結(jié)果表明,只要對手頭的任務(wù)來說是重要的,模型就能從物理交互中隱含習(xí)得物體級別的語義。這些交互越復(fù)雜,語義的分辨率就越高。對于通用智能機(jī)器人來說——也許它們通過交互來發(fā)展自己的語義概念就已足夠,而無需人為的干預(yù)。
局限性與工作展望
盡管TossingBot的實(shí)驗(yàn)結(jié)果看起來充滿希望,然而卻依然存在其局限性。例如,它假設(shè)所有物體都足以承受拋擲后的著陸碰撞——這就需要進(jìn)一步的工作來學(xué)習(xí)針對易碎物體的投擲行為,或者訓(xùn)練其他機(jī)器人以緩沖著陸的方式來抓取物體。此外,TossingBot只能憑視覺數(shù)據(jù)來推斷控制參數(shù)——而探索額外的感覺實(shí)際上可以使系統(tǒng)更好地對新物體作出反應(yīng)。
物理學(xué)和深度學(xué)習(xí)的結(jié)合,將TossingBot導(dǎo)向一個有趣的問題:還有哪些領(lǐng)域可以從殘差物理學(xué)中受益?如何將這個想法推導(dǎo)至其他類型的任務(wù)與交互,是未來研究里一個充滿希望的方向。
宜昌abb分揀機(jī)器人分揀機(jī)器人畢業(yè)設(shè)計(jì)高速分揀機(jī)器人智能制造