從斯坦福大學的 VIMA 機器人智能體,到谷歌 DeepMind 推出首個控制機器人的視覺 - 語言 - 動作(VLA)的模型 RT-2,大模型加持的機器人研究備受關(guān)注。
當前,自監(jiān)督和語言監(jiān)督的圖像模型已經(jīng)包含豐富的世界知識,這對于泛化來說非常重要,但圖像特征是二維的。我們知道,機器人任務(wù)通常需要對現(xiàn)實世界中三維物體的幾何形狀有所了解。
基于此,來自 MIT CSAIL 和 IAIFI 的研究者利用蒸餾特征場(Distilled Feature Field,DFF),將準確的 3D 幾何圖形與來自 2D 基礎(chǔ)模型的豐富語義結(jié)合起來,讓機器人能夠利用 2D 基礎(chǔ)模型中豐富的視覺和語言先驗,完成語言指導的操作。
論文地址:https://arxiv.org/abs/2308.07931
具體來說,該研究提出了一種用于 6-DOF 抓取和放置的小樣本學習方法,并利用強大的空間和語義先驗泛化到未見過物體上。使用從視覺 - 語言模型 CLIP 中提取的特征,該研究提出了一種通過開放性的自然語言指令對新物體進行操作,并展示了這種方法泛化到未見過的表達和新型物體的能力。
研究團隊用一個講解視頻詳細介紹了 F3RM 方法的技術(shù)原理:
運動控制器以傳感器為信號敏感元件,以電機或動力裝置和執(zhí)行單元為控制對象的一種控制裝置,為電機或其它動力和執(zhí)行裝置提供正確的控制信號
典型的機器人電子電氣結(jié)構(gòu)主要由以下部分組成, 電源管理,環(huán)境感知,中央控制單元,電機控制,人機界面, 可選組件和其他應(yīng)用
通過動力元件推動工作介質(zhì)(液體或氣體)在缸體內(nèi)產(chǎn) 生壓力差而驅(qū)動執(zhí)行元件,與其他驅(qū)動方式相比,液壓和氣壓驅(qū)動具有輸出功率密度大,易于實現(xiàn)遠距離控制以及輸出力大等優(yōu)點
微型驅(qū)動器和減速器的發(fā)展為手指驅(qū)動系統(tǒng)的微型化和集成化創(chuàng)造了條件,其直線驅(qū)動器將旋轉(zhuǎn)電機,旋轉(zhuǎn)直線轉(zhuǎn)換結(jié)構(gòu)和減速機都集成在靈巧手內(nèi)部
混合置式靈巧手將一部分驅(qū)動器放在手臂,既保證了驅(qū)動力,也降低了靈巧手本體的體積, 使得靈巧手更加擬人化
驅(qū)動器內(nèi)置式靈巧手各關(guān)節(jié)具有較好的剛性,更利于傳感器的直接測量,且模塊化設(shè)計利于更換維護;整手尺寸較大,關(guān)節(jié)靈活度下降
靈巧手的外觀設(shè)計更加擬人化,手指本體更加纖細;可以采用更大的驅(qū)動電機,從而增大手指的輸出力;驅(qū)動器與手本體之間距離遠增加了控制器設(shè)計的難度
第一階段是從 20 世紀 70 年代—20 世紀 90 年代,典型代表是日本的 Okada、美國的 Stanford/JPL 和 Utah/MIT;第二階段是從 20 世紀 90 年代到 2010 年
靈巧手是機器人操作和動作執(zhí)行的末端工具,滿足兩個條件:指關(guān)節(jié)運動時能使物體產(chǎn)生任意運動,指關(guān)節(jié)固定時能完全限制物體的運動,定義靈巧手是指數(shù)≥3,自由度≥9 的末端執(zhí)行器
特斯拉公布了 6 種規(guī)格的執(zhí)行器,旋轉(zhuǎn)執(zhí)行器采用諧波減速器+電機的方案,線性執(zhí)行器采用絲杠+電機的方案,對于手掌關(guān)節(jié),其采用了空心杯電機+蝸輪蝸桿的結(jié)構(gòu)
人形機器人有更強的柔性化水平,更好的環(huán)境感知能力和判斷能力,首要需要解決的問題是如何實現(xiàn)像人一樣去運動,能夠兼顧可靠性
28個執(zhí)行器分別為肩關(guān)節(jié)(單側(cè)三自由度旋轉(zhuǎn)關(guān)節(jié))6個,肘關(guān)節(jié)(單側(cè)直線關(guān)節(jié))2個,腕部關(guān)節(jié)(單側(cè)2個直線+1個旋轉(zhuǎn))6個,腰部(二自由度旋轉(zhuǎn)關(guān)節(jié))2個