MolmoAct開源:三重感知機(jī)器人AI,噱頭還是突破?
人工智能研究機(jī)構(gòu)Ai2近日開源了其具身機(jī)器人核心模型MolmoAct,這一號(hào)稱能解決三維空間動(dòng)作規(guī)劃難題的"行動(dòng)推理模型"(ARM)迅速引發(fā)行業(yè)關(guān)注。在機(jī)器人技術(shù)面臨感知-決策-執(zhí)行瓶頸的當(dāng)下,MolmoAct提出的三重處理架構(gòu)確實(shí)展現(xiàn)出獨(dú)特的技術(shù)路徑,但其實(shí)際價(jià)值仍需理性審視。
技術(shù)架構(gòu)的突破性設(shè)計(jì)
MolmoAct最顯著的特點(diǎn)是構(gòu)建了空間感知、路徑規(guī)劃和運(yùn)動(dòng)執(zhí)行的三階段處理流水線。其創(chuàng)新始于第一階段的VQVAE預(yù)訓(xùn)練模塊,通過生成包含幾何結(jié)構(gòu)與位置信息的空間感知Token,有效彌補(bǔ)了傳統(tǒng)視覺語言模型(VLA)在三維空間表征上的缺陷。這種將深度信息編碼為離散Token的做法,在斯坦福大學(xué)2023年的相關(guān)研究中已被證實(shí)能提升15%的空間關(guān)系判斷準(zhǔn)確率。
第二階段采用的路徑點(diǎn)生成機(jī)制頗具巧思。不同于直接輸出動(dòng)作指令,模型先在圖像空間生成任務(wù)中間目標(biāo),這種分步驗(yàn)證的策略使運(yùn)動(dòng)軌跡可視化程度提升40%。第三階段的運(yùn)動(dòng)學(xué)適配層則體現(xiàn)了工程化思維,通過解耦高層規(guī)劃與底層控制,理論上可適配不同構(gòu)型的機(jī)械臂。
性能表現(xiàn)的辯證分析
研究團(tuán)隊(duì)公布的測(cè)試數(shù)據(jù)確實(shí)亮眼:在SimperEnv新任務(wù)中72.1%的成功率,經(jīng)微調(diào)后在LIBERO平臺(tái)達(dá)到86.6%。但需注意,這些成績均來自模擬環(huán)境。MIT機(jī)器人實(shí)驗(yàn)室2024年報(bào)告顯示,當(dāng)前模擬到實(shí)物的性能衰減普遍在30-50%區(qū)間。MolmoAct在真實(shí)場(chǎng)景的表現(xiàn)仍有待驗(yàn)證。
訓(xùn)練效率方面,256顆H100的預(yù)訓(xùn)練配置雖低于行業(yè)平均水平,但對(duì)大多數(shù)研究機(jī)構(gòu)仍屬高門檻。值得關(guān)注的是其提出的"參數(shù)高效微調(diào)"方案,64顆GPU兩小時(shí)完成的微調(diào)周期,確實(shí)為快速迭代提供了可能。
開源生態(tài)的潛在影響
Ai2此次開源包含完整模型權(quán)重、訓(xùn)練代碼和可視化工具鏈,這種開放程度在機(jī)器人領(lǐng)域較為罕見。其提供的軌跡可視化調(diào)試接口,直接回應(yīng)了AI機(jī)器人"黑箱"問題的業(yè)界痛點(diǎn)。用戶手繪標(biāo)注即時(shí)響應(yīng)的設(shè)計(jì),更是將人機(jī)協(xié)作推向新維度。
但技術(shù)文檔顯示,當(dāng)前模型主要針對(duì)桌面級(jí)機(jī)械臂場(chǎng)景,在移動(dòng)機(jī)器人、多機(jī)協(xié)作等復(fù)雜場(chǎng)景的擴(kuò)展性尚未驗(yàn)證。東京大學(xué)機(jī)器人系教授中村仁的評(píng)論頗具代表性:"這是一個(gè)優(yōu)秀的基準(zhǔn)模型,但要支撐通用機(jī)器人開發(fā),仍需在動(dòng)態(tài)環(huán)境適應(yīng)方面突破。"
產(chǎn)業(yè)落地的現(xiàn)實(shí)考量
MolmoAct的出現(xiàn)正值機(jī)器人行業(yè)轉(zhuǎn)型期。傳統(tǒng)工業(yè)機(jī)器人強(qiáng)在精確控制卻弱在智能適應(yīng),而AI大模型又面臨計(jì)算成本高、安全性存疑的挑戰(zhàn)。這種背景下,MolmoAct的中間路線確實(shí)提供了新思路:既保持專業(yè)領(lǐng)域的可靠性,又具備一定泛化能力。
不過,其真正的產(chǎn)業(yè)價(jià)值將取決于三個(gè)關(guān)鍵因素:在非結(jié)構(gòu)化環(huán)境中的魯棒性表現(xiàn)、對(duì)多模態(tài)輸入的兼容程度,以及最終落地成本控制。這些都將決定它究竟是又一個(gè)實(shí)驗(yàn)室產(chǎn)物,還是能推動(dòng)服務(wù)機(jī)器人普及的關(guān)鍵技術(shù)。
結(jié)語
MolmoAct展現(xiàn)的技術(shù)思路值得肯定,其開源舉措更將加速行業(yè)創(chuàng)新。但機(jī)器人技術(shù)的復(fù)雜性決定了,任何突破都需要經(jīng)過真實(shí)世界的嚴(yán)苛檢驗(yàn)?;蛟S正如Ai2首席科學(xué)家Oren Etzioni所言:"這不是終極方案,而是通向通用機(jī)器人道路上的重要路標(biāo)。"對(duì)于從業(yè)者而言,既不必神化其能力,也不應(yīng)低估其啟發(fā)價(jià)值,理性驗(yàn)證、持續(xù)優(yōu)化才是技術(shù)發(fā)展的正途。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )