
不久前,英偉達(dá)成立通用具身智能體研究實(shí)驗(yàn)室(GEAR)的消息曝光,將機(jī)器人再度推上了風(fēng)口。
過(guò)去一年,AI 大模型浪潮中,以大模型+機(jī)器人的路徑,為人與機(jī)器共存提供新的交互模式。甚至有觀(guān)點(diǎn)認(rèn)為,機(jī)器人大腦的進(jìn)化速度,主要取決于大模型的發(fā)展速度。
市場(chǎng)對(duì)機(jī)器人的火熱反映到實(shí)際的資本環(huán)境上,是動(dòng)輒數(shù)億、乃至數(shù)十億的融資項(xiàng)目、相關(guān)零部件規(guī)模陡然增長(zhǎng)、以及下游概念股也乘風(fēng)而起……具身智能,成為機(jī)器人落地故事里備受矚目的關(guān)鍵詞。
但進(jìn)入實(shí)際的落地中,機(jī)器人只能完成一些定制化任務(wù),缺乏對(duì)復(fù)雜場(chǎng)景認(rèn)知能力,應(yīng)用局限;而另一邊,機(jī)器按照已設(shè)定算法運(yùn)行,也難以產(chǎn)生更大智能,思考能力和決策能力無(wú)法得到提升。
如何讓具身智能機(jī)器人在與人、環(huán)境的不斷交互中繼續(xù)學(xué)習(xí),成為了一個(gè)關(guān)鍵命題。

開(kāi)放場(chǎng)景下的機(jī)器人難題
長(zhǎng)久以來(lái),AI和機(jī)器人領(lǐng)域都存在著一個(gè)經(jīng)典悖論——莫拉維克悖論提出,和傳統(tǒng)假設(shè)不同,計(jì)算機(jī)要實(shí)現(xiàn)例如推理等人類(lèi)所具備的高階智慧、僅需少量的計(jì)算能力,而若要直覺(jué)、感知等能力,卻需要巨大的運(yùn)算能力。
簡(jiǎn)單來(lái)說(shuō),電腦可以在和人類(lèi)圍棋對(duì)弈中輕松取勝,但如果讓機(jī)器人為你取出冰箱里的可樂(lè),卻并不簡(jiǎn)單。
這一過(guò)程包括了幾個(gè)必要步驟。首先,機(jī)器人需要聽(tīng)懂人發(fā)出的指令,將任務(wù)進(jìn)行拆解;第二步是做出決策,確定目標(biāo)定位并規(guī)劃行進(jìn)路線(xiàn);第三步到達(dá)目的地后,面對(duì)冰箱里各式物品,機(jī)器人既要能識(shí)別出“可樂(lè)”、還要能控制機(jī)械臂完成揀取動(dòng)作;最后再將物品交到指定地點(diǎn)。
過(guò)去,上述行動(dòng)可以預(yù)先設(shè)定,但由于技術(shù)不成熟,機(jī)器人只能提供case by case服務(wù);即它只學(xué)會(huì)了取“可樂(lè)”,一旦物品換成“雪碧”,則需要工程師重新設(shè)定一套流程。
當(dāng)機(jī)器人邁進(jìn)真實(shí)場(chǎng)景里,往往面臨著泛化能力弱、交付難度高的兩大痛點(diǎn)。
雅可比機(jī)器人CEO邱迪聰在與硬氪交談中,將機(jī)器人應(yīng)用場(chǎng)景劃分為封閉式和開(kāi)放場(chǎng)景。
其中,封閉式場(chǎng)景指采用經(jīng)典的定制化模式。預(yù)設(shè)機(jī)器人的任務(wù)執(zhí)行邊界,用戶(hù)下發(fā)指令后,先收集現(xiàn)有數(shù)據(jù)進(jìn)行訓(xùn)練,在限定范圍內(nèi)窮舉出所有任務(wù)可能性,盡可能覆蓋更多的解決路徑。
例如工業(yè)場(chǎng)景的運(yùn)輸機(jī)器人,工程師會(huì)針對(duì)特定園區(qū)提前設(shè)置運(yùn)輸線(xiàn)路,機(jī)器人只需在固定路徑上完成配送任務(wù),靈活性低;即使存在多條路線(xiàn),這些路徑亦經(jīng)過(guò)編排和規(guī)劃,機(jī)器一旦脫離該地圖所設(shè)定的任務(wù),便無(wú)法運(yùn)轉(zhuǎn)。因此面對(duì)新任務(wù),機(jī)器人需要再次收集數(shù)據(jù)訓(xùn)練、設(shè)定方案和測(cè)試,從而導(dǎo)致了極大的資源和人力損耗。
開(kāi)放場(chǎng)景則是指不受強(qiáng)封閉式規(guī)范和范圍限制的長(zhǎng)尾問(wèn)題,如商超服務(wù)、居家養(yǎng)老等。當(dāng)機(jī)器人與人、環(huán)境進(jìn)行大量的交互,數(shù)據(jù)集或存在少樣本、甚至零樣本的突發(fā)情況,這對(duì)機(jī)器人理解、處理多種任務(wù)的泛化能力要求極高。
比如自動(dòng)分揀,目前機(jī)器人可完成物流分揀、倉(cāng)庫(kù)分揀,但商超分揀卻遲遲未能實(shí)現(xiàn)。其主要原因就在于,倉(cāng)庫(kù)物流中心的貨物可以標(biāo)準(zhǔn)化,按外形、大小分類(lèi),同時(shí)貨品密封性強(qiáng),有更多冗余。相比之下,商超里品類(lèi)繁多,同樣是1.5L白瓶包裝,它可能是牛奶、酸奶或是椰汁;再加上品類(lèi)特性不同,比如雞蛋和紙巾的抗摔程度大相徑庭,這也對(duì)分揀機(jī)器人提出了極高的要求,從視覺(jué)到力控,都必須做的很精準(zhǔn)。
在邱迪聰?shù)脑O(shè)想中,機(jī)器人不應(yīng)只是指令的執(zhí)行者,還要具備舉一反三的學(xué)習(xí)能力?!敖裉鞕C(jī)器人在清掃、巡檢等任務(wù)中可以做得很好,但想要真正走進(jìn)人們?nèi)粘I?,離不開(kāi)它的感知、決策、執(zhí)行能力。”
而2023年國(guó)內(nèi)大模型的爆發(fā)式增長(zhǎng),令邱迪聰看到了AI+機(jī)器人的新機(jī)會(huì)。邱迪聰畢業(yè)于美國(guó)卡內(nèi)基梅隆(CMU)大學(xué)機(jī)器人學(xué)院,曾參與NASA火星車(chē)研發(fā)、L4級(jí)自動(dòng)駕駛等項(xiàng)目,有超過(guò)8年AI與機(jī)器人跨領(lǐng)域研究和落地經(jīng)驗(yàn)。
隨著技術(shù)改進(jìn)和成本下降,掃地機(jī)器人、工業(yè)手臂等任務(wù)型機(jī)器人滲透率顯著提高。但要提高機(jī)器人智能水平,需要更先進(jìn)的算法和數(shù)據(jù)支撐。
自然語(yǔ)言的數(shù)據(jù)是離線(xiàn)的,屬于方法論上的學(xué)習(xí);而機(jī)器人決策離不開(kāi)很多高質(zhì)量數(shù)據(jù),其中多數(shù)來(lái)自于開(kāi)放場(chǎng)景中遇到的突發(fā)性狀況。由此,從單一的封閉式場(chǎng)景任務(wù)向開(kāi)放場(chǎng)景延展,成為機(jī)器人從業(yè)者魚(yú)貫而入的一條路徑。
去年4月,邱迪聰和團(tuán)隊(duì)成立了雅可比機(jī)器人,聚焦具身智能商超服務(wù)機(jī)器人,通過(guò)人類(lèi)語(yǔ)音指令的控制,即可讓機(jī)器人在商超場(chǎng)景下實(shí)現(xiàn)多任務(wù)執(zhí)行能力,包括自主巡檢、自動(dòng)補(bǔ)貨、貨品分揀等。4個(gè)月后,雅可比機(jī)器人完成天種子輪融資,投資者包括AI大牛、奇績(jī)創(chuàng)壇創(chuàng)始人陸奇。
一邊是開(kāi)放場(chǎng)景對(duì)機(jī)器人提出的極高要求,包括開(kāi)放詞匯的感知能力、非機(jī)器學(xué)習(xí)方法的任務(wù)規(guī)劃、高頻任務(wù)執(zhí)行的閉環(huán)能力等;另一邊,大模型的語(yǔ)義理解、抽象規(guī)劃和推理等能力被印證,可以處理許多復(fù)雜任務(wù),這為機(jī)器人在長(zhǎng)尾場(chǎng)景中應(yīng)用提供了一個(gè)可行性的通路。

給機(jī)器人裝上「大腦+小腦」
諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)得主 Daniel Kahneman 曾在《Thinking Fast And Slow》一書(shū)中提出,人類(lèi)的兩種思考模式,第一種是以直覺(jué)判斷為主的“快思考”,第二種是“慢思考”,需要進(jìn)行大量的推理和計(jì)算。
大模型與過(guò)去 AI 技術(shù)不同點(diǎn)就在于,它采用了“慢思考”模式,令機(jī)器人可以在與人類(lèi)的交互中不斷學(xué)習(xí),獲得更好解決任務(wù)、解決更多任務(wù)的能力。但也正因如此,關(guān)注AI、機(jī)器人賽道的投資人郭旭告訴硬氪,絕大部分落地或完整的機(jī)器人產(chǎn)品和項(xiàng)目,普遍希望“一招通吃”,例如大模型的能力很強(qiáng),就想直接做一個(gè)端到端的巨型通用模型來(lái)解決所有問(wèn)題。
對(duì)此邱迪聰指出,“從實(shí)際ROI投入產(chǎn)出比的角度來(lái)說(shuō),可能不一定劃算、或者說(shuō)不一定適合當(dāng)前這個(gè)階段。”
開(kāi)放場(chǎng)景用戶(hù)的需求復(fù)雜,大模型的訓(xùn)練和推理費(fèi)用高昂。據(jù)海外《The Economics of Large Language Models》研究測(cè)算,每個(gè)token(1000 token約為750個(gè)單詞)的訓(xùn)練成本通常約為6N(N為參數(shù)的計(jì)量單位),推理成本約2N。即推理成本相當(dāng)于訓(xùn)練成本的三分之一。一旦模型上線(xiàn)使用,其推理成本可能遠(yuǎn)超訓(xùn)練成本。
因此,大模型應(yīng)用于機(jī)器人的部署成本也很高。最終帶來(lái)的結(jié)果是,其市場(chǎng)價(jià)格并非普通中小型企業(yè)能消費(fèi)得起的,市場(chǎng)規(guī)模和普及程度有限。
要平衡這種尷尬局面,類(lèi)人腦機(jī)器人不失為一個(gè)重要的探索方向。即讓機(jī)器人模仿人腦的運(yùn)轉(zhuǎn)分工,通過(guò)“大腦+小腦”兩個(gè)結(jié)構(gòu)互補(bǔ),大腦負(fù)責(zé)視覺(jué)、聽(tīng)覺(jué)和意識(shí)等高層次的感知和決策功能,小腦則負(fù)責(zé)協(xié)同數(shù)據(jù)來(lái)控制運(yùn)動(dòng)、平衡和行為姿態(tài)。
以邱迪聰和團(tuán)隊(duì)提出的“通用機(jī)器人大腦”為例,通用機(jī)器人大腦由“大腦”J-Mind和“小腦”J-Box構(gòu)成,J-Mind負(fù)責(zé)理解任務(wù)、下發(fā)指令,并交由J-Box來(lái)執(zhí)行。
首先在感知層,結(jié)合了LLM+VLM(大型視覺(jué) – 語(yǔ)言模型)的技術(shù)路線(xiàn)可以就指令、結(jié)合物理環(huán)境進(jìn)行理解,提高機(jī)器人對(duì)開(kāi)放場(chǎng)景的認(rèn)知能力,即不僅能“看到”場(chǎng)景中的各種物品, 還能“看懂”用戶(hù)的需求。比如機(jī)器人原先只認(rèn)識(shí)可樂(lè),但在看到雪碧、橙汁等新物品時(shí),可以通過(guò)其外形與可樂(lè)相似、“推斷”出它們也是罐裝飲料,并讀取包裝信息,從而認(rèn)知到新物品。

雅可比機(jī)器人工作中
邱迪聰告訴硬氪,雅可比機(jī)器人之所以選擇商超作為自身產(chǎn)品的首個(gè)應(yīng)用場(chǎng)景,正是因?yàn)樯坛娜藛T聚集效應(yīng),有大量反復(fù)的物品信息和交互產(chǎn)生,可以為機(jī)器人自我學(xué)習(xí)提供數(shù)據(jù)支撐。也即是說(shuō),機(jī)器人是從真實(shí)場(chǎng)景中收集數(shù)據(jù)實(shí)時(shí)學(xué)習(xí),而非在已有的數(shù)據(jù)庫(kù)找答案。
在決策層,機(jī)器人通過(guò)J-Mind可以將用戶(hù)需求轉(zhuǎn)化具體的指令和子步驟,形成任務(wù)分配輸出與決策動(dòng)態(tài)閉環(huán),下發(fā)執(zhí)行任務(wù)給到J-Box。隨后,再由J-Box來(lái)驅(qū)動(dòng)機(jī)器人完成操控、抓取、放下等動(dòng)作。

機(jī)器人正在進(jìn)行「抓取、放下」
例如,當(dāng)商超貨架缺貨時(shí),店員只需以口頭或文字輸入的形式,提出“貨架上可樂(lè)缺貨、需補(bǔ)貨”的指令,雅可比機(jī)器人可自動(dòng)移動(dòng)到所需補(bǔ)貨的貨架前,識(shí)別貨架陳列狀態(tài)。當(dāng)J-Mind在多類(lèi)物品識(shí)別到可樂(lè)后,可將補(bǔ)貨指令拆解為子步驟,由J-Box來(lái)抓取可樂(lè)、并把可樂(lè)放置到貨架的空缺位置中。
這種“大腦+小腦”路線(xiàn)在通用機(jī)器人大腦的基礎(chǔ)框架上,集成了很多經(jīng)典的主流機(jī)器人算法,無(wú)需部署工程師,開(kāi)箱即可使用;同時(shí)還支持人工調(diào)度和機(jī)器人自動(dòng)化協(xié)助,靈活性更高,由機(jī)器人大腦來(lái)判斷任務(wù)是否需要調(diào)用大模型、亦或是用算法就能解決的,進(jìn)而降低服務(wù)成本。

商業(yè)化困局:迭代周期長(zhǎng)、高成本
公開(kāi)數(shù)據(jù)顯示,2017年至2021年五年間,全球智能服務(wù)機(jī)器人從原本未達(dá)百億的市場(chǎng)增長(zhǎng)至200億美元,預(yù)計(jì)到2026年將超過(guò)600億美元。
其中,中國(guó)智能專(zhuān)業(yè)服務(wù)機(jī)器人市場(chǎng)也從2021年的百億元、預(yù)計(jì)到2026年可邁向千億規(guī)模,增速較快。
可以看到,相比于商場(chǎng)里只能移動(dòng)或展示廣告的傳統(tǒng)機(jī)器人,大模型的出現(xiàn)讓人們看到了具身智能的希望,以雅可比為代表的商超機(jī)器人已經(jīng)實(shí)現(xiàn)了一個(gè)臺(tái)階的提升。
不過(guò),其痛點(diǎn)也依舊存在。在技術(shù)層面,大模型增強(qiáng)了機(jī)器人的理解能力,但機(jī)器人本身是一個(gè)復(fù)雜的跨學(xué)科系統(tǒng),涉及仿生學(xué)設(shè)計(jì)、AI應(yīng)用、動(dòng)力學(xué)建模、能量管理等等,要實(shí)現(xiàn)從理解、決策到控制運(yùn)動(dòng)、執(zhí)行任務(wù),還需要匹配各種算法和軟件。AI技術(shù)升級(jí)迭代不是線(xiàn)性發(fā)展的,周期長(zhǎng)、投入高,存在長(zhǎng)期無(wú)法突破關(guān)鍵技術(shù)的風(fēng)險(xiǎn)。
硬件方面,機(jī)器人的征集結(jié)構(gòu)復(fù)雜,核心零部件決定了其精度、穩(wěn)定性、負(fù)荷能力等重要性能指標(biāo),其中技術(shù)難度最高分別是減速器、伺服系統(tǒng)和控制器,占成本的70%。加上傳感器等其他零部件,這些都會(huì)增加機(jī)器人的制造和后期維護(hù)的成本
。邱迪聰就告訴硬氪,商超場(chǎng)景客戶(hù)對(duì)ROI十分關(guān)注。為此,雅可比機(jī)器人已找到核心零部件的供應(yīng)渠道,“這種方式的成本控制空間較高,核算下來(lái)符合預(yù)期?!?/p>
此外,機(jī)器人在產(chǎn)品化過(guò)程中,基于開(kāi)放場(chǎng)景的融合打磨和迭代,也需要時(shí)間來(lái)產(chǎn)生和驗(yàn)證價(jià)值。
某機(jī)器人廠(chǎng)商的市場(chǎng)負(fù)責(zé)人向硬氪表示,“下游買(mǎi)家一定是需要拓展和教育的,很難實(shí)現(xiàn)一上市就得以被接受和認(rèn)可。解決方法一是產(chǎn)品持續(xù)迭代,二是要與客戶(hù)保持緊密溝通,這是一個(gè)共同打磨產(chǎn)品、共同打磨場(chǎng)景的過(guò)程,通過(guò)這種共創(chuàng)的形式,發(fā)掘更多產(chǎn)品價(jià)值。”
例如除商超場(chǎng)景外,雅可比機(jī)器人也在探索餐飲服務(wù)、辦公室、家用等環(huán)境。機(jī)器人作為餐廳服務(wù)員可以完成點(diǎn)菜、上菜等任務(wù);作為公司前臺(tái)可以引導(dǎo)訪(fǎng)客,并完成材料分發(fā)、倒水等任務(wù);作為家庭助手,協(xié)助整理衣物、擦洗家具等。

機(jī)器人餐飲服務(wù)工作流程
“我們最終的目標(biāo)是,從商超場(chǎng)景出發(fā),將機(jī)器人所學(xué)遷移至更多場(chǎng)景中,進(jìn)入到日常的家庭生活,真正實(shí)現(xiàn)多個(gè)任務(wù)的自動(dòng)化閉環(huán)。”邱迪聰說(shuō)到。
無(wú)法否認(rèn),目前市場(chǎng)上的機(jī)器人整體還處于一種“玩具”的階段,遠(yuǎn)沒(méi)有達(dá)到大規(guī)模產(chǎn)業(yè)化的地步。但可以期待的是,通過(guò)機(jī)器人和大模型的融合方法,有“大腦+小腦”的仿真演化,有大模型與經(jīng)典算法的自動(dòng)化協(xié)同,有規(guī)則和模型的相互轉(zhuǎn)化,一個(gè)更復(fù)雜的、可以不斷自我成長(zhǎng)的機(jī)器人智能體或許已經(jīng)不遠(yuǎn)了。
原標(biāo)題:當(dāng)AI大模型卷向服務(wù)機(jī)器人,會(huì)有哪些新故事?
來(lái)源:tk0123小助手奧豆

加入賣(mài)家交流群
快速對(duì)接各種平臺(tái)優(yōu)質(zhì)資源

標(biāo)簽:跨境電商海外倉(cāng)調(diào)研巴西到西班牙要飛多少小時(shí)物流寄往西班牙港通國(guó)際物流公共海外倉(cāng)中國(guó)空運(yùn)智利費(fèi)用法蘭克??爝f海運(yùn)出口報(bào)關(guān)清關(guān)中國(guó)寄馬來(lái)西亞多少錢(qián)到泰國(guó)貨運(yùn)物流