編者按:日前,啟明創(chuàng)投投資企業(yè)銀河通用宣布正式完成新一輪11億元融資。成立至今,銀河通用采用仿真合成動(dòng)作數(shù)據(jù)集做預(yù)訓(xùn)練,真實(shí)數(shù)據(jù)做后訓(xùn)練的技術(shù)范式,引領(lǐng)全球具身大模型技術(shù)快速迭代。在機(jī)器人的規(guī)?;瘧?yīng)用落地方面,銀河通用在智慧零售、工業(yè)和康養(yǎng)醫(yī)療等場(chǎng)景取得了顯著進(jìn)展。
北京大學(xué)助理教授、銀河通用創(chuàng)始人兼CTO王鶴在接受36氪采訪(fǎng)時(shí),介紹了公司的產(chǎn)品設(shè)計(jì)初衷——按照車(chē)規(guī)級(jí),甚至是高于車(chē)規(guī)級(jí)的標(biāo)準(zhǔn)去打造人形機(jī)器人產(chǎn)品;他分析了銀河通用能打磨出更優(yōu)質(zhì)、更泛化的模型的原因。王鶴也強(qiáng)調(diào),銀河通用重視用戶(hù)體驗(yàn),聚焦自身的優(yōu)勢(shì)領(lǐng)域,從需求的角度出發(fā),讓機(jī)器人真正滿(mǎn)足目前市場(chǎng)中存在的痛點(diǎn);公司希望人形機(jī)器人能從事發(fā)揮價(jià)值的工作,讓具身智能真正創(chuàng)造智能化的價(jià)值。展望未來(lái),他表示,銀河通用會(huì)不斷地推進(jìn)新的技能,保證在行業(yè)的一線(xiàn),致力于讓通用機(jī)器人服務(wù)千行百業(yè)、千家萬(wàn)戶(hù)。
啟明創(chuàng)投微信公眾號(hào)經(jīng)授權(quán)轉(zhuǎn)載,文章有編輯與刪減。
北京大學(xué)助理教授、銀河通用創(chuàng)始人兼CTO王鶴
“除了跳跳舞、翻翻跟頭,人形機(jī)器人還能干什么?”
北京大學(xué)助理教授、銀河通用創(chuàng)始人兼CTO王鶴可能是最有資格回答這個(gè)問(wèn)題的人。由他創(chuàng)立的銀河通用是中國(guó)具身智能領(lǐng)域的獨(dú)角獸,也是行業(yè)第一梯隊(duì)中最專(zhuān)注機(jī)器人“腦”的一家企業(yè)。
自2023年5月成立至今,銀河通用只發(fā)布過(guò)一款機(jī)器人本體產(chǎn)品Galbot(G1),卻發(fā)布了多款具身大模型。公司將大部分資源和資金投向了具身大模型研發(fā),致力于提升機(jī)器人的通用性和泛化性。
在王鶴博士看來(lái),人形機(jī)器人卷本體的結(jié)果是把機(jī)器人賣(mài)出鋼鐵原材料的價(jià)格,目前市場(chǎng)上已經(jīng)出現(xiàn)了價(jià)格戰(zhàn)的苗頭;只有具身智能模型能力的提升,才能賦予人形機(jī)器人更高的價(jià)值。
通用具身大模型是人類(lèi)前沿技術(shù)的“無(wú)人區(qū)”,背負(fù)這一宏大命題的王鶴,談起具身模型當(dāng)下的發(fā)展,卻是出人意料的“保守”和務(wù)實(shí):
“我特別不建議去講具身的AGI,很多公司都希望一步實(shí)現(xiàn)具身的AGI,這一點(diǎn)我不認(rèn)同?!?/span>
“具身智能模型還有很多不成熟的地方,距離什么活兒都能干可能需要五年到十年的時(shí)間?!?/span>
“大量的科研成果在過(guò)去這么長(zhǎng)的時(shí)間里一直有出現(xiàn),但可規(guī)?;a(chǎn)的產(chǎn)品卻一直沒(méi)有落地?!?/span>
當(dāng)下,不少?lài)?guó)內(nèi)具身智能模型廠(chǎng)商熱衷于“秀肌肉”:通過(guò)“疊衣服、刮胡子、拉拉鏈”等復(fù)雜操作的demo(樣片)來(lái)展示其模型的泛化能力;銀河通用則埋頭于攻克“不那么復(fù)雜”的移動(dòng)、抓取、放置技能,其對(duì)具身操作模型的命名也較為“樸實(shí)”——抓取基礎(chǔ)大模型GraspVLA。
王鶴對(duì)36氪直言,銀河通用也在研發(fā)用衣架掛衣服的技能,但這種復(fù)雜操作只是一種科研成果,距離落地和產(chǎn)品化還有很遠(yuǎn)的距離。
目前具身智能模型最接近場(chǎng)景落地的技能就是相對(duì)“簡(jiǎn)單”的“Mobile, Pick and Place(移動(dòng)、抓取、放置)”。銀河通用正致力于將“Mobile, Pick and Place”技能在藥店、零售等部分場(chǎng)景率先落地應(yīng)用。
據(jù)介紹,銀河通用聯(lián)合合作伙伴推出了全球首個(gè)人形機(jī)器人智慧零售解決方案,目前已經(jīng)在北京開(kāi)了近10家由機(jī)器人進(jìn)行24小時(shí)無(wú)人值守的藥店,銀河通用的人形機(jī)器人不間斷自動(dòng)精確揀藥,并交付給騎手。
銀河通用計(jì)劃今年在北京、上海、深圳等城市共開(kāi)100家無(wú)人值守零售店。目前這一應(yīng)用場(chǎng)景已經(jīng)實(shí)現(xiàn)了市場(chǎng)化,預(yù)計(jì)今年將為銀河通用帶來(lái)近億元人民幣的收入。
在前不久的智源大會(huì)開(kāi)幕式現(xiàn)場(chǎng),銀河通用機(jī)器人Galbot在主論壇舞臺(tái)進(jìn)行了現(xiàn)場(chǎng)直播真機(jī)演示。機(jī)器人在王鶴的語(yǔ)音指令下自主、精確地移動(dòng)到準(zhǔn)確位置并將飲料從貨架取出,實(shí)現(xiàn)了復(fù)雜貨架抓取與交付的全流程自主執(zhí)行,全程無(wú)遙操,無(wú)需場(chǎng)景數(shù)據(jù)預(yù)采集。
銀河通用在智源大會(huì)現(xiàn)場(chǎng)展示抓取和交付
王鶴坦言,具身智能進(jìn)入任何一個(gè)場(chǎng)景,都需要進(jìn)行一些數(shù)據(jù)上的準(zhǔn)備,才能打造百分百成功的產(chǎn)品。“Mobile, Pick and Place”技能還在持續(xù)更新中,銀河通用選擇從零售業(yè)的貨架場(chǎng)景做起,逐漸提升操作的泛化性。
在王鶴看來(lái),能把“Mobile, Pick and Place”這類(lèi)“簡(jiǎn)單”操作的泛化性問(wèn)題徹底解決,就已經(jīng)是整個(gè)人類(lèi)具身智能和機(jī)器人歷史上的重要里程碑。據(jù)他測(cè)算,這一技能的成熟可以打開(kāi)數(shù)千億元的新市場(chǎng),在零售、前置倉(cāng)、車(chē)廠(chǎng)SPS分揀等多個(gè)場(chǎng)景中幫助人類(lèi)完成繁重勞動(dòng)。
從泛化性的角度衡量,如果無(wú)所不能的人形機(jī)器人是100,掌握“Mobile, Pick and Place”技能的機(jī)器人是10,在零售業(yè)的貨架場(chǎng)景進(jìn)行“Mobile, Pick and Place”的落地僅僅是“1”。
當(dāng)下的銀河通用,已實(shí)現(xiàn)“從0到1”的突破,正向通用具身智能的終極目標(biāo)邁進(jìn)。
以下為36氪和王鶴的對(duì)話(huà)實(shí)錄。
01/
迎賓表演市場(chǎng)只是曇花一現(xiàn)
要訓(xùn)練機(jī)器人做高價(jià)值工作
36氪:公司現(xiàn)在員工規(guī)模有多大?
王鶴:我們現(xiàn)在百余人。
36氪:好像比同一梯隊(duì)的同行要少一些。
王鶴:現(xiàn)階段我們還是聚焦產(chǎn)研團(tuán)隊(duì)。銀河通用目前,推出了一款人形機(jī)器人產(chǎn)品Galbot G1,圍繞在工業(yè)、零售、服務(wù)業(yè)等場(chǎng)景的核心需求,主打技能是移動(dòng)、抓取、放置等。
我認(rèn)為這個(gè)技能可以在工業(yè)、商業(yè)、服務(wù)業(yè)等各種廣闊的場(chǎng)景里,構(gòu)建一個(gè)完整閉環(huán)的Skill Set(技能集),而不是去做很多發(fā)散的小技能,或者是多種多樣的全品類(lèi)的機(jī)器人產(chǎn)品,因?yàn)檫@樣會(huì)導(dǎo)致用人規(guī)模大很多。
36氪:銀河通用只做了一款本體,但發(fā)布了多款模型,是把更多資源傾斜在模型上嗎?
王鶴:其實(shí)公司里做“硬件”的成員反而比做“軟件”的更多,這個(gè)可能和外界的想象不一樣。外界可能認(rèn)為銀河通用只做一款產(chǎn)品,所以需要的硬件工程師不多。實(shí)際上我們和很多同行的機(jī)器人標(biāo)準(zhǔn)不一樣。
如果機(jī)器人只用作科研、硬件平臺(tái),以及秀5分鐘的demo,這種呈現(xiàn)形式對(duì)于產(chǎn)品的可靠性要求不高。這和一個(gè)真正能24小時(shí)工作的機(jī)器人在可靠性方面差距非常大,因?yàn)樗荒苈涞貞?yīng)用。
銀河通用的硬件圍繞著一款產(chǎn)品進(jìn)行了多輪次、密集的迭代升級(jí),這樣我們才能真正實(shí)現(xiàn)機(jī)器人在無(wú)人值守藥店場(chǎng)景里24小時(shí)工作。假如硬件出現(xiàn)問(wèn)題,需要工程師來(lái)現(xiàn)場(chǎng)修理,這樣成本會(huì)很高。所以我們產(chǎn)品的設(shè)計(jì)初衷,就是按照車(chē)規(guī)級(jí),甚至是高于車(chē)規(guī)級(jí)的標(biāo)準(zhǔn)去打造人形機(jī)器人產(chǎn)品。
36氪:從資金投入上呢?
王鶴:作為一家具身大模型公司,我們投入最大的還是模型的研發(fā)。但這塊不是靠堆人,因?yàn)闆](méi)有一家公司是靠堆模型訓(xùn)練的員工來(lái)把模型做好。而是要建立整個(gè)從數(shù)據(jù)的基建到模型訓(xùn)練、測(cè)試,一整套閉環(huán)的團(tuán)隊(duì)。這里面算力費(fèi)用占比很大。事實(shí)上,一些做模型的天才級(jí)人物,他們所在公司的人數(shù)都不多。
36氪:重視合成數(shù)據(jù)是銀河通用一個(gè)很鮮明的標(biāo)簽。不過(guò)很多同行也都說(shuō)自己會(huì)用仿真數(shù)據(jù),再結(jié)合一些互聯(lián)網(wǎng)視頻、真機(jī)數(shù)據(jù)等,大家的區(qū)別在哪里?
王鶴:不會(huì)的人用不好合成數(shù)據(jù),所以有人會(huì)說(shuō)什么仿真“有毒”等等。銀河通用能取得現(xiàn)在的成績(jī),合成數(shù)據(jù)在其中扮演了非常重要的角色,基于我們自主研發(fā)的合成數(shù)據(jù)技術(shù),我們的具身大模型的訓(xùn)練成本得以極大降低。同時(shí)我們也強(qiáng)調(diào)虛實(shí)融合,這讓我們的具身大模型能真正跑在全球的領(lǐng)先地位。這正說(shuō)明我們能真正用好合成數(shù)據(jù)。
比如互聯(lián)網(wǎng)視頻數(shù)據(jù)誰(shuí)都可以下載,比它有一點(diǎn)門(mén)檻的是遙操。我們目前在商超、零售環(huán)境部署的具身機(jī)器人用到了遙操的真實(shí)數(shù)據(jù),但它的比例遠(yuǎn)低于仿真合成數(shù)據(jù)。
合成數(shù)據(jù)的方式需要廠(chǎng)商有比較好的圖形學(xué)、物理仿真、物理渲染和自動(dòng)動(dòng)作合成管線(xiàn),包括驗(yàn)證閉環(huán)的一系列全套的基建,需要長(zhǎng)期的積累和核心技術(shù)know-how。這些積累,也是銀河通用為什么能把模型做得更好,而且更泛化的一個(gè)關(guān)鍵原因。
36氪:咱們機(jī)器人本體是輪式底盤(pán),可以理解銀河通用更加注重發(fā)展機(jī)器人的上肢操作能力嗎?
王鶴:要看是在哪一端側(cè)重,在產(chǎn)品端我們以落地的需求作為指引。
現(xiàn)在絕大多數(shù)客戶(hù)考慮到自身需求,比如在工廠(chǎng)和商超零售場(chǎng)景做一些移動(dòng)、抓取、放置工作,都是要求底盤(pán)式的。雙足機(jī)器人容易產(chǎn)生噪聲,且續(xù)航還短。而我們的輪式底盤(pán)的機(jī)器人6-8個(gè)小時(shí)才充一次電,相較雙足式有天然優(yōu)勢(shì)。
從研發(fā)的角度衡量,銀河通用是全棧布局整個(gè)具身智能,針對(duì)雙足人形機(jī)器人也有布局,但現(xiàn)階段它并不是在產(chǎn)品端可以真正廣泛應(yīng)用的產(chǎn)品。
36氪:迎賓、表演是今年新興起來(lái)的場(chǎng)景,同行們都在大力進(jìn)軍,銀河通用為什么沒(méi)搶占這個(gè)場(chǎng)景?
王鶴:我的看法是,現(xiàn)在這些炫酷的場(chǎng)景是曇花一現(xiàn)。市場(chǎng)最終不是靠一波流量來(lái)取勝的,真正能夠留存下來(lái)靠的是好的用戶(hù)體驗(yàn)。
銀河通用始終重視用戶(hù)體驗(yàn)。比如大堂的迎賓機(jī)器人有很多,但主要是做了一些不痛不癢的工作。我們?cè)谧龅氖谴螘r(shí)代的接待機(jī)器人產(chǎn)品,要讓客戶(hù)愿意用,可以真正協(xié)助人來(lái)工作。只要能做到這一點(diǎn),我相信廣闊的市場(chǎng)可以任你遨游。
所以我們并不是說(shuō)不做,而是已經(jīng)在布局,目前處于由很多點(diǎn)的技術(shù)形成線(xiàn),線(xiàn)形成面的一個(gè)過(guò)程中。
02/
“移動(dòng)、抓取、放置”的市場(chǎng)空間很大
但技術(shù)還未完全成熟
36氪:投資方在商業(yè)化方面給的壓力大嗎?
王鶴:投資人給了我們很大的支持,這些支持不僅在財(cái)務(wù)投資上,也在戰(zhàn)略協(xié)同資源上。目前,我們已經(jīng)有扎實(shí)的落地成果,公司今年應(yīng)該能有可觀(guān)的收入規(guī)模。
36氪:教育和科研市場(chǎng)呢,你們有沒(méi)有布局?
王鶴:我覺(jué)得還是大家對(duì)于優(yōu)先級(jí)的認(rèn)知不一樣。教育市場(chǎng)到底是一個(gè)有多大盈利潛力的市場(chǎng)?它的天花板是多少臺(tái)?實(shí)際上,已有非常多的雙足企業(yè)加入了對(duì)教育市場(chǎng)的角逐。銀河通用會(huì)聚焦于自己有優(yōu)勢(shì)的領(lǐng)域,從需求的角度出發(fā),讓機(jī)器人真正滿(mǎn)足目前市場(chǎng)中存在的痛點(diǎn)。
銀河通用關(guān)注的不是把人形機(jī)器人本體當(dāng)做鋼鐵原材料一樣賣(mài),因?yàn)槿诵螜C(jī)器人卷下去的后果是大家以后都趨向于按材料成本定價(jià)。我們期望的是人形機(jī)器人能從事發(fā)揮價(jià)值的工作,讓具身智能真正創(chuàng)造智能化的價(jià)值。
36氪:您看到現(xiàn)在市場(chǎng)上有這種價(jià)格戰(zhàn)的趨勢(shì)嗎?
王鶴:是的,現(xiàn)在是在瘋狂降價(jià),降到了小幾萬(wàn)元,未來(lái)可能有人報(bào)價(jià)更低。我們其實(shí)是樂(lè)見(jiàn)整個(gè)行業(yè)通過(guò)快速的硬件迭代,讓硬件成本快速下降的。供應(yīng)鏈的降本對(duì)于銀河通用也有利。
問(wèn)題在于這個(gè)售價(jià)的機(jī)器人到底能解決什么問(wèn)題。我們現(xiàn)在專(zhuān)注做的是高價(jià)值的事情,我們一臺(tái)機(jī)器人售價(jià)是大幾十萬(wàn)元,客戶(hù)仍然很愿意用,因?yàn)檫@顯著緩解了三班倒員工的用人成本壓力。這也是我們(預(yù)期)能夠?qū)崿F(xiàn)億級(jí)收入的原因。
36氪:你賣(mài)幾十萬(wàn)元,為什么客戶(hù)還能接受?
王鶴:我上面也提到過(guò),別家賣(mài)便宜的人形機(jī)器人,用戶(hù)對(duì)它的心理預(yù)期和我們做場(chǎng)景落地的機(jī)器人的心理預(yù)期是不一樣的。我們的產(chǎn)品成熟度和可靠性的要求是不一樣的。
銀河通用的機(jī)器人可以連續(xù)工作一個(gè)月不出一次差錯(cuò),這是我們的核心競(jìng)爭(zhēng)力優(yōu)勢(shì)。我把我們的機(jī)器人叫“場(chǎng)景落地機(jī)器人”,市面上用于科研和商場(chǎng)表演的那種,叫做“研發(fā)平臺(tái)型機(jī)器人”。
36氪:你提到銀河通用主打的技能就是圍繞著移動(dòng)、抓取、放置,但也有觀(guān)點(diǎn)認(rèn)為這類(lèi)“PPT操作”(即Pick抓取、Place放置和Transfer轉(zhuǎn)運(yùn))可以解決的實(shí)際問(wèn)題、適應(yīng)的應(yīng)用場(chǎng)景非常有限。
王鶴:首先我不認(rèn)可“PPT操作”的說(shuō)法。我更傾向于用“Mobile, Pick and Place”,這也是國(guó)際上大家認(rèn)知里更通用的表達(dá)。
現(xiàn)在在零售、倉(cāng)儲(chǔ)、車(chē)廠(chǎng)SPS分揀等場(chǎng)景中,我們看到的是大量的員工在做“移動(dòng)、抓取、放置”的工作。如果有人認(rèn)為這個(gè)市場(chǎng)可以開(kāi)發(fā)的空間不大,那可能是因?yàn)樗麄儧](méi)有真正了解市場(chǎng)需求。我看到的是一個(gè)數(shù)十萬(wàn)臺(tái)的潛在市場(chǎng),比現(xiàn)在全球工業(yè)機(jī)器人的總產(chǎn)值還要高。
36氪:這類(lèi)“移動(dòng)、抓取、放置”的機(jī)器人為什么還沒(méi)有廣泛落地應(yīng)用起來(lái)?
王鶴:“Mobile, Pick and Place”技能還遠(yuǎn)未成熟,即使是技術(shù)比較領(lǐng)先的谷歌DeepMind的RT機(jī)器人也做不到落地。像銀河通用在智源大會(huì)現(xiàn)場(chǎng)展示的智慧零售,讓機(jī)器人負(fù)責(zé)取貨、送貨、上架,目前我沒(méi)見(jiàn)其他廠(chǎng)商可以復(fù)現(xiàn),特別是勇于在現(xiàn)場(chǎng)直播演示。
36氪:很多廠(chǎng)商會(huì)炫一些機(jī)器人拉拉鏈、刮胡子和疊衣服等更復(fù)雜的操作,他們的投資方也將此視為比較高的技術(shù)成果。
王鶴:現(xiàn)在很多廠(chǎng)商在把不能落地的、不能產(chǎn)品化的一些科研亮點(diǎn),說(shuō)成是他們的產(chǎn)品。我們需要思考,疊衣服的機(jī)器人到底什么時(shí)候產(chǎn)品化?現(xiàn)階段它能達(dá)到效率要求、平整度要求和泛化性要求嗎?
因?yàn)橛羞@個(gè)科研成果,所以機(jī)器人產(chǎn)品就更好賣(mài),這個(gè)邏輯是不成立的。實(shí)際上,大量的科研成果在過(guò)去這么長(zhǎng)的時(shí)間里一直有出現(xiàn),但可規(guī)?;a(chǎn)的產(chǎn)品卻一直沒(méi)有落地。
我們其實(shí)也在研發(fā)新的技能,也會(huì)用衣架掛衣服。銀河通用的合成數(shù)據(jù)背后有上百萬(wàn)件的衣服的虛擬資產(chǎn)。但實(shí)話(huà)實(shí)說(shuō),疊衣服要做到實(shí)用、可落地的程度,誰(shuí)都還沒(méi)有做到。
36氪:銀河通用對(duì)外披露的落地場(chǎng)景,主要在藥店、工廠(chǎng)和零售場(chǎng)景,這些場(chǎng)景哪些是市場(chǎng)化的,哪些還處于POC(Proof of Concept,概念驗(yàn)證)階段?
王鶴:藥店和零售場(chǎng)景已經(jīng)是完全市場(chǎng)化了,我們的收入很大一部分來(lái)自這塊。
工廠(chǎng)場(chǎng)景還處于POC階段,因?yàn)楣S(chǎng)場(chǎng)景有些工作對(duì)于節(jié)拍、準(zhǔn)確度和可靠性要求是很高的。特別是在高精尖制造當(dāng)中,像新能源車(chē)的生產(chǎn)線(xiàn),停工哪怕一分鐘,都會(huì)帶來(lái)巨大的損失。包括特斯拉和Figure AI,大家都處在POC階段,都在打磨產(chǎn)品,讓它最終可以整合到新開(kāi)的產(chǎn)線(xiàn)當(dāng)中。
銀河通用率先在全球交付了很多行業(yè)標(biāo)桿性POC項(xiàng)目,比如某國(guó)際知名車(chē)企場(chǎng)景里的SPS分揀POC、奔馳的搬物料箱子和天窗轉(zhuǎn)運(yùn)的POC、極氪的搬運(yùn)POC。銀河通用的進(jìn)展是相當(dāng)快的。但這個(gè)場(chǎng)景真正轉(zhuǎn)化進(jìn)入產(chǎn)線(xiàn)還需要一定時(shí)間。
36氪:這些車(chē)企不是你們的投資方。
王鶴:對(duì),剛剛提到的幾家車(chē)企合作方都不是我們的投資方,汽車(chē)廠(chǎng)商本身有很強(qiáng)的自動(dòng)化的需求,所以和我們建立了戰(zhàn)略性的合作關(guān)系。
03/
具身智能行業(yè)相對(duì)“混亂”
真正愿意做實(shí)事的人少
36氪:你們發(fā)布過(guò)多個(gè)模型,除了具身抓取基礎(chǔ)大模型GraspVLA,其他模型有商業(yè)化嗎?比如剛發(fā)布的產(chǎn)品級(jí)端到端導(dǎo)航大模型TrackVLA。
王鶴:我們會(huì)把TrackVLA往C端的產(chǎn)品去打造。它能夠在場(chǎng)景里和人有很好的互動(dòng),包括做一些從工業(yè)巡檢到商超的跟隨搬運(yùn)等工作。我們現(xiàn)在也在和合作方、場(chǎng)景方一起去推動(dòng)TrackVLA模型的應(yīng)用。
我們的模型也可以跨不同的機(jī)器狗泛化。導(dǎo)航能力相較于操作能力更易于泛化到不同的本體上。
36氪:業(yè)內(nèi)一些企業(yè)都和Physical Intelligence(PI)合作了,用上頭部的模型是不是可以更快商業(yè)化?
王鶴:我不了解他們和PI合作的具體細(xì)節(jié)。我了解到PI在廣泛地收集各個(gè)廠(chǎng)家的真機(jī)數(shù)據(jù)。從數(shù)據(jù)的角度,我不認(rèn)同PI的做法。跨本體的、大量的、不同的機(jī)器人數(shù)據(jù),對(duì)于機(jī)器人的訓(xùn)練來(lái)說(shuō)是低質(zhì)數(shù)據(jù)。
36氪:現(xiàn)在全球第一梯隊(duì)的具身智能模型能力,如果類(lèi)比AI大模型,處于哪個(gè)階段?
王鶴:這很難去類(lèi)比,具身智能模型涉及的維度更高。
例如在自動(dòng)駕駛領(lǐng)域,大家會(huì)講L1-L5,自動(dòng)駕駛是圍繞著開(kāi)車(chē)這一件事,而具身智能涵蓋了非常多的事,你可以做好“Mobile, Pick and Place”,但不一定能抱小孩、扶老人起床。
在具身智能的每一款產(chǎn)品上都有L1到L5的不同層級(jí)。我們的期望是,具身智能產(chǎn)品能夠被稱(chēng)作產(chǎn)品時(shí),至少應(yīng)該達(dá)到L4的水平,即具備自主性,而非僅僅是輔助。
相較于大型語(yǔ)言模型,我認(rèn)為通用具身智能的實(shí)現(xiàn)是一個(gè)長(zhǎng)期的技術(shù)進(jìn)步的過(guò)程,而非短暫的智能爆發(fā)。
36氪:所以具身智能模型的“ChatGPT時(shí)刻”還有較遠(yuǎn)的距離。
王鶴:是的。ChatGPT展現(xiàn)了通用問(wèn)答的能力,而具身智能模型想要什么活兒都能做,從硬件和傳感器到數(shù)據(jù)采集還有很多事情要做,還有很多不成熟的地方,它可能需要五年到十年的時(shí)間。
我們?nèi)祟?lèi)干活的時(shí)候,實(shí)際上除了視覺(jué)、語(yǔ)言、動(dòng)作(即Vision-Language-Action),還有聽(tīng)覺(jué)、嗅覺(jué)、味覺(jué)、觸覺(jué)以及對(duì)溫度的感知,在不同的任務(wù)中都有不同程度的使用。所以VLA模型只是一個(gè)起點(diǎn),如果想達(dá)到人類(lèi)級(jí)別的具身智能,那還需要不斷融入新模態(tài)。
那VLA現(xiàn)在能干什么呢?我覺(jué)得是把“Mobile, Pick and Place”先做得非常泛化,在一個(gè)可批量復(fù)制的場(chǎng)景里做好,比如所有零售店、所有工廠(chǎng)的分揀線(xiàn)。如果這個(gè)能達(dá)到,這會(huì)是整個(gè)人類(lèi)具身智能和機(jī)器人歷史上的一個(gè)里程碑。它的意義不亞于我們今天機(jī)器人實(shí)現(xiàn)了“黑燈工廠(chǎng)”。
36氪:業(yè)內(nèi)同行都在往這個(gè)里程碑的方向走嗎?還是在追求一些別的技術(shù)突破。
王鶴:我覺(jué)得行業(yè)里真正愿意做實(shí)事的人少,愿意賣(mài)硬件、賣(mài)平臺(tái)的人多。把東西賣(mài)給用戶(hù)后,就不需要對(duì)功能負(fù)責(zé)了,這種廠(chǎng)商多。真正愿意去做模型的廠(chǎng)商里,做學(xué)術(shù)研究的人多,真正做能落地的模型產(chǎn)品的人少。這兩個(gè)“少”都導(dǎo)致了具身智能行業(yè)相對(duì)“混亂”的局面。
36氪:“Mobile, Pick and Place”要在服務(wù)業(yè),諸如藥店、便利店落地,還有哪些待改進(jìn)的地方嗎?
王鶴:具身智能進(jìn)入任何一個(gè)場(chǎng)景,都需要進(jìn)行一些數(shù)據(jù)上的準(zhǔn)備。不管是合成數(shù)據(jù),還是真機(jī)數(shù)據(jù)的小規(guī)模采集,甚至不排除做場(chǎng)景中的強(qiáng)化學(xué)習(xí),才能打造成一個(gè)百分百成功的產(chǎn)品。
我們目前追求的并不是所有的“Mobile, Pick and Place”都做,而是先圍繞著貨架,甚至是超市的貨架,先保證它很好地泛化,最后才是我們?nèi)粘-h(huán)境中各種地方放的東西。所以這條路沒(méi)有大家想得那么簡(jiǎn)單。
36氪:在“Mobile, Pick and Place”之外,銀河通用的下一個(gè)里程碑時(shí)刻會(huì)是什么操作,做了哪些技術(shù)的儲(chǔ)備?
王鶴:銀河通用有數(shù)位業(yè)界頂尖學(xué)者,大家在一起推動(dòng)科研創(chuàng)新的進(jìn)程。從研究上講,我們會(huì)不斷地推進(jìn)新的技能,包括足式機(jī)器人,靈巧手的研究——這也是我獲過(guò)多次Best Paper殊榮的領(lǐng)域,是更加終極的末端、本體上的技能的學(xué)習(xí)。
對(duì)于研發(fā),我們的戰(zhàn)略就是引領(lǐng),并且永遠(yuǎn)保證在一線(xiàn)。銀河通用的使命是讓通用機(jī)器人服務(wù)千行百業(yè)、千家萬(wàn)戶(hù)。
來(lái)源 | 36氪
作者 | 王方玉
編輯 | 蘇建勛