這場(chǎng)關(guān)于數(shù)據(jù)的攻堅(jiān)戰(zhàn),才剛剛拉開(kāi)序幕。作為連接數(shù)字智能與物理世界的橋梁,具身智能數(shù)據(jù)正成為這場(chǎng)產(chǎn)業(yè)變革的“新石油”。

“數(shù)據(jù)”將是最后一道壁壘?
如果說(shuō)大語(yǔ)言模型(LLM)的成功依賴于互聯(lián)網(wǎng)海量文本數(shù)據(jù)的“涌現(xiàn)”,那么具身智能的進(jìn)化則依賴于高質(zhì)量的真實(shí)物理交互數(shù)據(jù)。具身智能數(shù)據(jù),并非簡(jiǎn)單的圖像或文本,它是機(jī)器人在與物理環(huán)境交互過(guò)程中產(chǎn)生的多模態(tài)、時(shí)空對(duì)齊的復(fù)雜信息集合,涵蓋了視覺(jué)、動(dòng)作、力/觸覺(jué)、環(huán)境以及交互等多個(gè)維度。這些數(shù)據(jù)共同構(gòu)成了智能體學(xué)習(xí)在真實(shí)世界中感知、決策與執(zhí)行的基礎(chǔ)。
上海交通大學(xué)助理教授穆堯指出,從目前趨勢(shì)看,數(shù)據(jù)是重要的,其中高質(zhì)量數(shù)據(jù)是最重要的。他指出,硬件發(fā)展已到一定高度,但機(jī)器人手部操作的成熟度遠(yuǎn)低于人類,模型架構(gòu)也基本夠用,因此“優(yōu)質(zhì)數(shù)據(jù)”是解決問(wèn)題的重要因素。
行業(yè)人士深知,機(jī)器人本體質(zhì)量雖在提升,但“泛化性不足”導(dǎo)致機(jī)器人進(jìn)入千行百業(yè)總還有“最后一公里”距離。讓模型理解物理規(guī)律、掌握靈巧操作本領(lǐng),海量且真實(shí)的帶物理模態(tài)的數(shù)據(jù)是唯一解藥。IDC中國(guó)研究經(jīng)理李君蘭表示,當(dāng)前具身智能機(jī)器人正處于技術(shù)高度復(fù)雜且潛力巨大的交匯點(diǎn)。虛實(shí)融合數(shù)據(jù)體系成為持續(xù)進(jìn)化的核心基礎(chǔ),仿真合成數(shù)據(jù)成為規(guī)�;�(xùn)練主體,視頻學(xué)習(xí)正在成為潛在擴(kuò)展路徑,遙操作實(shí)采數(shù)據(jù)作為高質(zhì)量補(bǔ)充,通過(guò)閉環(huán)訓(xùn)練、仿真微調(diào)與在線反饋,支撐機(jī)器人在低成本條件下實(shí)現(xiàn)能力擴(kuò)展與持續(xù)進(jìn)化。
在這場(chǎng)關(guān)乎行業(yè)未來(lái)主動(dòng)權(quán)的競(jìng)賽中,誰(shuí)掌握了數(shù)據(jù),誰(shuí)就掌握了行業(yè)定義權(quán)。今年以來(lái),產(chǎn)業(yè)界對(duì)此的響應(yīng)速度空前。
3月16日,京東集團(tuán)宣布,依托其超級(jí)供應(yīng)鏈和海量真實(shí)業(yè)務(wù)場(chǎng)景,將建成全球規(guī)模最大、場(chǎng)景最全的具身智能數(shù)據(jù)采集中心,并在未來(lái)兩年內(nèi)積累超1000萬(wàn)小時(shí)優(yōu)質(zhì)數(shù)據(jù)。據(jù)悉,京東將開(kāi)放這些數(shù)據(jù),助力具身智能產(chǎn)業(yè)從算法仿真邁向真實(shí)數(shù)據(jù)驅(qū)動(dòng)的新階段。
接著,帕西尼感知科技繼去年建成全球最大的天津數(shù)據(jù)工廠后,再次宣布在江蘇宿遷、湖北武漢、四川自貢、江西贛州新建4座超級(jí)數(shù)據(jù)采集工廠,形成覆蓋全國(guó)五大區(qū)域的具身智能數(shù)據(jù)集群,目標(biāo)是以“百億級(jí)”實(shí)采數(shù)據(jù)為產(chǎn)業(yè)筑牢高質(zhì)量底座。帕西尼創(chuàng)始人、CEO許晉誠(chéng)表示:“高質(zhì)量多模態(tài)數(shù)據(jù)的稀缺是制約智能進(jìn)化的瓶頸,目前行業(yè)數(shù)據(jù)儲(chǔ)備與實(shí)際訓(xùn)練需求之間存在指數(shù)級(jí)差距。”
3月27日,宇樹(shù)科技開(kāi)源了面向全球開(kāi)放的高質(zhì)量全身遙操作真機(jī)數(shù)據(jù)集UnifoLM-WBT-Dataset,旨在構(gòu)建場(chǎng)景覆蓋“最廣”、任務(wù)復(fù)雜度“最高”、操作多樣性“最豐富”的人形機(jī)器人真機(jī)數(shù)據(jù)體系。此外,北京人形機(jī)器人創(chuàng)新中心的數(shù)據(jù)基地也已成為國(guó)內(nèi)數(shù)據(jù)采集的重要力量。據(jù)悉,該基地已牽頭制定國(guó)內(nèi)首個(gè)具身智能數(shù)據(jù)集行業(yè)標(biāo)準(zhǔn)《人工智能具身智能數(shù)據(jù)采集規(guī)范》,對(duì)外市場(chǎng)化交付超數(shù)萬(wàn)小時(shí)高質(zhì)量實(shí)采數(shù)據(jù),整體數(shù)據(jù)合格率穩(wěn)定在95%以上,有望迎來(lái)全球首個(gè)采集完成百萬(wàn)小時(shí)高質(zhì)量具身智能機(jī)器人數(shù)據(jù)的里程碑。
密集的行業(yè)動(dòng)作表明,2026年,已然成為具身智能數(shù)據(jù)規(guī)模化生產(chǎn)與應(yīng)用的“元年”。
數(shù)據(jù)之困,瓶頸在哪?
盡管行業(yè)熱情高漲,但具身智能數(shù)據(jù)的工程化落地之路并非坦途,在業(yè)內(nèi)專家看來(lái),當(dāng)前行業(yè)面臨以下幾大核心挑戰(zhàn)。
首先,數(shù)據(jù)孤島與“方言”問(wèn)題嚴(yán)重。不同構(gòu)型的機(jī)器人本體,其傳感器布局、關(guān)節(jié)自由度、控制接口各不相同,導(dǎo)致采集的數(shù)據(jù)天然帶有“機(jī)器人形態(tài)烙印”,難以跨本體遷移和復(fù)用。這直接構(gòu)成了數(shù)據(jù)共享與復(fù)用的巨大障礙。
北京人形機(jī)器人創(chuàng)新中心數(shù)據(jù)基地負(fù)責(zé)人蔣未來(lái)指出:“數(shù)據(jù)異構(gòu)形成數(shù)據(jù)孤島是行業(yè)大問(wèn)題,需要積累到大語(yǔ)言模型內(nèi)置級(jí)別涌現(xiàn)智能的數(shù)據(jù)等級(jí),否則單個(gè)企業(yè)的數(shù)據(jù)量有限。”智源研究院院長(zhǎng)王仲遠(yuǎn)也表達(dá)了同樣的擔(dān)憂:“數(shù)據(jù)孤島下,大家各做各的數(shù)據(jù),格式都不一樣。重復(fù)采集數(shù)據(jù),訓(xùn)練各自的模型,也很難部署在不同款型的機(jī)器人上。這就意味著大家都在重復(fù)造輪子,資源出現(xiàn)重大浪費(fèi)。”
其次,數(shù)據(jù)采集成本高昂。真機(jī)數(shù)據(jù)質(zhì)量最高,其成本也最為昂貴。賽迪智庫(kù)分析報(bào)告指出,單臺(tái)設(shè)備產(chǎn)生一萬(wàn)小時(shí)訓(xùn)練數(shù)據(jù)要消耗上百萬(wàn)元。同時(shí),人員成本也居高不下,一個(gè)數(shù)采員一天只能采集300-500條數(shù)據(jù),復(fù)雜任務(wù)產(chǎn)出更低。蔣未來(lái)坦言,真機(jī)數(shù)采的成本構(gòu)成包括資產(chǎn)折舊、人員效率和數(shù)據(jù)損耗。“如果有效率在95%以上和75%以上,成本會(huì)差很多。”他說(shuō)。
再次,數(shù)據(jù)質(zhì)量與有效性參差不齊。數(shù)據(jù)質(zhì)量不僅關(guān)乎采集的精度,更關(guān)乎其是否能為模型訓(xùn)練提供有效“養(yǎng)分”。劣質(zhì)數(shù)據(jù)不僅浪費(fèi)資源,更可能誤導(dǎo)模型。
最后,數(shù)據(jù)標(biāo)準(zhǔn)體系缺失。這是行業(yè)最底層的痛點(diǎn)。無(wú)論是數(shù)據(jù)采集的格式、標(biāo)注的規(guī)范,還是數(shù)據(jù)質(zhì)量的評(píng)估,都缺乏統(tǒng)一的標(biāo)準(zhǔn)。專家表示,數(shù)據(jù)標(biāo)準(zhǔn)不一致,使用的組織就需要用大量精力去做后端的工具鏈開(kāi)發(fā)。此外,現(xiàn)在不同機(jī)構(gòu)的開(kāi)源數(shù)據(jù)集在數(shù)據(jù)格式、標(biāo)注體系等方面存在顯著差異,導(dǎo)致數(shù)據(jù)難以跨項(xiàng)目集成與復(fù)用。
破局之道,從何出發(fā)?
面對(duì)重重挑戰(zhàn),產(chǎn)業(yè)界并未卻步,而是從多個(gè)維度積極探索破局之道。
首先是對(duì)數(shù)據(jù)采集的范式進(jìn)行革新。帕西尼重塑數(shù)據(jù)集第一性原理,創(chuàng)建了“以人為中心”(Human-Centered)的數(shù)采體系,讓人做回?cái)?shù)據(jù)的“生產(chǎn)者”。以自研的高精度自主物理感知硬件為觸點(diǎn),帕西尼開(kāi)發(fā)了高精度多維觸覺(jué)采集終端 PMEC,配合空間視覺(jué)矩陣,共同構(gòu)建起“以人為中心”的含稀缺觸覺(jué)模態(tài)的全模態(tài)感知高精度實(shí)采具身數(shù)據(jù)體系。此外,它石智航也提出了“以人為中心”的數(shù)據(jù)采集范式,思路是“好的數(shù)據(jù)范式是你工作、你生活,而我記錄你”。這一理念的核心在于,構(gòu)建通用物理智能的關(guān)鍵是讓模型學(xué)習(xí)人類在真實(shí)環(huán)境中的自然行為,而不是用遙操或仿真數(shù)據(jù)得到一個(gè)頭重腳輕、不能在真實(shí)復(fù)雜環(huán)境用的VLA模型。為此,它石智航自主研發(fā)了SenseHub數(shù)據(jù)采集套件,去規(guī)避遙操作難以規(guī)�;钠款i,彌補(bǔ)仿真數(shù)據(jù)與現(xiàn)實(shí)之間的鴻溝。
同時(shí),為了在數(shù)據(jù)規(guī)模與成本之間找到平衡點(diǎn),行業(yè)也在積極探索無(wú)本體數(shù)據(jù)采集和高質(zhì)量仿真數(shù)據(jù)生成。比如,無(wú)本體采集不跟具體機(jī)器人綁定,理論上可以擴(kuò)大規(guī)模、降低投入,并解決數(shù)據(jù)孤島問(wèn)題,但有效性還需更多檢驗(yàn)和證明。專家表示,無(wú)本體、世界模型路線嘗試解耦數(shù)據(jù)和機(jī)型,需要研發(fā)突破,先證明這些數(shù)據(jù)訓(xùn)練效果和真機(jī)一樣好,再解決構(gòu)型綁定問(wèn)題,才容易形成統(tǒng)一市場(chǎng)、方便交易。
三是加速數(shù)據(jù)標(biāo)準(zhǔn)制定,打通產(chǎn)業(yè)“任督二脈”。標(biāo)準(zhǔn)化是解決數(shù)據(jù)孤島、降低行業(yè)成本、促進(jìn)生態(tài)繁榮的根本途徑。去年年末,工信部人形機(jī)器人與具身智能標(biāo)準(zhǔn)化技術(shù)委員會(huì)正式成立,我國(guó)首個(gè)覆蓋全產(chǎn)業(yè)鏈、全生命周期的《人形機(jī)器人與具身智能標(biāo)準(zhǔn)體系(2026版)》隨之發(fā)布,標(biāo)志著行業(yè)進(jìn)入規(guī)范化、系統(tǒng)化發(fā)展新階段。專家指出:“現(xiàn)在人形機(jī)器人的標(biāo)準(zhǔn)在全世界范圍內(nèi)都是沒(méi)有的,這給了我們一個(gè)很好的契機(jī),讓中國(guó)標(biāo)準(zhǔn)成為世界標(biāo)準(zhǔn)。”
最后是構(gòu)建數(shù)據(jù)生態(tài),開(kāi)放共享,協(xié)同進(jìn)化。數(shù)據(jù)作為新型生產(chǎn)要素,其價(jià)值在于流通與復(fù)用。京東、宇樹(shù)科技、帕西尼等企業(yè)紛紛選擇開(kāi)源或開(kāi)放數(shù)據(jù),正是看到了這一點(diǎn)。
從京東的千萬(wàn)小時(shí)數(shù)據(jù)布局,到帕西尼的全國(guó)數(shù)據(jù)集群,再到行業(yè)標(biāo)準(zhǔn)的逐步落地,2026年的具身智能產(chǎn)業(yè),已經(jīng)告別“炫技式”發(fā)展的浮躁,穩(wěn)步邁入務(wù)實(shí)落地的深水區(qū)。未來(lái),隨著數(shù)據(jù)生態(tài)的不斷完善、技術(shù)范式的持續(xù)革新,具身智能終將憑借堅(jiān)實(shí)的數(shù)據(jù)底座,真正走進(jìn)千家萬(wàn)戶、賦能千行百業(yè),開(kāi)啟人機(jī)共生的全新篇章。









