文章作者、来源：铅笔道具身智能行业疯狂抢数据。封面图丨ChatGPT创作具身智能行业疯狂抢数据。 “大家极度渴求千万小时以上的数据集……一小时200块钱，一千万小时就是20亿元。”基元智航创始人高少龙告诉铅笔道，为了获得高质量数据，即使掏出一部分家底，头部具身智能公司也在所不惜。 “现在一家公司没有百万小时数据，文章作者、来源：铅笔道具身智能行业疯狂抢数据。封面图丨ChatGPT创作具身智能行业疯狂抢数据。 “大家极度渴求千万小时以上的数据集……一小时200块钱，一千万小时就是20亿元。”基元智航创始人高少龙告诉铅笔道，为了获得高质量数据，即使掏出一部分家底，头部具身智能公司也在所不惜。 “现在一家公司没有百万小时数据，

营收暴增50倍，一季度赚一年的钱，今年最火生意是它

来源：MetaEra

2026/06/09 20:34

阅读时长 35 分钟

如需对本内容提供反馈或相关疑问，请通过邮箱 crypto.news@mexc.com 联系我们。

文章作者、来源：铅笔道

具身智能行业疯狂抢数据。

封面图丨ChatGPT创作

具身智能行业疯狂抢数据。

“大家极度渴求千万小时以上的数据集……一小时200块钱，一千万小时就是20亿元。”基元智航创始人高少龙告诉铅笔道，为了获得高质量数据，即使掏出一部分家底，头部具身智能公司也在所不惜。

“现在一家公司没有百万小时数据，都不好意思说自己干具身智能。”竹马创新创始人张吉说，百万小时听上去很多，实际上只能满足具身智能真实需求万分之一。

如果百万小时数据是基础，也就意味着具身智能入场券至少2亿元。

问题是，账上有几十亿也经常买不到——高质量真实世界数据不够。

工厂里的装配动作、咖啡店里的服务流程、家庭里的收纳整理、养老院里的照护场景……这些发生在现实世界中的行为，既无法像互联网文本一样爬取，也无法像图片一样批量下载，它们必须被人一小时一小时地采集出来。

与此同时，资本市场已经开始为“卖数据的人”买单。

去年6月，数据标注巨头Scale AI获得Meta 143亿美元投资，估值达到290亿美元。

今年，数据企业它石智航超4.5亿美金融资，创下中国具身智能行业单轮融资纪录；数据传感器初创企业渊澈太初创办5个月，融资超5亿元。

订单也在滚滚而来。真实世界AI数据采集公司弈人科技创始人马成辉告诉铅笔道，今年Q1具身智能数据订单已经过亿，超过去年全年；灵生科技创始人杨洪兵也向铅笔道透露，今年具身数据订单营收增长有望超50倍。

在美国，真人数据采集公司Mecka.ai一年时间已拿下1亿美元的订单。

一场围绕数据的新淘金热，正在上演。铅笔道对话了多位数据采集行业从业者、投资人，发现行业赚钱机会。

买数据，2亿元起

高少龙，基元智航创始人

基元智航是一家专注于具身智能数据基础设施领域的创新企业，已完成天使轮融资。

今天整个具身智能行业几乎所有公司都缺数据。

如果你去问国内头部具身智能公司，他们今天真正希望采购的数据规模，最少都是百万小时起步。

百万小时是什么概念？

如果按照比较普通的数据采集标准计算，一小时五六十元，仅仅百万小时就意味着五六千万元投入。

如果是深度场景数据，一小时200元。百万小时就是2亿元。

更尴尬的是，这些公司账上有几十亿元，买得起数据，但常常买不到。

AI数据标注工作界面来源：公开资料

由于质量不够高，数据规模不够大，今天绝大部分模型不是通用模型，而是针对某一个特定场景优化出来的模型。

这是整个行业共同面临的困局。

具身智能行业缺数据不是一两天了，因为真机数据根本不通用——我们几乎把国内主要机器人厂商都拜访了一遍。无论是大厂还是小厂，最终得到的答案高度一致：真机数据只能训练自己的机器人，无法直接用于别人的机器人。

况且，具身智能想要真正像DeepSeek一样智能涌现，大概需要20亿小时的数据量级。这在人类工程史上是一项不可能完成的任务。

后来越来越多论文开始证明，无（机器人）本体数据是有效的。行业最终必须寻找新的路径：回归到真实人类行为，人类行为数据将成为未来最大的具身智能数据资产。

数据有价值，不代表商业模式成立，整个数据行业还有最大痛点：盗版。

任何一家机构花100万元买了一份数据，理论上它都有动力把数据复制出来。复制二十份，每份卖5万元，成本立刻收回。对于原始采集公司来说，这是最痛苦的事情，也就没有动力去采集高质量数据。

后来我们研究自动驾驶行业时发现，地平线等公司已经找到一种新的方式：DaaS（数据即服务）。数据不离开服务器，客户带着模型进来，模型训练完把参数带走，数据留在原地。数据可以复用，且不必担心被复制。这可能才是具身智能数据行业真正的商业模式。

过去100元成本的数据，只能卖一次。未来100元成本的数据，可以服务1000家公司。那平均下来，每家公司只需要承担一毛钱成本。数据就会像自来水一样，价格极低，随取随用。整个行业的数据供给会突然爆发。

目前业内主流（具身智能）模型公司年数据采购量最少也都是百万小时级别。不同深度的数据，价格差异非常大。

最便宜的是普通生活场景数据。比如叠被子、摆桌子、整理物品。这些动作不需要特别专业的人，找几个劳务外包人员就能完成。这种数据目前大概在五六十元一小时。

一旦进入真实服务场景，比如咖啡厅，成本马上就变了，因为你得出钱让老板停工配合你。这类服务场景数据的成本通常会超过200元一小时。

工业机械臂装配线，工业场景数据采集成本更高来源：公开资料

再往下一层，就是工业场景。很多人以为工业场景贵，是因为采集难。其实不完全是，真正昂贵的是沟通成本，你钱给少了，人不理你。就算给得多，大厂还不见得让你采，涉及知识产权、商业秘密。工业数据最终价格至少两三百元一小时。现在很多激进一点的模型公司，对这类数据特别感兴趣，哪怕价格更贵，也愿意购买，因为离真实生产场景更近。

最难采集的，是家庭场景。涉及隐私、财产、安全。这些问题处理起来，远比工厂里复杂。直到今天，行业在家庭数据采集上依然非常保守。

我们大致把客户分成两类。

第一类客户，几乎什么数据都要，他们不挑场景，瞄准通用具身智能基础模型，希望自己的模型见过足够丰富的世界。未来再针对某个行业做微调的时候，成本会低很多。目前国内少数头部团队正在这么做。

但第二类企业占绝大多数。他们从第一天开始就把自己定义成垂类应用。他们采购数据就盯着未来最有机会落地的场景。

当下需求最大的仍然是服务业数据。这也是为什么我们会采大量咖啡厅、餐厅相关数据。

我要强调一点：服务业并不是具身智能最有价值的方向。之所以大家都在做服务业，是因为服务业数据最容易获得。

工业装配数据、医疗场景数据、深度制造数据，以前大家根本不知道怎么低成本获取。

既然拿不到数据，模型厂自然不会往那个方向投入，于是市场上形成一种错觉：仿佛服务业就是具身智能最重要的方向。

如果未来有人能大规模提供制造业数据、医疗数据、工业装配数据、养老照护数据，整个行业的方向都会改变。数据公司真正的价值不是卖数据，而是创造供给，帮助行业发现新的可能性。

今年跟客户交流，他们对数据的需求变化，有三个比较明确的方向。

第一是广度，大家极度渴求千万小时以上的数据集，必须让模型见过足够丰富的世界。

第二是价格，哪怕一小时200块钱，一千万小时就是20亿元。如果数据价格降不下来，模型始终无法形成商业闭环。

第三是深度。具身智能公司今天必须开始回答一个问题：投资人给你那么多钱，你的机器人到底在哪个场景里能够创造价值？因为只有深度场景数据，才有可能帮助模型进入真实生产和服务环境，最终形成商业闭环。

另一个值得关注的赚钱方向是AI标注。

现在很多人以为采数据最贵，随着数据越来越深入，标注往往比采集更贵。

举个例子。如果只是普通动作数据，可能找众包人员就能标。但如果是烹饪数据呢？里面会涉及大量专业动作、专业术语、专业流程，你需要懂烹饪的人来标，甚至需要专业厨师来标。厨师的一小时成本，显然和普通众包不是一个价格。

随着未来越来越多制造业数据、医疗数据、工业数据进入市场，这个问题会更加明显。

垂类场景的AI自动标注，是未来非常值得关注的方向。未来很多垂类数据集，可能不是靠人标出来的，而是靠AI完成第一轮标注，再由专家复核，这会极大降低行业成本。

1：20万的缺口

杨洪兵，灵生科技创始人

灵生科技聚焦真实场景数据引擎，已完成多轮数亿元融资。

今年年初，全行业所有具身智能数据加起来，大概只有50万小时。但如果想训练出真正优秀的模型，行业需要的数据量级大约是千亿小时。

这相当于手里只有一个馒头，但想吃饱需要二十万个馒头。

这就是行业今天的现实。不过，数据并不是简单按小时计价去卖，我们一直反对把数据简单理解成商品。

我们将具身数据从L1到L5进行了严谨分级，还建立了数据SLA（服务等级协议）体系，全世界第一次对数据质量进行了量化管理。

目前市场需求最大的，是L5级数据。为什么L5稀缺？因为要求极高。L5数据必须经过详细标注和任务切片，必须具备完整的任务描述、场景描述和物体描述，分辨率通常要达到1280以上，定位精度要求达到亚毫米级。

我一直认为，具身数据行业不能停留在“我有数据，你来买”的阶段。卖水果还有品种区分，卖石油还有等级区分更何况是训练大模型所需要的数据。而有些企业本身并不真正理解数据，只是在做二手数据倒卖。灵生不仅提供高质量多模态数据，还会帮助客户优化数据管线和底层Infra基础设施。

今年我观察到的最大变化，是Ego数据（真人第一视角数据）需求出现指数级增长。对比遥操作数据，Ego的数据需求增长非常明显。通过这些数据显著提升了模型效果，同时采集效率比遥操作高出五倍以上，成本却更低。

早在去年下半年，海外已经明显开始向Ego数据和以人为中心的数据转向了。今年上半年，这种趋势进一步被放大。

另一个明显趋势是真实场景数据越来越受欢迎。

举个例子，同样是USB插拔或者线束插拔任务，如果是在素材工厂里采集，场景变化非常有限。但如果是真实环境，灵生有几千名外部数据采集员，每个人的家庭环境不同、办公环境不同、操作习惯不同，那么最终形成的数据变化可能达到上千种。这种数据多样性，是训练场数据很难达到的。灵生今年预计将达到120万小时的真实场景Ego数据集。

数据行业乱象之一，就是数据精度虚标。有企业宣传定位精度达到毫米级，但根据客户反馈，真正使用时漂移非常严重，误差甚至达到厘米级，比标称数据差十倍以上。

如果希望具身智能产业长期健康发展，就必须结果导向，训练出真正好用、准确率更高的模型。而想做到这一点，就必须依赖真正高精度、高质量、高价值的数据。

从经营情况来看，预计今年订单规模将达到数亿元级别，预计全年营收有望达到去年的50倍以上。我们的客户主要是头部具身智能公司，而且多数会长期复购。

我们最关注的仍然是三个核心指标：数据质量、数据多样性、真实场景。

融资10亿，未必买得到好数据

张吉，竹马创新创始人

竹马创新是以“3D相机+AI”为方向的空间智能公司，已完成数千万元天使轮融资。

具身智能行业现在缺数据，缺到什么程度？现在能用到的数据，可能连需要量的万分之一都不到。

为什么会这么缺？

第一个原因是大家不知道缺什么。大语言模型，大家知道去找文本数据。具身智能模型，需要众多模态数据叠加，物理AI、空间智能、尺寸、力学、关节、电流、声音……哪种数据优先？只有知道缺什么，才知道怎么补。现在每家公司采集数据的方向都不一样，这是底层结构性困难。

第二个原因是，文本数据可以爬取，但具身智能需要的数据在物理世界，天然没有被数据化。既然没有被数据化，就没法直接拿来训练。

服务型机器人，服务业数据目前最易获取来源：公开资料

第三个原因是，现在只能靠采集。采集是按小时来的。一个操作员每天也就七八个小时，这种方式和时间线性绑定，很难快速放大。

还有一个问题，因为不知道要什么，也没有数据标准，数据格式非常乱。很多企业拿到一些新格式之后，发现大量数据没法用。数据本来就不多，还被浪费掉了。

2026年，行业突然认识到这个问题了。

去年大家还在卷模型、卷算法，今年突然发现，好像那些带来不了很好的效果，数据才是最核心的，所有人都开始搞数据。

特别是很多人突然开始关注ego数据，也就是第一人称数据，包括我们这种用相机采集真实三维数据的方式，也突然火起来。

还有一个原因，一些来自智驾行业的团队进入了具身智能。他们非常坚信数据一定要来自真实场景。因为智驾行业已经证明过，大量真实数据采集非常重要，90%的场景要靠真实采集。

我觉得这样下去，具身智能本体企业不一定能马上成功，但搞数据的这些企业，可能会成为新一轮独角兽。即使不是独角兽，最挣钱的也是这一类企业。

简单理解，具身智能需要的数据量比互联网原来的数据还要大，可能是万倍级别。那这些数据如果都要由数据公司提供，市场就会非常大。

现在一家公司没有百万小时数据，都不好意思谈具身智能。真实物理数据按500元一个小时来算，百万小时就是五亿元。

但问题是，头部具身智能公司即便一轮融资10亿元，也未必买得到好的高质量数据。因为数据不好买，也没有那么多。所有采集方式和时间基本还是线性关系，还没有一种能指数级解决高质量真实数据供给的办法。

对具身智能公司来说，价值最高的是最早能卖出机器人的场景数据。比如现在很多人在做工厂、物流等工业级场景。对他们来说，这些场景的数据价值最高。

但对提供数据的公司来说，真实场景的数据价值最高。只要是真实场景产生的数据，就有人买，不一定要严格分场景。

如果从数据规模角度看，合成数据提供规模最大。因为它不是线性增长。它有机会打破靠人和时间积累的限制。

现在建数据工厂的公司应该也挺赚钱，而且是隐形挣钱的方向。现在大家都想建，但不知道怎么建，而且很多是政府给钱。这类公司能挣项目钱，但（估值上）未必特别值钱。

所谓数据工厂，就是一个很大的场地，里面有人拿着真机操作，模拟各种场景采集数据，一排一排的，就像以前工厂一样。各地现在都有类似的数据工厂。

数据工厂的问题是规模化很难，因为要靠人规模化。它单条数据可能贵，但规模有限。有限场地、有限布置、有限人员、有限时间，所有东西都是可算出来的。所以是挣一些辛苦钱。

仿真数据现在仍然有需求，而且需求应该挺大。仿真数据或者合成数据，有机会打破线性增长逻辑，可能形成指数级供给。所以它的需求也不会少。

而且做仿真数据的人，至少目前应该是最先挣钱的一拨人。它单价便宜，但量大。

做数据标注的公司也肯定会挣钱。未必是AI标注，算法标注也可以。只要能把它标出来就行。

总结一句：能规模化的公司肯定能挣钱。关键是不要靠人力规模化，而是通过算法规模化。

现在这个场景下，提供数据都会挣到钱，只是谁挣更多、谁挣更少。

但如果从长远看，最后真正能持续挣钱的，可能还是提供data infra的公司。靠人搞采集的模式，长期不一定能挣大钱。

以前SaaS行业有Databricks（估值1300多亿美元）。未来具身智能行业里，也会有很多类似Databricks的data infra公司，不仅提供数据，还提供数据引擎、数据闭环、自动化能力、打标能力、推理能力、框架能力。

一两个月就融能一轮钱

王学辉，水木清华校友种子基金创始合伙人

水木清华校友种子基金是国内第一支高校校友基金，致力于成为“清华校友创业第一站”。

数据就像具身智能行业的“石油”，现在大家都缺油。

即便是自动驾驶这样一个相对固定、单一的场景，也催生出了Scale AI（数据训练公司，估值接近300亿美元），国内也有很多自动驾驶标注和数据公司挣到钱了。

未来人形机器人如果真的进入百行千业，数据需求会比自动驾驶高好几个量级，可能是两个数量级、三个数量级的差距。

这个市场会很大，只是现在无论本体、具身模型、世界模型，还是数据采集路线，都还没有收敛，各种技术路线都在百花齐放。

我们布局了灵御智能、渊澈太初、手亿科技等数据采集初创企业。像灵御智能，主要是真机遥操，数据质量好，但成本相对高。今年更火的是腕带技术，包括渊澈太初、手亿科技这些公司。

数据采集成为大机会，很大程度上来自Meta的腕带技术。以前大家不太相信肌电技术能做到那么精准，但Meta把这个技术跑通以后，市场开始看到机会。据说苹果下一代产品也可能往这个技术路线靠，其他路线可能暂缓。

腕带技术跑通以后，大家发现它不仅可以戴在人手上，也可以戴在机器人身上，这就把“腕带”和“数采”结合起来了。人戴腕带，机器人也戴腕带，中间就能形成连接。这是一种技术创新，也是一种模式创新。

目前数据采集公司真正赚钱的还不多，到现在应该还没有（收入成本）打平的，暂时还没有盈利。这个行业都还很早，一共也就一年多时间。对这些公司来说，拿到订单就不错了，盈利暂时不是主要考虑的问题。

如果都量产了，肯定就要死一部分公司，路线也会收敛一部分。这个行业目前最大的痛点，大家都还没有找到最终收敛的路线，很多企业会同时试好几种方案。

现在很多公司融资都是一两个月一轮，很难说哪条路线一定更好。水木的策略是，如果技术路线不明确，我们一般不会押注某一条路线一定能成。

不只是数据公司，具身整机、具身模型、世界模型也都是这样，整个行业现在都是一两个月一轮的状态。

具身数据行业会出现专门做数据的巨头企业。但头部具身整机公司可能会自己做数据。类比汽车行业，像特斯拉、比亚迪这样的头部巨头，很多事情都会自己做，比亚迪连电池都自己做。机器人行业最头部的几家公司，大概率也会全都做。

但这并不意味着第三方独立数据公司没有空间。除了最头部的几家企业，腰部企业、尾部企业，以及各种corner case场景、专用机器人、特种机器人，都会存在大量数据需求。对这些企业来说，联合使用第三方独立数据公司，可能是更有性价比的方式。未来第三方独立数据公司的典型客户，至少会包括很多腰部企业，这个量足够支撑它们成长为上市公司。

数据采集公司比较成熟的商业模式，现在主要有两种：一种是一次性卖数据，另一种是按每台机器人上的数据价值做分成。企业肯定更希望未来更多采用按台分成的方式，但这里面会有博弈。

投资人看一家数据采集公司是不是好公司，最核心是看订单怎么样，有哪些具身整机企业在用它，第一线机构和客户是否使用它，是非常重要的指标。

本文为口述者独立观点，不构成任何投资建议。

AI时代，“一人公司”正在爆发。现在，华为云发起「2026人工智能OPC应用创新大赛」。各阶段公司都能报名。点击图片，立即参赛。

完成预测交易，解锁大奖资格

奖池高达 $500,000，100% 中奖！

免责声明: 本网站转载的文章均来源于公开平台，仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利，请联系 crypto.news@mexc.com 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证，并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考，不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。