文章作者、来源:全天候科技 日前,小米宣布基于MiMo大模型推出“miclaw”并部署于音箱等终端,支持语音唤醒与多轮对话。 这有望突破小爱同学“听不懂、接不上”的理解瓶颈,通过近乎“零门槛”的自然语义交互,推动大众市场的AI体验实现实质性提升。 依托庞大的IoT设备基数,小米有望规模化捕获高价值的“决策轨迹数据”,为文章作者、来源:全天候科技 日前,小米宣布基于MiMo大模型推出“miclaw”并部署于音箱等终端,支持语音唤醒与多轮对话。 这有望突破小爱同学“听不懂、接不上”的理解瓶颈,通过近乎“零门槛”的自然语义交互,推动大众市场的AI体验实现实质性提升。 依托庞大的IoT设备基数,小米有望规模化捕获高价值的“决策轨迹数据”,为

Claw智能体的语音入口战悄悄打响

2026/04/23 20:27
阅读时长 14 分钟
如需对本内容提供反馈或相关疑问,请通过邮箱 crypto.news@mexc.com 联系我们。

文章作者、来源:全天候科技

日前,小米宣布基于MiMo大模型推出“miclaw”并部署于音箱等终端,支持语音唤醒与多轮对话。

这有望突破小爱同学“听不懂、接不上”的理解瓶颈,通过近乎“零门槛”的自然语义交互,推动大众市场的AI体验实现实质性提升。

依托庞大的IoT设备基数,小米有望规模化捕获高价值的“决策轨迹数据”,为MiMo大模型的调用提供训练场;

从行业层面来看,这一趋势并非个例。除了小米,华为、百度等都在积极接入claw音频互动功能,以此提升用户调用Agent的积极性。

在“入口驱动数据生成、交互反哺模型优化”的逻辑下,一场围绕语音入口、执行能力与数据闭环的竞争正在加速展开。

轨迹数据的稀缺性

智能音箱或语音助手早已不是新物种。

行业面临的现实尴尬是,“小爱同学”等语音助手受限于传统技术,过去往往只能充当执行“定闹钟”、“切歌”等单向指令工具。

一旦用户的表达模糊或需求复杂,这些语音助手就容易暴露出“听不懂、接不上”的短板,导致智能体验大打折扣。

随着大模型技术的应用,这一行业现状正在发生实质性改变。

小米基于MiMo大模型推出的“miclaw”,不仅覆盖了PC与Mac端,还将其部署在其有屏音箱上。

音频版的“miclaw”首要解决的痛点便是提升产品体验的智能化程度。

小米音箱计划最新上线的miclaw已支持用户通过一句话下达复杂任务指令,具备语音唤醒与多轮对话的功能,并支持调用手机、PC执行。

这意味着,未来的小米音箱将不再只是机械的“一问一答”式指令接收器,有望结合上下文记忆,深度挖掘并理解用户的“言外之意”,进而在复杂、日常甚至口语化的语境中,执行更为复杂的任务。

除了小米,百度小度音箱、华为的小艺claw等均已在不同维度上接入了语音交互功能。

在不少行业人士看来,大厂相继在硬件中接入音频版claw底层的商业逻辑是这种不需要学习菜单,不需要注视屏幕的近乎“零门槛”交互,可以最大限度地降低AI的交互门槛,真正打入大众市场的基本盘。

“这样的话会使得整个入口更加自然,使用门槛降低,相当于家庭成员都可以体验,AI能够尽快融入到生活日常中。”北京某大厂的架构师向全天候科技解释。

事实上,为了支撑这种近乎“零门槛”的自然交互,小米本身也在积极加入对音频等多维度数据的底层训练。

早在小米2025年12月发表的一篇名为《Xiaomi MiMo-VL-Miloco Technical Report》的文章中就明确指出:未来,小米将进一步依托其硬件生态,将音频、毫米波信号等更多感知模态纳入统一的多模态学习框架。通过对多类异构感知输入进行联合推理,最终实现全方位的家居场景理解与精细化空间感知。

要实现从多模态感知到端侧部署的全面落地,离不开海量硬件设备所提供的数据土壤与应用环境,而这确实是小米的优势。

截至2025年末,小米AIoT平台已连接的IoT设备数(不包括智能手机、平板及笔记本电脑)达到10.79亿台,同比增长19.3%,同期米家APP、小爱同学的月活跃用户数分别1.13亿、1.6亿。

庞大的设备基数所带来的规模效应,使得小米更有利于实现对高价值“决策轨迹数据”的规模化抓取与持续沉淀。

在真实的物理世界中,Agent调用工具、执行设备控制的决策轨迹数据极为稀缺。

传统的软件系统或基础智能家居,往往只记录最终的“执行状态”,但真正能够驱动AI自主运行的是捕捉“为什么这么做”的决策链条。

高价值的决策轨迹数据不仅包含执行结果,更涵盖了触发该动作的完整上下文。

例如理想情况下,系统记录下“由于光线传感器识别到环境变暗,且门锁日志显示用户刚刚归家,因此决定开启客厅灯光并拉上窗帘”。

这种融合了多模态环境输入、触发规则和动作输出的完整信息,是指导Agent进行复杂决策的关键素材。

要获取这类数据,系统必须身处用户的“执行路径”之中,才能在决策发生的第一时间完成捕获。

小米庞大的AIoT设备网络,实质上构成了消费级物理世界中覆盖面极广的执行路径。通过海量设备的日常协同,这些单次的决策轨迹被持续沉淀,有望交织成一张动态的“上下文图谱”。

这能够客观呈现用户在不同时空下的作息规律、温度偏好及跨设备调用习惯。随着数据闭环的不断完善,系统便具备了更高的预判能力。

不过有效数据的实际产出率仍然取决于用户的使用情况,例如用户是否有足够的动力设置复杂自动化场景等。

新的入口战

围绕语音等交互入口,各类claw产品正加速落地。

百度claw、华为小艺claw等均在不同硬件上实现了语音交互能力的接入,并逐步从单轮指令响应,向多轮对话与任务执行能力演进。

阿里旗下的天猫精灵虽未冠以“claw”之名,但也在其全屋智能2.0方案中深度融合通义大模型能力,构建出“空间智能Agent”,进行智能化决策。

当语音入口逐渐被Agent化,缺席即意味着在下一代人机交互体系中失去关键位置。

这一轮集中布局背后是一次围绕“使用门槛与数据积累”的前置竞争。

作为最接近自然语言的交互方式,语音本质上承担着降低用户使用成本、提升渗透率的角色,让设备交互变得更加无缝。

只有当用户在日常场景中频繁使用Agent,各家厂商的模型才能持续获得真实的任务请求与执行反馈,从而不断优化决策与执行能力。

正因如此,当前阶段的核心在于是否能够让用户“先用起来”,通过高频使用形成数据闭环,再反向推动能力迭代。

在这一过程中,入口演化为连接用户行为与模型进化的关键基础设施,这已经在部分产品形态中出现苗头。

在一些头部厂商的实践中,语音不再只是触发单一设备或功能,而是开始承接跨设备的连续任务。

例如,用户用一句相对模糊的表达发起请求,系统会在后台拆解意图,并联动多个终端完成一整套动作。

在这一过程中,被调用的不再是某一个具体设备,而是一整条由系统组织起来的执行链路。

当交互从“点状指令”转向“任务链路”后,语音的角色不仅局限于降低使用门槛的入口,还成为实际承担任务调度的起点。

用户不再显式选择应用或设备,而是将需求交由系统统一分发。

这也使得入口竞争的重心发生偏移。厂商争夺的不仅限于用户是否开口使用语音,而是这些请求最终由谁来拆解、由谁来决定调用路径。

一旦这一环节被第三方承接,即便硬件仍在原厂商手中,服务分发与用户决策路径也可能逐步外移。

不过,在多方竞逐之中,不同厂商的底层禀赋差异开始放大。

和小米类似,华为的重要优势在于更加自研化的操作系统与硬件生态,早在2024年鸿蒙生态设备规模便已进入9亿级量级,小艺能力覆盖手机、平板、可穿戴及智能家居等多类终端,形成跨设备的统一交互网络。

这种“入口即数据、设备即执行”的竞争逻辑也在反向塑造互联网厂商的策略选择。

例如字节跳动在大模型与应用层具备优势,但在终端入口与系统级调度能力上相对薄弱。

由于在Agent逐步从“对话能力”走向“执行能力”的过程中,仅依赖App形态难以深度嵌入用户的日常决策路径,也难以获取高频、连续的任务反馈数据,字节跳动去年以来便频繁与手机厂商洽谈“豆包手机”的合作路径。

2026年,AI能力的比拼正在从“交互竞争”走向“执行竞争”。

免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 crypto.news@mexc.com 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。

USD1 Genesis:0 费率 + 12% APR

USD1 Genesis:0 费率 + 12% APRUSD1 Genesis:0 费率 + 12% APR

新用户:质押最高享 600% APR。限时福利!