文章作者、来源:36氪
哪个铲屎官不想在自己的小猫小狗发出声音时,听懂它到底想说什么;或者是让它们听懂人类的语言。
杭州一家名为「萌小译」的公司最近推出了一款产品, 800 块就能实现我们和宠物之间的双向翻译,并且准确率达到了 94.6% 。
通过一个兼具收音与播放功能的 AI 项圈,结合手机 App,AI 项圈会把小猫小狗的声音转成文字显示在 App 内的对话框,用户可以在对话框发送消息,项圈会发出「喵喵」或「汪汪」的语言,以此让宠物「听懂」人类的话。
听着就特别不靠谱,毕竟类似的产品,我们在微信小程序里面随便一搜就有一大堆。有些很直接地写着「仅供娱乐,请勿认真」,有些一样用着 AI 的旗号,主打通过录音用 AI 分析情绪。
如图中的 AI 宠语翻译,就是利用 Qwen-Omni 大模型驱动
另一方面是,猫猫狗狗说的什么,我们根本无从验证。翻译器大可用一句不太会出差错的通用场景,例如「我饿了」、「我想出去了」、「我不舒服了」、「有人来了」之类的表达。
而将我们说的话翻译成猫言狗语,大概也会因为宠物的认知有限,导致验证失败。
但就是这么「玄」的一件事,还有指标可以用来衡量,而且做到了 94.6% 。
PettiChat 官网:pettichat.com
萌小译推出的 AI 项圈还在 X 上引起了不少的热度,网友们都在讨论这家来自中国的 AI 宠物翻译初创公司。也有网友直接说「 95%的准确率是基于你能核实他们所说的话的前提,而你根本无法核实。所以这纯粹是胡扯,哈哈。 」
尽管伴随着一些争议,但 PettiChat 还是很受欢迎,在众筹平台 Kickstarter 上已经成功募集到了 863 名支持者,认缴金额达到了 14 万港币。
在众筹阶段,产品售价是 119 美元,约合人民币 800 元,众筹结束后目前海外售价是 149 美元。
而在微信小店的记录,该产品以 799 的预售价格,显示有 190 人已购买。在商品的评论区,有用户贴出了买家秀,表示「 偶尔能听听毛孩子的想法很有意思 」。
这些翻译的宠物语言,也是相当的人性化。不仅有大量的语气助词「嘛~」、「呐」、「喂」、「咦」、「嘿嘿」、「呀呀」、「呼呼」,还有「不客气」、「别把我忘了」这种情绪感拉满的表达。
宠物真的能懂这么多信息吗
所以,PettiChat 的准确率到底是怎么衡量的,这些同类型的产品是不是一种智商税。
2002 年,日本玩具公司 Takara 推出了 BowLingual,一款狗狗「情绪翻译」项目。
它的工作方式很简单:麦克风录音,然后把狗叫归类成几种情绪状态,比如「开心」「焦虑」「生气」。原理接近噱头,但它真的卖出去了,还获了搞笑诺贝尔奖,评语说的是「 它实现了人犬和平交流,所以获得和平奖 」。
二十年后,类似的 AI 工具层出不穷,开头提到的那些小程序,还有专门的应用,都开始利用机器学习来分析猫叫,给每一声叫声打上标签。
年初的 CES 展会,Traini 也推出了一款 AI 项圈,定位是「人对狗」的单向翻译。我们说话,它转成狗能理解的声学信号。
跟宠物建立沟通的欲望仿佛一直都没有被浇灭,随着技术的演进,反而让我们越来越相信和猫猫交流是有点可能。
这次引起大家关注的 PettiChat 比以前的产品多做了一件事:它拿出了一套测试数据。
外观上看,PettiChat 重 27 克,夹在项圈上,确实不会对宠物造成额外的负担。
在这个小小设备里,还有边缘计算芯片直接处理音频,延迟最低 40 毫秒。它不需要持续联网,只在分析声音时短暂调用云端资源。还有其他能力像是 IP65 防水,一次充电支持 1000 次翻译,和 100 小时 GPS 追踪。
它们在众筹平台上的宣传提到,所使用的声学模型背后是超过 150 万条宠物叫声样本,结合动物行为学的同行评审研究。最终达到的成果是,仅凭声音模式识别情绪状态,准确率达到 91-92%,加入姿态监测维度之后,实验室条件下综合准确率达到 94.6%。
在众筹页面有两张不太清晰的宣传图,列出了这些数据是在哪些基准上进行测试的。我们拿着放大镜看,发现其中提到了两篇论文。
一篇是来自多媒体顶会 MM 2025 的 DogSpeak,犬类发声分类数据集。
作者在这篇文章里,提出了一个大型狗叫声数据集 DogSpeak,目标是研究能不能只靠狗的叫声判断狗的性别、品种,甚至是哪一只狗。
它的数据来源是 YouTube、TikTok 等社交媒体上的狗视频。作者先用哈士奇、吉娃娃、德国牧羊犬、比特犬、柴犬 五个品种去搜视频,然后根据频道信息、标题、评论等确认狗的身份、性别、品种。
最后得到了 156 只狗、5 个品种、77202 段狗叫序列、33.162 小时纯狗叫声。这些数据都没有标注不同的声音代表狗狗在做什么,也没有添加任何的情境信息。
文章的实验任务主要是通过声音序列,来判断狗狗的性别、品种和识别具体是哪一只狗。而实验结果显示,单就这些任务,也没有想象中容易。 单纯依靠「纯声学特征」,是很难完美解决真实复杂环境下的狗叫声识别。
可以考虑结合表情
作者在文末建议未来的研究应该跳出传统音频技术的舒适圈,去探索更高级的结构性、韵律性、甚至是犬类潜在的「语言学」特征。
另一篇论文同样是来自 MM,2014 的城市声音研究的数据集和分类法。这是城市环境声分类领域的经典数据集论文,核心贡献是 UrbanSound8K 数据集和城市声音分类法。
作者把城市声音分成人声、自然、机械、音乐等大类,再细到狗叫、汽车喇叭、警笛、钻孔、空调、街头音乐等具体声音源。
PettiChat 引用了这两篇论文的数据集进行测试,以及联合浙大动科院积累了 500万+宠物声纹数据,大约150万条标注,同时在数据集上增加了 UrbanSound 的环境声音,以确保在真实环境的鲁棒性。
PettiChat 所使用的模型,是基于阿里云通义千问大模型。而参与测试的模型包括没有经过预训练的 Qwen2-Audio、Qwen2.5-Omni-7B、Qwen3-Omni-30BA3B,以及小米 Mino-V2-Omni。
他们根据这些声纹数据和 UrbanSound 8K 做了一个很大的独立测试集,里面有「叠加过背景噪音的宠物叫声音频样本」,比如一段狗叫或猫叫,叠上电视声、车流声、家电声、街道声等,做成更接近真实生活的混合音频。
以及各种各样的噪音样本,这些可能是不含宠物声音的背景声,用来测试模型会不会把普通噪音误判成宠物叫声。
这些既有带噪声的宠物叫声,也有纯噪声/非宠物声音,只是被用来测试模型能不能在复杂真实环境里准确识别宠物声音。Petti 模型的表现在这一项测试下,达到了平均 98.6% 的识别/检测层面的准确率。
计算准确率的方式是「是否识别宠物声音」,而不是在测试「能不能翻译宠物在想什么」。
在另一项测试中,没有其他的对比模型,也没有列明具体的测试集,只是使用 PETTI-260315 这一模型,测试了其在猫/狗情境声音识别中的准确率。
猫猫的分类标签包括了攻击/敌对、颤音/社交亲近、叫唤请求/急迫、防御性打斗行为、防御性威胁、捕猎意图/潜伏、痛苦/压力叫声、环境干扰、呼噜/休息。这些数据一共有 19 万条,是经过专家检查过的猫猫声音情境测试数据。
狗狗同样是用了 8.4 万条专家检查过的狗声音情境测试数据,里面的分类标签也包括了攻击/敌对、节律性发声、远距离呼叫、分离焦虑、环境干扰、领地警戒、服从/安抚。
针对这些情境的测试,猫猫的平均准确率达到了 94.6%,狗狗是 92.3%。
而标记这些声音属于哪一种情境,在他们的众筹宣传文章里面还提到了 Video Ground Truth 这个概念。
它的意思是用视频中的行为、环境、姿态、主人互动等作为标签来源,去对齐宠物声音和场景。
比如视频里狗对门口陌生人叫,这段声音就会被标记成 alert / stranger detected;当猫靠近食盆叫,这段声音序列就被标成 food seeking。
所以,本质上 94.6% 是宠物声音情境分类准确率, 而不是我们所理解的一句宠物语言翻译成人类语言的准确率。
但翻译成人类语言是真的有机会实现吗?就拿这个模型来说,它输出的原始结果,可能只是一个标签。
比如一段狗叫被识别为「领地警戒」,这在测试里可以算作一次分类正确。但到了 App 里,它显示的是「有人来了,我要守住这里。」
一段猫叫被识别为「急迫性请求叫声」,应用里弹出的对话也会是更个性化的「快看看我嘛,我有点着急。」
从「行为标签」到「拟人化翻译」的再加工,它反而让产品变得好玩、亲切,也更像真的在对话。但严格来说,这部分根本不再是那 94.6% 可以直接覆盖的范围。
因为测试集里的标准答案大概率不是一句自然语言。这些模型只需要判断这段声音更接近「分离焦虑」、「领地警戒」、「呼噜休息」,并不需要证明宠物真的想说「别把我忘了」或者「我想亲亲你的手」。
这也是所有宠物翻译产品最微妙的地方,它可能不是骗子式的随机翻译,但也还远不是我们想象中的宠物语言翻译器。
","author":"ME精选","type":"转载"}


