文章作者、来源：36氪哪个铲屎官不想在自己的小猫小狗发出声音时，听懂它到底想说什么；或者是让它们听懂人类的语言。杭州一家名为「萌小译」的公司最近推出了一款产品， 800 块就能实现我们和宠物之间的双向翻译，并且准确率达到了 94.6% 。通过一个兼具收音与播放功能的 AI 项圈，结合手机 App，AI 项圈会把小文章作者、来源：36氪哪个铲屎官不想在自己的小猫小狗发出声音时，听懂它到底想说什么；或者是让它们听懂人类的语言。杭州一家名为「萌小译」的公司最近推出了一款产品， 800 块就能实现我们和宠物之间的双向翻译，并且准确率达到了 94.6% 。通过一个兼具收音与播放功能的 AI 项圈，结合手机 App，AI 项圈会把小

戴上800块的AI项圈，就能听懂喵星人的话？

来源：MetaEra

2026/05/26 19:07

阅读时长 16 分钟

AI$0.029-8.60%

如需对本内容提供反馈或相关疑问，请通过邮箱 crypto.news@mexc.com 联系我们。

文章作者、来源：36氪

哪个铲屎官不想在自己的小猫小狗发出声音时，听懂它到底想说什么；或者是让它们听懂人类的语言。

杭州一家名为「萌小译」的公司最近推出了一款产品， 800 块就能实现我们和宠物之间的双向翻译，并且准确率达到了 94.6% 。

通过一个兼具收音与播放功能的 AI 项圈，结合手机 App，AI 项圈会把小猫小狗的声音转成文字显示在 App 内的对话框，用户可以在对话框发送消息，项圈会发出「喵喵」或「汪汪」的语言，以此让宠物「听懂」人类的话。

听着就特别不靠谱，毕竟类似的产品，我们在微信小程序里面随便一搜就有一大堆。有些很直接地写着「仅供娱乐，请勿认真」，有些一样用着 AI 的旗号，主打通过录音用 AI 分析情绪。

如图中的 AI 宠语翻译，就是利用 Qwen-Omni 大模型驱动

另一方面是，猫猫狗狗说的什么，我们根本无从验证。翻译器大可用一句不太会出差错的通用场景，例如「我饿了」、「我想出去了」、「我不舒服了」、「有人来了」之类的表达。

而将我们说的话翻译成猫言狗语，大概也会因为宠物的认知有限，导致验证失败。

但就是这么「玄」的一件事，还有指标可以用来衡量，而且做到了 94.6% 。

PettiChat 官网：pettichat.com

萌小译推出的 AI 项圈还在 X 上引起了不少的热度，网友们都在讨论这家来自中国的 AI 宠物翻译初创公司。也有网友直接说「 95%的准确率是基于你能核实他们所说的话的前提，而你根本无法核实。所以这纯粹是胡扯，哈哈。 」

尽管伴随着一些争议，但 PettiChat 还是很受欢迎，在众筹平台 Kickstarter 上已经成功募集到了 863 名支持者，认缴金额达到了 14 万港币。

在众筹阶段，产品售价是 119 美元，约合人民币 800 元，众筹结束后目前海外售价是 149 美元。

而在微信小店的记录，该产品以 799 的预售价格，显示有 190 人已购买。在商品的评论区，有用户贴出了买家秀，表示「 偶尔能听听毛孩子的想法很有意思 」。

这些翻译的宠物语言，也是相当的人性化。不仅有大量的语气助词「嘛～」、「呐」、「喂」、「咦」、「嘿嘿」、「呀呀」、「呼呼」，还有「不客气」、「别把我忘了」这种情绪感拉满的表达。

宠物真的能懂这么多信息吗

所以，PettiChat 的准确率到底是怎么衡量的，这些同类型的产品是不是一种智商税。

一直被怀疑，一直在更新的宠物翻译设备

2002 年，日本玩具公司 Takara 推出了 BowLingual，一款狗狗「情绪翻译」项目。

它的工作方式很简单：麦克风录音，然后把狗叫归类成几种情绪状态，比如「开心」「焦虑」「生气」。原理接近噱头，但它真的卖出去了，还获了搞笑诺贝尔奖，评语说的是「 它实现了人犬和平交流，所以获得和平奖 」。

二十年后，类似的 AI 工具层出不穷，开头提到的那些小程序，还有专门的应用，都开始利用机器学习来分析猫叫，给每一声叫声打上标签。

年初的 CES 展会，Traini 也推出了一款 AI 项圈，定位是「人对狗」的单向翻译。我们说话，它转成狗能理解的声学信号。

跟宠物建立沟通的欲望仿佛一直都没有被浇灭，随着技术的演进，反而让我们越来越相信和猫猫交流是有点可能。

这次引起大家关注的 PettiChat 比以前的产品多做了一件事：它拿出了一套测试数据。

外观上看，PettiChat 重 27 克，夹在项圈上，确实不会对宠物造成额外的负担。

在这个小小设备里，还有边缘计算芯片直接处理音频，延迟最低 40 毫秒。它不需要持续联网，只在分析声音时短暂调用云端资源。还有其他能力像是 IP65 防水，一次充电支持 1000 次翻译，和 100 小时 GPS 追踪。

它们在众筹平台上的宣传提到，所使用的声学模型背后是超过 150 万条宠物叫声样本，结合动物行为学的同行评审研究。最终达到的成果是，仅凭声音模式识别情绪状态，准确率达到 91-92%，加入姿态监测维度之后，实验室条件下综合准确率达到 94.6%。

500 万+的宠物声纹数据

在众筹页面有两张不太清晰的宣传图，列出了这些数据是在哪些基准上进行测试的。我们拿着放大镜看，发现其中提到了两篇论文。

一篇是来自多媒体顶会 MM 2025 的 DogSpeak，犬类发声分类数据集。

作者在这篇文章里，提出了一个大型狗叫声数据集 DogSpeak，目标是研究能不能只靠狗的叫声判断狗的性别、品种，甚至是哪一只狗。

它的数据来源是 YouTube、TikTok 等社交媒体上的狗视频。作者先用哈士奇、吉娃娃、德国牧羊犬、比特犬、柴犬五个品种去搜视频，然后根据频道信息、标题、评论等确认狗的身份、性别、品种。

最后得到了 156 只狗、5 个品种、77202 段狗叫序列、33.162 小时纯狗叫声。这些数据都没有标注不同的声音代表狗狗在做什么，也没有添加任何的情境信息。

文章的实验任务主要是通过声音序列，来判断狗狗的性别、品种和识别具体是哪一只狗。而实验结果显示，单就这些任务，也没有想象中容易。 单纯依靠「纯声学特征」，是很难完美解决真实复杂环境下的狗叫声识别。

可以考虑结合表情

作者在文末建议未来的研究应该跳出传统音频技术的舒适圈，去探索更高级的结构性、韵律性、甚至是犬类潜在的「语言学」特征。

另一篇论文同样是来自 MM，2014 的城市声音研究的数据集和分类法。这是城市环境声分类领域的经典数据集论文，核心贡献是 UrbanSound8K 数据集和城市声音分类法。

作者把城市声音分成人声、自然、机械、音乐等大类，再细到狗叫、汽车喇叭、警笛、钻孔、空调、街头音乐等具体声音源。

PettiChat 引用了这两篇论文的数据集进行测试，以及联合浙大动科院积累了 500万+宠物声纹数据，大约150万条标注，同时在数据集上增加了 UrbanSound 的环境声音，以确保在真实环境的鲁棒性。

PettiChat 所使用的模型，是基于阿里云通义千问大模型。而参与测试的模型包括没有经过预训练的 Qwen2-Audio、Qwen2.5-Omni-7B、Qwen3-Omni-30BA3B，以及小米 Mino-V2-Omni。

他们根据这些声纹数据和 UrbanSound 8K 做了一个很大的独立测试集，里面有「叠加过背景噪音的宠物叫声音频样本」，比如一段狗叫或猫叫，叠上电视声、车流声、家电声、街道声等，做成更接近真实生活的混合音频。

以及各种各样的噪音样本，这些可能是不含宠物声音的背景声，用来测试模型会不会把普通噪音误判成宠物叫声。

这些既有带噪声的宠物叫声，也有纯噪声/非宠物声音，只是被用来测试模型能不能在复杂真实环境里准确识别宠物声音。Petti 模型的表现在这一项测试下，达到了平均 98.6% 的识别/检测层面的准确率。

计算准确率的方式是「是否识别宠物声音」，而不是在测试「能不能翻译宠物在想什么」。

在另一项测试中，没有其他的对比模型，也没有列明具体的测试集，只是使用 PETTI-260315 这一模型，测试了其在猫/狗情境声音识别中的准确率。

猫猫的分类标签包括了攻击/敌对、颤音/社交亲近、叫唤请求/急迫、防御性打斗行为、防御性威胁、捕猎意图/潜伏、痛苦/压力叫声、环境干扰、呼噜/休息。这些数据一共有 19 万条，是经过专家检查过的猫猫声音情境测试数据。

狗狗同样是用了 8.4 万条专家检查过的狗声音情境测试数据，里面的分类标签也包括了攻击/敌对、节律性发声、远距离呼叫、分离焦虑、环境干扰、领地警戒、服从/安抚。

针对这些情境的测试，猫猫的平均准确率达到了 94.6%，狗狗是 92.3%。

而标记这些声音属于哪一种情境，在他们的众筹宣传文章里面还提到了 Video Ground Truth 这个概念。

它的意思是用视频中的行为、环境、姿态、主人互动等作为标签来源，去对齐宠物声音和场景。

比如视频里狗对门口陌生人叫，这段声音就会被标记成 alert / stranger detected；当猫靠近食盆叫，这段声音序列就被标成 food seeking。

所以，本质上 94.6% 是宠物声音情境分类准确率， 而不是我们所理解的一句宠物语言翻译成人类语言的准确率。

但翻译成人类语言是真的有机会实现吗？就拿这个模型来说，它输出的原始结果，可能只是一个标签。

比如一段狗叫被识别为「领地警戒」，这在测试里可以算作一次分类正确。但到了 App 里，它显示的是「有人来了，我要守住这里。」

一段猫叫被识别为「急迫性请求叫声」，应用里弹出的对话也会是更个性化的「快看看我嘛，我有点着急。」

从「行为标签」到「拟人化翻译」的再加工，它反而让产品变得好玩、亲切，也更像真的在对话。但严格来说，这部分根本不再是那 94.6% 可以直接覆盖的范围。

因为测试集里的标准答案大概率不是一句自然语言。这些模型只需要判断这段声音更接近「分离焦虑」、「领地警戒」、「呼噜休息」，并不需要证明宠物真的想说「别把我忘了」或者「我想亲亲你的手」。

这也是所有宠物翻译产品最微妙的地方，它可能不是骗子式的随机翻译，但也还远不是我们想象中的宠物语言翻译器。

","author":"ME精选","type":"转载"}

市场机遇

Gensyn实时价格 (AI)

$0.02904

$0.02904$0.02904

-2.61%

USD

Gensyn (AI) 实时价格图表

AI 策略交易：全天候运行

使用自然语言生成自动化策略

免责声明: 本网站转载的文章均来源于公开平台，仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利，请联系 crypto.news@mexc.com 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证，并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考，不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。