小米声音识别算法性能新突破：国际排名第一

9月13日消息小米自研声音识别算法在音频标记（Audio Tagging）任务中取得重要进展。

以公开数据集AudioSet-2M的音频数据作为训练集的音频标记模型，首次突破50 mAP的分数，此项突破标志着小米声音识别算法已在国际上性能排名第一。

据了解，Google将AudioSet数据集分为三个子集，前两个子集用于训练，被合并称为 “AudioSet-2M”。正是在这个合并后的训练集中，小米的声音识别算法模型首次在业界突破了50 mAP，刷新了音频标记技术指标，成为截至目前性能最好的模型。

此外，小米还发布了一个Mini版模型，适合资源受限的场景。该模型的参数量被压缩到了原模型的约九分之一，远小于其他机构的模型，但性能却优于其他所有机构。

这项技术的突破意味着小米的声音识别算法能力再次精进，小米的众多智能硬件设备应用此项技术后，可以更敏锐地捕捉和识别环境声音，大幅提升硬件的智能化程度，从而为用户创造更加便捷的智能生活体验。

小米此次精进后的声音识别算法，具有极高的应用价值。它能够广泛应用于小米的智能设备中，大幅提升用户的智能生活体验。具体来说，音频标记算法能够识别广泛的环境声音，比如婴儿的啼哭声、动物叫声、汽车引擎声、爆炸声、烟雾警报、门铃声、水流声等，并让环境中的声音以文字等模态表达。

此外，这项算法技术还广泛应用于小米机器人的研发中，大幅提升了机器人的感知能力。人形机器人CyberOne可以识别85种环境声音，能够通过听觉感知6类、45种人类情绪。而小米第二代仿生四足机器人CyberDog 2则可以识别38种环境声音，实现更强大的动态响应能力。

涉及观点仅代表个人，与本站立场无关。本站不对内容的真实性及完整性作任何承诺。