语音指令识别中的最小序列混淆错误准则(讨论记录)

July 12, 2022, 6:21 p.m.

read: 44

免责声明: 本文是我和MaisyZhang同学的对于公开的论文一些私下讨论记录,并不是推荐或者不推荐以下提到相关的论文。

0x0 前情概要

今天老板在群里分享一个公众号PR稿子- 论文推介:语音指令识别中的最小序列混淆错误准则
论文原文链接
提出了一种比较新颖的方案用于“语音指令识别任务(Speech Command Recognition,SCR)”,在我看来这个更像是“多命令词语音唤醒任务(Mutil-Keyword Spotting )” 或者说是 “免唤醒任务(也就是不需要主唤醒词)直接说相关命令词即可唤醒的任务”,在MaisyZhang同学看来这个就是“指令级别的ASR”。

0x01 直接看结论


从文章的最后的结论来说这个方案的性能绝对不能说是性能有多好。
这篇论文的实验最后的指标采用的测试集都是单条语音(论文5.1章节),我们觉得这个实验设置存在一些问题:
1.论文中的网络结构设置的是一个因果的网络,应该是一个可以实时推理的,唤醒率和误唤醒的测试应该都在一个连续的长段的音频去进行测试唤醒率和误唤醒更加合适;
2.我们认为误唤醒这个指标看百分比的意义不大,而是测试单位时间内的误唤醒的次数意义更大一点(按照一小时的无关的长语音的误唤醒次数来看指标应该不是很好看)。

这篇论文主要的贡献点应该是在多唤醒词(特别是多个唤醒词之间比较相近的情况下)如何解决混淆的问题,提出了一个在一个理想的场景下可用的一个方案。
他们提出的方案就是一个名为最小分类误差(MSCE)的一个约束。
具体的实现在论文原文中有比较详细的描述(论文4.1章节)。




亲,不要再翻啦!

已经到首页啦

这个真是个魔幻的世界【220708】

文章标题:这个真是个魔幻的世界【220708】文章内容:原文地址:微博

推荐使用 Firefox 访问此站点 | 服务器由 胡霞 赞助 | 友情链接: 张鹏的博客  杨洋的博客
此站点由 张鹏 开发,由 ASP.NETIIS 强力驱动 | © 2018-2022 hupeng.me. All Rights Reserved.