Kaldi线下交流会后有感
Oct. 29, 2019, 1:42 p.m.
read: 1919
前言
这篇主要写写感悟吧。
非常开心能够在非常繁忙的工作去参加第四届kaldi线下交流会。
感觉这一届的商业化的气息更加浓厚了。
大抵是这些交流会发展壮大之后都很难避免商业化吧。
这次交流会在小米新建的科技园,位于帝都清河。
会场很大,但还是坐满了,说明学习语音方向的同学还是很多吧。
交流会上听小米的副总裁说 Daniel Povey在正式加入小米之前已经定下了第四届交流会在小米科技园举办了。说明小米在语音方向的决心很大。
再加上Daniel加入小米,应该会吸引一批在Kaldi上面有情怀的同学吧。
正文
本次交流会上有 声智,西工大,快商通,达摩院,昆山杜克大学,AISHELL 等公司和学校参与。
带干货的是达摩院那个session。
跳过开场的session。
第一个session是来自于西工大的谢磊老师,
介绍了有关KWS TTS 语音降噪相关的内容
在唤醒里面 数据增强是非常重要一个步骤 可以把小数据及扩充成一个较大的数据集
第二个session是来自SoundAI 的 cto
基于实践如何提升语音唤醒功能
没有什么干货,主要是强调了数据集大小对KWS的重要性
一层的唤醒会有误唤醒较高的问题,需要加策略解决
第三个session :葡萄智学的语音发音良好度基于KALDI的实现
难得的跟kaldi主题相关的的一个session了
代码已经开源。
第四个session是AISHELL 的 Hi, Miya的数据集介绍
本词是AISHELL SVC的比赛用的数据集
据说要开源
但是目前还没见到
更新于11.15
数据开放了,不过依然需要申请
AISHELL-WakeUP-1 中英文唤醒词语音数据库
更新于12.9
完全开源
OpenSLR
后记
拍了Daniel 同款照片美滋滋
广告时间
KALDI声纹识别交流群 群号:729152186