Kaldi线下交流会后有感

admin

Oct. 29, 2019, 1:42 p.m.

前言

这篇主要写写感悟吧。
非常开心能够在非常繁忙的工作去参加第四届kaldi线下交流会。
感觉这一届的商业化的气息更加浓厚了。
大抵是这些交流会发展壮大之后都很难避免商业化吧。
这次交流会在小米新建的科技园，位于帝都清河。
会场很大，但还是坐满了，说明学习语音方向的同学还是很多吧。
交流会上听小米的副总裁说 Daniel Povey在正式加入小米之前已经定下了第四届交流会在小米科技园举办了。说明小米在语音方向的决心很大。
再加上Daniel加入小米，应该会吸引一批在Kaldi上面有情怀的同学吧。

正文

本次交流会上有声智，西工大，快商通，达摩院,昆山杜克大学,AISHELL 等公司和学校参与。
带干货的是达摩院那个session。
跳过开场的session。
第一个session是来自于西工大的谢磊老师，
介绍了有关KWS TTS 语音降噪相关的内容
在唤醒里面数据增强是非常重要一个步骤可以把小数据及扩充成一个较大的数据集
第二个session是来自SoundAI 的 cto
基于实践如何提升语音唤醒功能
没有什么干货，主要是强调了数据集大小对KWS的重要性
一层的唤醒会有误唤醒较高的问题，需要加策略解决
第三个session ：葡萄智学的语音发音良好度基于KALDI的实现
难得的跟kaldi主题相关的的一个session了
代码已经开源。
第四个session是AISHELL 的 Hi， Miya的数据集介绍
本词是AISHELL SVC的比赛用的数据集
据说要开源