Kaldi线下交流会后有感

Oct. 29, 2019, 1:42 p.m.

read: 1919

前言

这篇主要写写感悟吧。
非常开心能够在非常繁忙的工作去参加第四届kaldi线下交流会。
感觉这一届的商业化的气息更加浓厚了。
大抵是这些交流会发展壮大之后都很难避免商业化吧。
这次交流会在小米新建的科技园,位于帝都清河。
会场很大,但还是坐满了,说明学习语音方向的同学还是很多吧。
交流会上听小米的副总裁说 Daniel Povey在正式加入小米之前已经定下了第四届交流会在小米科技园举办了。说明小米在语音方向的决心很大。
再加上Daniel加入小米,应该会吸引一批在Kaldi上面有情怀的同学吧。

正文

本次交流会上有 声智,西工大,快商通,达摩院,昆山杜克大学,AISHELL 等公司和学校参与。
带干货的是达摩院那个session。
跳过开场的session。
第一个session是来自于西工大的谢磊老师,
介绍了有关KWS TTS 语音降噪相关的内容
在唤醒里面 数据增强是非常重要一个步骤 可以把小数据及扩充成一个较大的数据集
第二个session是来自SoundAI 的 cto
基于实践如何提升语音唤醒功能
没有什么干货,主要是强调了数据集大小对KWS的重要性
一层的唤醒会有误唤醒较高的问题,需要加策略解决
第三个session :葡萄智学的语音发音良好度基于KALDI的实现
难得的跟kaldi主题相关的的一个session了
代码已经开源。
第四个session是AISHELL 的 Hi, Miya的数据集介绍
本词是AISHELL SVC的比赛用的数据集
据说要开源

但是目前还没见到

更新于11.15
数据开放了,不过依然需要申请

AISHELL-WakeUP-1 中英文唤醒词语音数据库

更新于12.9
完全开源

OpenSLR

后记

拍了Daniel 同款照片美滋滋

广告时间

KALDI声纹识别交流群 群号:729152186




WAV降采样方式横向评测

# scipy.signal 进行降采样 def wav_file_resample(sig, source_sample=44100, dest_sample=16000): try: …

QQ·Linux版

文章标题: QQ·Linux版文章内容: 乍见之欢不如久处不厌久处之厌莫若只如初见 我记得上一次我用QQforLinux还是在我小学的时候那时候我就感觉发消息 收消息很慢 但是吧不是不能用后来Li…

此站点由 ASP.NETIIS 驱动 | © 2018-2023 hupeng.me. All Rights Reserved.