一只妖孽的逗比人生

我的理想:过着猪一样的生活,瘦的像猴子一样

开启逗比人生

Kaldi FBank算法阅读笔记

March 20, 2020, 8:09 p.m.

read: 2072

阅读过程make_fbank.sh $cmd JOB=1:$nj $logdir/make_fbank_${name}.JOB.log \ extract-segments scp,p:$scp $logdir/segments.JOB ark:- \| \ compute-fbank-feats $vtln_opts $write_utt2dur_opt --verbose=2 \ --config=$fbank_config ark:- ark:- \| \ copy-feats --compress=$compress $write_num_fr…

Kaldi里面各种窗函数的实现

March 19, 2020, 11:30 a.m.

read: 1476

里面的M_2PI为2π的常数, 直接代入即可值得注意的是里面有一个叫做povey的窗(kaldi作者自己命名的窗),且计算mfcc,fbank等特征的时候默认用的就是这个窗。指定其他窗如hamming窗,在mfcc.conf 或者 fbank.conf等配置文件里面 --window-type=hamming 即可切换到其他的窗函数,所有支持的窗函数及计算方法见下图 python实现的hamming窗 hamming_list = [] a = 2 * math.pi / (n_fft - 1) for i in range(n_fft): hamming_list.append(0…

Mel滤波器横向对比学习笔记

March 17, 2020, 10:05 p.m.

read: 2812

0x00本节主要讲相关的理论基础 最近学习LPC特征提取时候看到 BFCC 和 语音识别常用的 MFCC 类似,都是利用人类听觉特性,尽管 Bark scale 是根据人耳对响度感知实验确定的刻度,而 Mel scale 是根据人耳对音高感知实验确定的刻度,二者最终分的频带很类似,都是低频分辨率高,高频分辨率低,和线性频率对应关系都近似对数关系,因此我觉得这个工作中 BFCC 替换成 MFCC 特征应该也可以。该工作并没有严格使用 Bark Frequency, 而是使用了和 Opus 编码器一样的频带转换,作者称 Bark Frequency 低频带宽太窄,会导致样本太少参数估计不准。下…

音频信号的三次样条插值学习笔记

March 12, 2020, 9:32 p.m.

read: 1181

对音频信号进行三次样条插值(Cubic Spline Interpolation)以8k插值为16k信号为例,下方为matlab代码 [y, fs] = audioread('8k.wav'); % 读取原始的音频文件 y = y'; % 对音频数据进行转置 y_size = size(y); % 读取音频文件的长度信息,第一维度是ch,此处为1 x = 0:1:y_size(2)-1; % 构造出…

python 读取wav的采样率

March 1, 2020, 10:28 a.m.

read: 1434

使用标准库读取# librosa import librosa y, sr = librosa(filename, sr=None)。 # pysoundfile import soundfile as sf sig, sr = sf.read(filename) # scipy from scipy.io import wavfile sr, sig = wavfile.read(filename) 考虑效率的话直接读取文件头 # 直接读取二进制流 # 从上图可以看到读取24-28字节的数据就是其采样率 import struct def read_sample_rate(filena…

使用ffmpeg对wav文件进行降采样

Feb. 26, 2020, 5:14 p.m.

read: 1422

依赖pysoundfile,ffmpeg把采样率大于16k的wav文件降采样为16k速度比使用librosa快很多,适合批量处理的情况不适合在Windows环境下运行更快读取sr的优化可以参考这个文章/articles/100.html import os, soundfile as sf, shutil root_dir = '/home/zhangpeng/mydisk' data_names = ['ffsvc2020/dev', 'ffsvc2020/train', 'nihaomiya_all/train', 'nihaomiya_all/dev'] def get_paths(w…

python 读写 pickle文件

Jan. 15, 2020, 5:25 p.m.

read: 1099

以python3为例注意:python3 与 python2 默认生成的pickle文件不通用,你得加上参数, 即协议版本, 以下样例不加协议: # 写入文件 with open('1.pickle', 'wb') as f: pickle.dump(self.key_dict, f) # 读取文件 with open('1.pickle', 'rb') as f: key_dict = pickle.load(f)

Bye2019,Hello2020

Jan. 1, 2020, 3:42 p.m.

read: 952

今天是2020年元旦,阳历新年的第一天。又到了该更新一篇博客的时间了,链接一下去年今日的博客Hello 2019。毕竟是阳历新年的第一天,这个博客的主题应该是温故而知新?不不不应该是回顾过去的一年,展望新的一年才对。 回顾过去的一年过去的一年,过去的太快了, 来不及仔细的品就过去了。过去的一年最大的收获是迎来了某一个不愿透露姓名的猪。帮助我在SV任务上获取了较大的进展。昨天本来想和猪一起去深圳湾跨个年。。。然而溜得不够快,加班至11点。有人说付出总是有回报的,我觉得吧,付出不总是有回报的,但是可能会带来一些惊喜吧。昨天某猪在某个论文中找到了一个反直觉的方案,仔细一想会有另一番滋味。一切都进行…

pytoch dataloader can only join a child process

Nov. 24, 2019, 10:22 p.m.

read: 2410

环境python版本3.7.0pytorch版本1.3.1pycharm远程调试 import torch from torch import multiprocessing # DEPENDANCY: This is required for ``DistributedDataParallel`` # https://pytorch.org/docs/stable/nn.html?highlight=distributeddataparallel#torch.nn.parallel.DistributedDataParallel try: multiprocessing.set_…

SoX 变速不变调 音频加速减速

Nov. 24, 2019, 5:19 p.m.

read: 2519

SoX - 音频处理的瑞士军刀Welcome to the home of SoX, the Swiss Army knife of sound processing programs.摘自SoX官网SoX - 音频处理的瑞士军刀变速不变调音频加速减速 播放加/减速以待处理文件1.wav为例,下同 加速为原来的两倍 并播放 play 1.wav stretch 0.5 减速为原来的1/2 并播放 play 1.wav stretch 2 加/减速后存入文件加速为原来的两倍 并存为 out.wav sox 1.wav out.wav stretch 0.5 减速为原来的1/2 …

WAV降采样方式横向评测

Nov. 17, 2019, 5:36 p.m.

read: 1026

# scipy.signal 进行降采样 def wav_file_resample(sig, source_sample=44100, dest_sample=16000): try: signal.resample except: from scipy import signal ''' 对WAV文件进行resample的操作 !!!注意:sig必须是np.int16格式 :param file_path: 需要进行resample操作的wav文件的路径 :param source_sample…

Kaldi线下交流会后有感

Oct. 29, 2019, 1:42 p.m.

read: 1685

前言这篇主要写写感悟吧。非常开心能够在非常繁忙的工作去参加第四届kaldi线下交流会。感觉这一届的商业化的气息更加浓厚了。大抵是这些交流会发展壮大之后都很难避免商业化吧。这次交流会在小米新建的科技园,位于帝都清河。会场很大,但还是坐满了,说明学习语音方向的同学还是很多吧。交流会上听小米的副总裁说 Daniel Povey在正式加入小米之前已经定下了第四届交流会在小米科技园举办了。说明小米在语音方向的决心很大。再加上Daniel加入小米,应该会吸引一批在Kaldi上面有情怀的同学吧。 正文本次交流会上有 声智,西工大,快商通,达摩院,昆山杜克大学,AISHELL 等公司和学校参与。带干货的是达…

QQ·Linux版

Oct. 25, 2019, 10:02 a.m.

read: 764

乍见之欢不如久处不厌久处之厌莫若只如初见 我记得上一次我用QQforLinux还是在我小学的时候那时候我就感觉发消息 收消息很慢 但是吧不是不能用后来LinuxQQ的用户量也不多 版本也不更新了,也无法登录了。今天LinuxQQ在此发布新版本https://im.qq.com/linuxqq/download.html而现在的我也真正从事算法开发这个方向了。时间一晃眼它就过去了。。。

加/降混响

Oct. 21, 2019, 8:22 p.m.

read: 1881

1.降混响WPE包加权预测误差(WPE)是语音混响方法,由NTT Corporation NTT通信科学实验室开发。该页面提供了WPE的Matlab p代码可执行文件。设计和分发此软件包中包括的工具和程序,其唯一目的是评估基于加权预测误差(WPE)的去混响算法。 http://www.kecl.ntt.co.jp/icl/signal/wpe/ 2.加混响来自这篇论文 https://arxiv.org/abs/1710.04196 使用 pyroomacoustics 这个库 import numpy as np import matplotlib.pyplot as plt im…

MacOS 安装 Kaldi 的 PortAudio

Oct. 17, 2019, 10:07 a.m.

read: 1657

如果是基于kaldi的工程编译,则进入 kaldi/tools/运行 ./install_portaudio.sh 发生错误 ld: library not found for -lgcc_s.10.4 vim install_portaudio.sh 行数 96-106 加入一行 -e ‘s/-mmacosx-version-min=10.3//g’ \ if [ “$MACOS” != “” ]; then echo “detected MacOS operating system … trying to fix Makefile” mv Makefile Makefil…

Kaldi-aishell

Oct. 12, 2019, 3:33 p.m.

read: 1792

准备linux 以UBUNTU16.01为例 下载git clone https://github.com/kaldi-asr/kaldi.git or wget https://github.com/kaldi-asr/kaldi/archive/master.zip unzip master.zip mv kaldi-master kaldi 检查依赖cd kaldi/tools ./extras/check_dependencies.sh 直到输出 ./extras/check_dependencies.sh: all OK. 编译tools目录确认 当前工作目录还在 …

PyTorch统计网络的参数数量

Oct. 3, 2019, 3:51 p.m.

read: 808

传入参数为已经实例化完成的网络,输出为所有需要求梯度的参数的数量 def count_parameters(model): return sum(p.numel() for p in model.parameters() if p.requires_grad)

FFmpeg 命令行

Sept. 23, 2019, 5:51 p.m.

read: 1608

导出wav# 普通导出参数,且设定导出目标的采样率为16k ffmpeg -i huoying.mp4 -f wav -ar 16000 huoying.wav # 且设定导出目标的通道为1 ffmpeg -i huoying.mp4 -f wav -ar 16000 -ac 1 huoying.wav # 且设定导出目标的位深度为16bit ffmpeg -i huoying.mp4 -f wav -ar 16000 -ac 1 -acodec pcm_s16le huoying.wav # 且不打印log到屏幕 ffmpeg -i huoying.mp4 -f wav -ar 1600…

ASSERT FAILED at /pytorch/aten/src/ATen/native/cudnn/RNN.cpp:528

Sept. 2, 2019, 6:16 p.m.

read: 863

ASSERT FAILED at /pytorch/aten/src/ATen/native/cudnn/RNN.cpp:528 RuntimeError: params_from.size(0) == params_to.size(0) ASSERT FAILED at /pytorch/aten/src/ATen/native/cudnn/RNN.cpp:528, please report a bug to PyTorch. number of layers mismatch 这个bug仅在1.0.0上出现,在它的上一个版本 0.4.1与下一个版本1.1.0中都未复现,所以解决方案是…

此站点由 ASP.NETIIS 驱动 | © 2018-2023 hupeng.me. All Rights Reserved.