如何在Pytorch的VAD应用程序中使用MFCC?

时间:2019-12-29 22:06:48

标签: python matlab pytorch speech-recognition

我计划使用涉及语音的数据集中的MFCC参数来创建带有pytorch的基于神经网络的模型,然后根据学习的mfcc参数确定测试音频中包含语音或不包含语音的帧(VAD) 。我需要尽可能简单地实现这样的二进制分类器,因为我对Python不那么熟悉。

我已经查看了此链接中的数据集:

https://github.com/jtkim-kaist/VAD

包含少量用于训练的WAV类型音频样本,同时具有MAT文件,该文件显示在哪个采样时间有语音(1)或没有语音(0)。 但是,当我在MATLAB中运行mfcc命令时,它给出的大小为420 x 14的系数矩阵 我认为每帧有14个滤波器组系数。我还认为MATLAB设置的默认帧数为420,对吗? Python Librosa可以为相同的音频样本提供相同的尺寸吗?我可以在网络上训练所有语音或非语音帧的整个mfcc参数,还是必须先查找包含语音的帧然后才进行训练? pytorch中是否有与VAD相关的简单二进制分类器示例?

0 个答案:

没有答案