数字语音识别的特征提取

时间:2015-05-15 19:35:05

标签: neural-network speech-recognition feature-extraction

我正在寻找一种从音频中提取特征的方法,其中我使用神经网络的反向传播对数字1-10进行语音识别的数字(每个数字10个样本和每个数字的5个样本用于测试)。

我尝试使用原始音频数据,我也尝试在fft之后输入数据,并且仅使用十个最高频率输入数据并且失败。

您能否建议一种提取音频功能的方法,以帮助神经网络获得合理的结果?这是一个简单的项目,所以我的目标不是达到极高的性能,而是一个合理的性能来展示这种网络的学习能力。

1 个答案:

答案 0 :(得分:0)

你为什么不尝试MFCC? MFCC事实上是ASR的标准。 它们并没有考虑到NN的设计,但事实证明它们可以与其他几种ASR实现(最值得注意的是HMM)。