应用错误收集

数字语音识别的特征提取

时间：2015-05-15 19:35:05

标签： neural-network speech-recognition feature-extraction

我正在寻找一种从音频中提取特征的方法，其中我使用神经网络的反向传播对数字1-10进行语音识别的数字（每个数字10个样本和每个数字的5个样本用于测试）。

我尝试使用原始音频数据，我也尝试在fft之后输入数据，并且仅使用十个最高频率输入数据并且失败。

您能否建议一种提取音频功能的方法，以帮助神经网络获得合理的结果？这是一个简单的项目，所以我的目标不是达到极高的性能，而是一个合理的性能来展示这种网络的学习能力。

1 个答案:

答案 0 :(得分：0)

你为什么不尝试MFCC？ MFCC事实上是ASR的标准。它们并没有考虑到NN的设计，但事实证明它们可以与其他几种ASR实现（最值得注意的是HMM）。