我正在寻找一种从音频中提取特征的方法,其中我使用神经网络的反向传播对数字1-10进行语音识别的数字(每个数字10个样本和每个数字的5个样本用于测试)。
我尝试使用原始音频数据,我也尝试在fft之后输入数据,并且仅使用十个最高频率输入数据并且失败。
您能否建议一种提取音频功能的方法,以帮助神经网络获得合理的结果?这是一个简单的项目,所以我的目标不是达到极高的性能,而是一个合理的性能来展示这种网络的学习能力。
答案 0 :(得分:0)
你为什么不尝试MFCC? MFCC事实上是ASR的标准。 它们并没有考虑到NN的设计,但事实证明它们可以与其他几种ASR实现(最值得注意的是HMM)。