标签: neural-network speech-recognition pattern-recognition speaker
我有一个说话人识别项目,我想使用多层感知器神经网络,我已经提取了MFCC特征,说话人的语音样本有350帧,每帧有39个MFCC特征。
我应该使用哪个?
39个输入神经元,这意味着所有帧都发送到输入层
39 * 350个输入神经元,这意味着所有帧都被发送到输入 一层。
因为我不熟悉神经网络,所以我不知道如何确定输入层的大小。
谢谢。