我正在尝试使用common voice数据集训练一个cnn。我是语音识别的新手,无法找到有关如何将数据集与keras结合使用的任何链接。我遵循这个article建立了一个简单的单词分类网络。但我想通过通用语音数据集进行扩展。任何帮助表示赞赏。
谢谢
答案 0 :(得分:4)
您可以做的是查看MFCCs。简而言之,这些是通过使用信号处理技术来转录人类感知声音的方式从音频波形中提取的特征。在python中,您可以使用python-speech-features来计算MFCC。
一旦准备好数据,就可以构建CNN;例如类似this one:
您还可以使用RNN(例如LSTM或GRU),但这要先进一些。
编辑:如果需要,可以启动一个非常好的数据集: