如何使用音频输入创建和训练张量流模型?

时间:2018-04-16 20:36:46

标签: tensorflow neural-network audio-processing

我的音频文件说“left.wav”,“right.wav”等等,我想创建一个模型,它将音频作为输入和输出标签“左”或“右”等。

问题

如何将原始音频输入神经网络?

1 个答案:

答案 0 :(得分:0)

scipy.io.wavfile.read()函数将以numpy数组的形式返回采样率和整个音频。

然后,您可以将其提供给您的网络。

import scipy
rate, numpy_audio = scipy.io.wavfile.read( "left.wav" )

如果您想进行语音识别,请查看DeepSpeech,这是一个大型项目,但您可能会在那里获得一些好主意。

对于更简单的介绍,Tensorflow有一个Simple Audio Recognition教程。

要生成音频,您可能需要考虑WaveNet - this is one particular implementation