鉴于人类通话录音的wav文件(单声道16KHz采样率),有没有办法只提取声音,从而滤除大部分机械和背景噪音?我尝试在Python 3.6中使用librosa
包,但无法弄清piptrack
如何工作(或者如果有更简单的方法)。
尝试使用fft / ifft将频率限制为300-3400 range时,产生的声音严重失真。
sr, y = scipy.io.wavfile.read(wav_file_path)
x = np.fft.rfft(y)[0:3400]
x[0:300] = 0
x = np.fft.irfft(x)