Question

我正在尝试在原始音频上应用机器学习算法。我的训练将是音频信号的傅里叶系数。我试图获取这些并应用ifft来恢复我的音频，但它不适用于我的实现，即：

fs, data = wavfile.read('dataset piano/wav/music (1).wav')
Te = 0.25
T = 40

a = data.T[0] #retrieve first channel
#put the information in a matrix, one row will contain the fourier coefficients of 0.25s of music.
#The whole matrix, which has 40 rows will contain information of 10s of the wav file.
X = np.array([fft(a[int(i*fs*Te):int((i+1)*fs*Te)]) for i in range(T)])
Z = ifft(X.flatten())
Z = Z.astype(data.dtype)

wavfile.write('test3.wav',fs,Z)

通常它应该播放wav文件的前10个但是它没有，我真的不明白为什么。我得到的只是高音调。我正在使用scipy的fft和ifft。

Answer 1

你非常接近。只需改变

Z = ifft(X.flatten())

到

Z = ifft(X).flatten()

你正在做的是在光谱串联上计算逆傅里叶变换，这实际上没有意义。我认为您更愿意做的是在光谱上连接傅立叶逆变换。这就是我所做的，并设法重建一个听起来很好的信号。

ifft(X)将在最后一个维度上的每个数组上运行IFFT，这是您的情况下的频谱维度，并返回相同形状的数组（40,11025）。然后展平将连接每一行，发出一个明智的信号。

scipy.io fft和ifft的问题

1 个答案: