python中的短时傅里叶变换

时间:2012-02-22 17:10:55

标签: python fft

我想在wav文件中获取每时刻最大功率的频率。 所以我用scipy中的fft用Python写了STFT。我使用了scipy的kaiser窗口功能。一切看起来都很棒,但我的输出看起来很奇怪。它有一些非常小的数字和一些非常高的数字。

这是一个wav文件的输出:http://pastebin.com/5Ryd2uXj 这是python中的代码:

import scipy, pylab
import wave
import struct
import sys

def stft(data, cp, do, hop):
    dos = int(do*cp)
    w = scipy.kaiser(dos,12) //12 is very high for kaiser window
    temp=[]
    wyn=[]
    for i in range(0, len(data)-dos, hop):
        temp=scipy.fft(w*data[i:i+dos])
        max=-1
        for j in range(0, len(temp),1):
            licz=temp[j].real**2+temp[j].imag**2
            if( licz>max ):
                max = licz
                maxj = j
        wyn.append(maxj)
    #wyn = scipy.array([scipy.fft(w*data[i:i+dos])
        #for i in range(0, len(data)-dos, 1)])
    return wyn

file = wave.open(sys.argv[1])
bity = file.readframes(file.getnframes())
data=struct.unpack('{n}h'.format(n=file.getnframes()), bity)
file.close()

cp=44100 #sampling frequency
do=0.05 #window size
hop = 5

wyn=stft(data,cp,do,hop)
print len(wyn)
for i in range(0, len(wyn), 1):
    print wyn[i]

1 个答案:

答案 0 :(得分:5)

正弦波的实际FT是一对与0频率等距的delta函数。使用离散函数(样本),在频域中每fs(采样率)重复一次。 FFT计算中的小误差意味着这两个增量(正弦波的FT)将不会完全相同的高度,因此您的算法只是选择较高的算法。

scipy FFT函数将为您提供域[0, fs]的频率分量。由于(如上所述)这是周期性的,因此通过在中心点交换结果,这些值也可以重新映射为[-fs/2, fs/2] - 请查看使用fftshift执行此操作。 听起来你可能只对频率感兴趣,所以你可以简单地丢弃FFT结果的后半部分。

来自scipy.fftpack.fft的说明:

  

结果的打包是“标准”:如果A = fft(a,n),则A [0]包含零频率项,A [1:n / 2 + 1]包含正频率术语A [n / 2 + 1:]包含负频率项,按负频率递减的顺序排列。因此,对于8点变换,结果的频率为[0,1,2,3,4,-3,-2,-1]。