Question

好的，我试图做的是一种音频处理软件，可以检测频率频率，如果频率播放足够长（几毫秒），我知道我得到了一个积极的匹配。我知道我需要使用FFT或类似的东西但是在这个数学领域我很糟糕，我确实搜索了互联网，但没有找到只能做到这一点的代码。

我试图获得的目标是使自己成为通过声音发送数据的自定义协议，每秒需要非常低的比特率（5-10bps）但是在发送端也非常有限，所以接收软件需要是能够自定义（不能使用实际的硬件/软件调制解调器）我也希望这只是软件（除了声卡之外没有其他硬件）

非常感谢你的帮助。

Answer 1

aubio库已经用SWIG包装，因此可以被Python使用。其众多功能包括几种音调检测/估算方法，包括YIN算法和一些谐波梳算法。

然而，如果你想要一些更简单的东西，我会在一段时间之前编写一些用于音高估计的代码，你可以接受或离开它。它不如在aubio中使用算法那么准确，但它可能足以满足您的需求。我基本上只是将数据的FFT乘以一个窗口（在这种情况下是一个Blackman窗口），平方FFT值，找到具有最高值的bin，并使用最大值的对数在峰值周围使用二次插值和它的两个相邻值来找到基频。我从一些论文中得到的二次插值。

它在测试音调上工作得相当好，但它不像上面提到的其他方法那样强大或准确。通过增加块大小可以提高准确度（或者通过减小块大小来减少）。块大小应为2的倍数，以充分利用FFT。另外，我只是确定每个块的基本音高而没有重叠。在写出估计的音高时，我用PyAudio播放声音。

源代码：

# Read in a WAV and find the freq's
import pyaudio
import wave
import numpy as np

chunk = 2048

# open up a wave
wf = wave.open('test-tones/440hz.wav', 'rb')
swidth = wf.getsampwidth()
RATE = wf.getframerate()
# use a Blackman window
window = np.blackman(chunk)
# open stream
p = pyaudio.PyAudio()
stream = p.open(format =
                p.get_format_from_width(wf.getsampwidth()),
                channels = wf.getnchannels(),
                rate = RATE,
                output = True)

# read some data
data = wf.readframes(chunk)
# play stream and find the frequency of each chunk
while len(data) == chunk*swidth:
    # write data out to the audio stream
    stream.write(data)
    # unpack the data and times by the hamming window
    indata = np.array(wave.struct.unpack("%dh"%(len(data)/swidth),\
                                         data))*window
    # Take the fft and square each value
    fftData=abs(np.fft.rfft(indata))**2
    # find the maximum
    which = fftData[1:].argmax() + 1
    # use quadratic interpolation around the max
    if which != len(fftData)-1:
        y0,y1,y2 = np.log(fftData[which-1:which+2:])
        x1 = (y2 - y0) * .5 / (2 * y1 - y2 - y0)
        # find the frequency and output it
        thefreq = (which+x1)*RATE/chunk
        print "The freq is %f Hz." % (thefreq)
    else:
        thefreq = which*RATE/chunk
        print "The freq is %f Hz." % (thefreq)
    # read some more data
    data = wf.readframes(chunk)
if data:
    stream.write(data)
stream.close()
p.terminate()

Answer 2

如果您要使用FSK (frequency shift keying)进行数据编码，最好使用Goertzel algorithm，这样您就可以检查所需的频率，而不是完整的DFT / FFT。

Answer 3

您可以从here找到声音上滑动窗口的频谱，然后通过从here找到该频段的频谱曲线下的面积来检查是否存在流行的频段

Answer 4

虽然之前我还没有尝试使用Python进行音频处理，但也许您可以基于SciPy（或其子项目NumPy）构建一些东西，这是一个高效的科学/工程数值计算框架？您可以从查看scipy.fftpack的FFT开始。

Python频率检测

4 个答案: