我正在尝试使用PyAudio录制音频并对其执行FFT分析。
根据音频格式(paInt8或paInt16),即使声源和录制设置相同,音频数据的大小(在下面的代码中“解码”)也有所不同。幅度是指“已解码”值列表中的平均幅度或最大幅度。
import numpy as np
import os
import time
import pyaudio
import matplotlib.pyplot as plt
from scipy.fftpack import fft
CHUNK = 1024
FORMAT = pyaudio.paInt16
CHANNELS = 1
RATE = 44100
RECORD_SECONDS = 10
WAVE_OUTPUT_FILENAME = "test.wav"
p = pyaudio.PyAudio()
stream = p.open(format=FORMAT,
channels=CHANNELS,
rate=RATE,
input=True,
frames_per_buffer=CHUNK)
input('Press key to start recording:\n')
print('1 sec delay started') #delay so keystroke doesn't get recorded
time.sleep(1)
print("* recording")
frames = []
n = 1024
k=np.arange(n)
T = n/RATE
frq = k/T
frq = frq[range(int(n/2))] # one side frequency range
for i in range(0, int(RATE / CHUNK * RECORD_SECONDS)):
data = stream.read(CHUNK)
frames.append(data)
decoded = np.fromstring(data, dtype=np.int16) #grab the data in stream
fft_decode=fft(decoded)/(len(decoded)/2) #normalized FFT
mags=np.absolute(fft(decoded)) #
plt.ylim(top=55000)
plt.xlabel('Freq (Hz)')
plt.ylabel('|Y(freq)|')
plt.plot(frq, mags[range(int(n/2))],'b')
plt.pause(.01)
plt.gcf().clear()
print("* done recording")
plt.close()
我想知道我做错了什么吗?我的假设是这是预期的。这就是为什么:
麦克风根据声压输出电压。麦克风电压被放大,放大后的电压进入ADC。放大器的增益应使麦克风的最大输出与ADC的最大输入电压匹配。 ADC将输入电压转换为一个数字,该数字的大小可能取决于位数。因此,假设最大输入电压为5V,则8位为255,16位为65535。
当我使用PyAudio录制音频时,“已解码”由ADC输出的数字组成(是吗?),并且该数字会因我使用8位或16位编码而异。
请告知。