通过python从音频文件中提取音频

时间:2014-06-24 09:18:42

标签: python audio beat-detection

很抱歉,如果我提交副本,但我想知道python中是否有任何lib能够从音频文件中提取声谱。我希望能够获取一个音频文件并编写一个algoritm,它将返回一组数据{TimeStampInFile;频率 - 幅度}。

我听说这通常被称为节拍检测,但据我所知,节拍检测不是一种精确的方法,它只适用于可视化,而我想操纵提取的数据,然后将其转换回音频文件。我不需要实时这样做。

我将不胜感激任何建议和建议。

2 个答案:

答案 0 :(得分:5)

我认为你的问题有三个不同的部分:

  1. 如何将音频文件加载到python中?
  2. 如何在python中计算频谱?
  3. 如何处理频谱?
  4. <强> 1。如何在python中加载音频文件?

    使用scipy可能最好,因为它提供了许多信号处理功能。用于加载音频文件:

    import scipy.io.wavfile
    
    samplerate, data = scipy.io.wavfile.read("mywav.wav")
    

    现在,samplerate中的采样率(samples / s)和numpy.array中的数据为data。您可能希望将数据转换为浮点数,具体取决于您的应用程序。

    还有一个用于加载wav文件的标准python模块wave,但numpy / scipy提供了更简单的界面和更多信号处理选项。

    <强> 2。如何计算光谱

    简要回答:使用FFT。有关更多智慧的话,请参阅:

    Analyze audio using Fast Fourier Transform

    更长的答案很长。窗口非常重要,否则你会有奇怪的光谱。

    第3。如何处理频谱

    这有点困难。通常在时域中执行滤波以获得更长的信号。也许如果你告诉我们你想要完成什么,你会得到一个很好的答案。计算频谱是一回事,在信号处理中获得有意义的结果有点复杂。

    (我知道你没有问过这个,但我看到它的概率&gt;&gt; 0.当然,你可能对音频信号处理有很好的了解,在这种情况下,这是无关紧要的。 )

答案 1 :(得分:3)

您可以使用scipy计算并可视化频谱和频谱图,对于此测试,我使用了以下音频文件:vignesh.wav

from scipy.io import wavfile # scipy library to read wav files

AudioName = "vignesh.wav" # Audio File
fs, Audiodata = wavfile.read(AudioName)

# Plot the audio signal in time
import matplotlib.pyplot as plt
plt.plot(Audiodata)
plt.title('Audio signal in time',size=16)

# spectrum
from scipy.fftpack import fft # fourier transform
n = len(Audiodata) 
AudioFreq = fft(Audiodata)
AudioFreq = AudioFreq[0:int(np.ceil((n+1)/2.0))] #Half of the spectrum
MagFreq = np.abs(AudioFreq) # Magnitude
MagFreq = MagFreq / float(n)
# power spectrum
MagFreq = MagFreq**2
if n % 2 > 0: # ffte odd 
    MagFreq[1:len(MagFreq)] = MagFreq[1:len(MagFreq)] * 2
else:# fft even
    MagFreq[1:len(MagFreq) -1] = MagFreq[1:len(MagFreq) - 1] * 2 

plt.figure()
freqAxis = np.arange(0,int(np.ceil((n+1)/2.0)), 1.0) * (fs / n);
plt.plot(freqAxis/1000.0, 10*np.log10(MagFreq)) #Power spectrum
plt.xlabel('Frequency (kHz)'); plt.ylabel('Power spectrum (dB)');


#Spectrogram
from scipy import signal
N = 512 #Number of point in the fft
f, t, Sxx = signal.spectrogram(Audiodata, fs,window = signal.blackman(N),nfft=N)
plt.figure()
plt.pcolormesh(t, f,10*np.log10(Sxx)) # dB spectrogram
#plt.pcolormesh(t, f,Sxx) # Lineal spectrogram
plt.ylabel('Frequency [Hz]')
plt.xlabel('Time [seg]')
plt.title('Spectrogram with scipy.signal',size=16);

我测试了所有代码,并且可以正常工作,您需要numpy,matplotlib和scipy。

欢呼