正确使用张量流STFT功能

时间:2017-08-27 09:20:38

标签: audio tensorflow

我正在尝试构建类似于使用Audacity创建的音频样本的绘图频谱。从Audacity的维基页面,绘图谱(附加示例)执行:

  

Plot Spectrum将音频采用“大小”样本的块进行处理   FFT,并将所有块平均在一起。

enter image description here

我以为我会使用Tensorflow最近提供的STFT功能。

我正在使用大小为512的音频块,我的代码如下:

audio_binary = tf.read_file(audio_file)
waveform = tf.contrib.ffmpeg.decode_audio(
    audio_binary,
    file_format="wav",
    samples_per_second=4000,
    channel_count=1
)

stft = tf.contrib.signal.stft(
    waveform,
    512,     # frame_length
    512,     # frame_step
    fft_length=512,
    window_fn=functools.partial(tf.contrib.signal.hann_window, periodic=True), # matches audacity
    pad_end=True,
    name="STFT"
)

但是当我期望每帧(512个样本)的FFT结果时,stft的结果只是一个空数组

我打电话的方式出了什么问题?

我已经确认只使用常规tf.fft功能正确读取波形音频数据。

1 个答案:

答案 0 :(得分:1)

audio_file = tf.placeholder(tf.string)

audio_binary = tf.read_file(audio_file)
waveform = tf.contrib.ffmpeg.decode_audio(
    audio_binary,
    file_format="wav",
    samples_per_second=sample_rate,    # Get Info on .wav files (sample rate)
    channel_count=1             # Get Info on .wav files (audio channels)
)

stft = tf.contrib.signal.stft(
    tf.transpose(waveform),
    frame_length,     # frame_lenght, hmmm
    frame_step,     # frame_step, more hmms
    fft_length=fft_length,
    window_fn=functools.partial(tf.contrib.signal.hann_window, 
            periodic=False), # matches audacity
    pad_end=False,
    name="STFT"
)