如何使用二进制掩码和STFT生成音频文件?

时间:2018-08-01 22:15:34

标签: python python-3.x audio mask spectrogram

这就是想法:您可以使用短时傅立叶变换(stft)从音频文件生成频谱图。然后some people产生了一种称为“二进制掩码”的东西,以从反方向产生不同的音频(即,去除了背景噪声等)。

这是我的理解:

  1. stft是一个应用于音频文件的简单方程式,该方程式生成可以轻松显示为声谱图的信息。
  2. 通过获取stft矩阵的逆数,然后将其乘以相同大小的矩阵(二进制矩阵),您可以创建一个包含信息的新矩阵,以生成带有掩蔽声音的音频文件。

执行矩阵乘法后,如何创建新的音频文件?

虽然不多,但是这是我在代码方面得到的:

from librosa import load
from librosa.core import stft, istft
y, sample_rate = load('1.wav')
spectrum = stft(y)
back_y = istft(spectrum)

谢谢,here是一些幻灯片,使我走到了这一步。如果您能在python中给我一个示例/演示,我将不胜感激。

0 个答案:

没有答案