这就是想法:您可以使用短时傅立叶变换(stft)从音频文件生成频谱图。然后some people产生了一种称为“二进制掩码”的东西,以从反方向产生不同的音频(即,去除了背景噪声等)。
这是我的理解:
执行矩阵乘法后,如何创建新的音频文件?
虽然不多,但是这是我在代码方面得到的:
from librosa import load
from librosa.core import stft, istft
y, sample_rate = load('1.wav')
spectrum = stft(y)
back_y = istft(spectrum)
谢谢,here是一些幻灯片,使我走到了这一步。如果您能在python中给我一个示例/演示,我将不胜感激。