我正在实施Nicolas Juillerat & Beat Hirsbrunner's 2010 paper "Low Latency Audio Pitch Shifting in the Frequency Domain".中描述的音高变换方法我已经实现了迄今为止实现的大部分算法(here's the code如果你很好奇,但它不应该& #39;对这个问题很重要。)
我坚持第3.5节:处理调制效果的最后一步。将von Hann窗口应用于分析和合成阶段非常简单,但似乎本文缺少一些关于如何计算此曲线的细节,我应该将其除以:
其次,计算改变的分析窗口的周期 当前缩放比例,重叠因子,分析窗口和综合 窗口;并计算得到的幅度调制曲线。 在反向DFT和重叠 - 添加过程之后,得到 时域样本除以计算的幅度调制 曲线,以“解调”结果。
本文提供了一些示例图像,但我无法弄清楚应如何计算这些曲线。 (此操作应该适合我上面链接的要点的第119行。)该算法目前听起来比低延迟时的标准相位声码器方法更差,因此看起来这个解调步骤对算法的质量至关重要。
我不知道这种幅度调制的来源背后的数学,所以我不确定在哪里我甚至会开始弄清楚如何计算曲线。我可以在算法中加入一些正弦波,看看会出现什么,但这些信息基本上已经由图像提供,并没有帮助我弄清楚实际的公式。
那么,有没有人知道如何计算这种算法的幅度调制曲线?