audio - 音频标准化/固定？

我正在使用一些音频指纹技术来标记长录音中的歌曲。例如，在电台节目中。指纹识别机制工作正常，但我有规范化（或下采样）的问题。

在这里你可以看到两首相同但不同波形的歌曲。我知道我应该做一些DC偏移固定并使用一些高低增益滤波器。我已经通过Sox使用高通1015和低通1015来做它们。我使用wavegain来修复音量和DC偏移。但在这种情况下，波形变为如下所示：

但即使在这种情况下，我也无法获得相同的指纹。（我不期望％100相同，但至少％50会很好）

因此。你怎么看？如何修复记录以获得相同的指纹？也许一些音频过滤可以工作，但我不知道使用哪一个？你能救我吗？

顺便说一下，这里是指纹识别技术的解释。