当使用MFCC和Delta系数时,为什么Log可能性很奇怪

时间:2017-10-25 19:41:19

标签: audio machine-learning mfcc gmm log-likelihood

我正在开发一个需要从音频流中提取MFCC功能的项目。该项目主要包括分类,虽然为了扩展我们的数据集,我正在研究一种检测算法来隔离我们感兴趣的声音部分。

我正在测试不同的表示形式,并且由于数据的性质(我希望我可以提供更多细节,但我正在与之合作的教授更愿意将其保密,我相当肯定),我会想象delta系数MFCC系数的顶部会有所帮助。

我正在提取40个MFCC系数以及40个Delta系数并将其用于检测。我有一组训练数据,包括一个40毫秒的窗口,围绕我感兴趣的音频流部分。我正在训练关于该数据的GMM。

为了测试(及其实际使用案例),我将更长的音频流(大约2秒)分成一系列MFCC帧。我根据对数似然得分中的百分位数提取每帧的对数似然和检测阈值,并且当使用delta系数时,我得到奇怪的结果。

No Delta Coefficients used in feature representations

Delta Coefficients used in feature representation

您可以忽略底部的4个数字,这些只是用于可视化我的阈值方案。

我想知道的是,为什么在使用delta系数时,与没有使用增量时相比,对数似然表现得如此奇怪?

提前感谢您,如果您需要澄清,请询问。

1 个答案:

答案 0 :(得分:0)

查看信号的幅度。与非三角洲相比,Delta Coeffs的例子非常低。也许这只是一个噪音?

尝试在完全相同的录制中使用和不使用delta运行系统。调试起来会更容易。

您还可以使用delta来附加MFCC的类似频谱图的可视化。