我正在做一个项目,通过使用广告的剪辑片段(标语)来检测传输中的广告,基于查看音频轨道,如下所示:
音频信号 - >框架 - >窗口 - > FFT (快速傅里叶变换) - > DCT (离散余弦变换) - > MFCC (梅尔频率倒谱系数) - > DTW (动态时间扭曲)。为此,我使用 MFCC 作为音频功能, DTW (动态时间扭曲)用于音频帧之间的比较和欧几里德距离的平均值将帧之间相加以计算扭曲距离。然后将翘曲距离除以帧的总数来计算 MSE (均方误差),其针对阈值1进行检查。
我的算法无法检测来自嘈杂传输的广告和同一标语的不同广告。我是否使用正确的方法进行此类音频检测?还有其他方法更合适吗?如果需要,你能否建议我任何好的信号预过滤?