应用错误收集

时间：2011-09-22 08:27:21

标签： signal-processing interpolation hidden-markov-models

我正在尝试串联分析音频和视觉功能。我的音频语音功能是使用隐马尔可夫模型工具包以100fps采样的mel频率倒谱系数。我的视觉特征来自我制作的唇部跟踪程序，并以29.97fps的速度进行采样。

我知道我需要插入我的视觉功能，以便采样率也是100fps，但我找不到一个很好的解释或教程如何在线执行此操作。我发现的大多数帮助来自语音识别社区，该社区代表读者假设插值知识，即大多数用简单的“插入视觉特征以使得采样率等于100fps”来覆盖该步骤。

任何人都能指引我走向正确的方向吗？

万分感谢

答案 0 :(得分：1)

由于在视频捕获之前不对面部移动进行低通滤波，因此大多数经典DSP插值方法可能不适用。您也可以尝试对特征向量进行线性插值，以便从一组时间点到另一组时间点的集合。只需选择最近的2个视频帧并进行插值即可获得更多数据点。如果您的面部跟踪算法测量面部运动的加速度，您也可以尝试样条插值。