我需要确定某人在音频流中说话的时间。我应用了汉明窗口并计算了FFT。我如何从这里检测到人声?
答案 0 :(得分:2)
如果您想尝试自己的语音活动检测算法,可以使用FFT作为初始阶段。接下来,您可能想尝试减去任何已表征的固定光谱噪声背景。然后,您可以尝试使用修改的FFT结果来计算特征提取的倒谱(或一些加权倒谱系数)。然后,您可以对您决定提取的任何特征向量进行一些统计模式匹配,并将结果提供给决策算法。
上述每个步骤都可能是一个研究课题,一个好的实施可能涉及研究几十篇已发表的研究论文,这些论文也许可以在你的大学图书馆找到。
答案 1 :(得分:1)
您不需要为此进行FFT,您需要实现Voice Activity Detection算法。