如何从音频流中检测语音

时间:2011-12-03 19:03:51

标签: signal-processing fft audio-processing

我需要确定某人在音频流中说话的时间。我应用了汉明窗口并计算了FFT。我如何从这里检测到人声?

2 个答案:

答案 0 :(得分:2)

如果您想尝试自己的语音活动检测算法,可以使用FFT作为初始阶段。接下来,您可能想尝试减去任何已表征的固定光谱噪声背景。然后,您可以尝试使用修改的FFT结果来计算特征提取的倒谱(或一些加权倒谱系数)。然后,您可以对您决定提取的任何特征向量进行一些统计模式匹配,并将结果提供给决策算法。

上述每个步骤都可能是一个研究课题,一个好的实施可能涉及研究几十篇已发表的研究论文,这些论文也许可以在你的大学图书馆找到。

答案 1 :(得分:1)

您不需要为此进行FFT,您需要实现Voice Activity Detection算法。