应用错误收集

如何从音频流中检测语音

时间：2011-12-03 19:03:51

标签： signal-processing fft audio-processing

我需要确定某人在音频流中说话的时间。我应用了汉明窗口并计算了FFT。我如何从这里检测到人声？

2 个答案:

答案 0 :(得分：2)

如果您想尝试自己的语音活动检测算法，可以使用FFT作为初始阶段。接下来，您可能想尝试减去任何已表征的固定光谱噪声背景。然后，您可以尝试使用修改的FFT结果来计算特征提取的倒谱（或一些加权倒谱系数）。然后，您可以对您决定提取的任何特征向量进行一些统计模式匹配，并将结果提供给决策算法。

上述每个步骤都可能是一个研究课题，一个好的实施可能涉及研究几十篇已发表的研究论文，这些论文也许可以在你的大学图书馆找到。

答案 1 :(得分：1)

您不需要为此进行FFT，您需要实现Voice Activity Detection算法。