应用错误收集

时间：2013-02-28 04:22:56

标签： machine-learning artificial-intelligence

作为机器学习的教育项目，我正在考虑从头开始创建语音识别系统。它应该能够在之前接受过他/她的声音训练之后从他/她的声音中识别说话者。

我应该采取什么方法来应对这一挑战？具体来说，这样的系统如何在高水平上运作？

任何建议都将受到赞赏：）

答案 0 :(得分：2)

要使用您的机器学习算法，您必须先定义要为其提供的功能。

最简单的方法是计算音频信号的傅里叶变换（使用您想要的任何FFT工具，这是非常标准的），并使用频率及其幅度信息构建特征向量。

如果还不够，可以使用频谱图添加时间信息。

正确设置功能后，您可以开始使用您喜欢的分类器算法！

如果你使用python，我发现这个问题解释了如何进行FFT部分： FFT for Spectrograms in Python

答案 1 :(得分：1)

我做了一次简单的说话人识别。

您可能希望使用诸如梅尔频率倒谱系数（MFCC）等功能，这些功能可以解释由于谐波引起的频谱周期以及人耳感知到的响度。

然后，您可以在学习阶段对特征进行聚类，以获得统计模型。我使用了VQ，这对于这个特定的用途来说非常可怕，但仍然有可用的结果。在识别阶段，您尝试将输入数据拟合到代表不同扬声器的不同模型上。拟合越好，误差越小。请务必将分数标准化为录音长度。

此外，改善说话人识别的一个好方法是排除沉默和非语音声音。