作为机器学习的教育项目,我正在考虑从头开始创建语音识别系统。它应该能够在之前接受过他/她的声音训练之后从他/她的声音中识别说话者。
我应该采取什么方法来应对这一挑战?具体来说,这样的系统如何在高水平上运作?
任何建议都将受到赞赏:)
答案 0 :(得分:2)
要使用您的机器学习算法,您必须先定义要为其提供的功能。
最简单的方法是计算音频信号的傅里叶变换(使用您想要的任何FFT工具,这是非常标准的),并使用频率及其幅度信息构建特征向量。
如果还不够,可以使用频谱图添加时间信息。
正确设置功能后,您可以开始使用您喜欢的分类器算法!
如果你使用python,我发现这个问题解释了如何进行FFT部分: FFT for Spectrograms in Python
答案 1 :(得分:1)
我做了一次简单的说话人识别。
您可能希望使用诸如梅尔频率倒谱系数(MFCC)等功能,这些功能可以解释由于谐波引起的频谱周期以及人耳感知到的响度。
然后,您可以在学习阶段对特征进行聚类,以获得统计模型。我使用了VQ,这对于这个特定的用途来说非常可怕,但仍然有可用的结果。在识别阶段,您尝试将输入数据拟合到代表不同扬声器的不同模型上。拟合越好,误差越小。请务必将分数标准化为录音长度。
此外,改善说话人识别的一个好方法是排除沉默和非语音声音。