我想使用sphinx4或HTK工具包为我构建一个语音识别应用程序,旨在从语音中估计年龄。我在很大程度上理解语音识别中涉及的逻辑模型。 我对梅尔频率倒谱系数和高斯混合模型感兴趣,因为这两个更适合我的问题域。我是否必须使用神经网络并从来自狮身人面像分类器的矢量中提取训练数据?我不太清楚从哪里开始使用sphinx或HTK工具包。 我是狮身人面像和语音识别的新手,我的应用程序只是一个原型。
任何人都可以在这方面提供某种形式的指导。 亲切的问候。
答案 0 :(得分:0)
通常,这样开始的第一个地方是寻找学术界以前的相关工作。在Minematsu et al. 2002中,他们使用高斯混合模型(GMM)而不是梅尔频率倒谱系数来区分老年人和年轻人。
据推测,如果您可以访问老年人和年轻人的培训数据,您应该能够做同样的事情。即使您想尝试其他分类器后端,例如神经网络,从GMM开始可能会很好,因为您知道它们应该适用于您的任务,并且它们会给您一些与其他分类器进行比较的东西你想尝试使用。
如果您只是为了娱乐或作为研究项目,我建议使用HTK,因为我喜欢它的模块化程度。但是,如果这是商业化的东西,你可能应该使用Sphinx,因为它可以在像许可证这样的BSD下重新分发。
答案 1 :(得分:0)
我决定不使用Sphinx 4,因为它基于隐马尔可夫模型,主要用于序列分析,作为语音识别,甚至是基于输入序列的接口的多模式输入。 Insted我使用了一个名为Praat的软件,用于语音处理和合成。如果你愿意,还有一个“插件”,称为“Akustyk”,用于分析元音等。可能这个方向对你有价值,我不确定。
然后,您可以使用mathlab并使用模式识别工具箱来实现您的神经网络,GMM或您希望采用的任何方法。
希望它有用。