我们计划开发一个系统,使用sphinx4将通过电话拨打的语音转换为文本。
这种电话的格式是
类型:音频
编解码器:PCM ALAW
频道:单声道
采样率:8kHz BitRate:每秒8位
在tutorial中说
如果您使用采样率为8KHz(电话音频)的声音文件,则需要更改etc / sphinx_train.cfg中的某些值
除此之外还有其他任何改变吗?
是否有可能开发一个比特率为8位/秒的系统,因为在教程中它说
“以特定格式提供音频文件至关重要。 Sphinxtrain确实支持多种采样率,但默认情况下,它配置为以MS WAV格式训练16khz 16位单声道文件。“
答案 0 :(得分:0)
在教程中说
本教程与您无关。您需要遵循的正确教程是http://cmusphinx.sourceforge.net/wiki/tutorialsphinx4
除此之外还有其他任何改变吗?
您根本不需要进行此类更改
是否可以开发一个比特率为8位/秒的系统,因为在教程中它说
您需要将ALAW格式转换为8khz 16位PCM格式。必须使用sox或其他库等外部工具完成此转换。然后你解码8khz 16bit PCM音频。
在sphinx4中正确解码8khz音频使用
configuration.setSampleRate(8000)