使用sphinx4解码ALAW格式的电话

时间:2015-11-13 06:00:46

标签: speech-recognition sphinx4

我们计划开发一个系统,使用sphinx4将通过电话拨打的语音转换为文本。 这种电话的格式是
类型:音频
编解码器:PCM ALAW
频道:单声道 采样率:8kHz BitRate:每秒8位

tutorial中说

如果您使用采样率为8KHz(电话音频)的声音文件,则需要更改etc / sphinx_train.cfg中的某些值

除此之外还有其他任何改变吗?
是否有可能开发一个比特率为8位/秒的系统,因为在教程中它说

“以特定格式提供音频文件至关重要。 Sphinxtrain确实支持多种采样率,但默认情况下,它配置为以MS WAV格式训练16khz 16位单声道文件。“

1 个答案:

答案 0 :(得分:0)

  

在教程中说

本教程与您无关。您需要遵循的正确教程是http://cmusphinx.sourceforge.net/wiki/tutorialsphinx4

  

除此之外还有其他任何改变吗?

您根本不需要进行此类更改

  

是否可以开发一个比特率为8位/秒的系统,因为在教程中它说

您需要将ALAW格式转换为8khz 16位PCM格式。必须使用sox或其他库等外部工具完成此转换。然后你解码8khz 16bit PCM音频。

在sphinx4中正确解码8khz音频使用

  configuration.setSampleRate(8000)