我尝试使用Pocketsphinx进行语音识别,使用Ubuntu 32b和python 2.7
我是西班牙人,我想使用西班牙语模型,但由于信息有限以及我在这个特定领域的知识不足,这很难。很难找到一个简单的安装步骤来源。
答案 0 :(得分:1)
记录样本文件hola.wav
,格式为16khz 16bit mono。
然后安装pocketsphinx-python
sudo apt-get install -y python python-dev python-pip build-essential swig git
git clone --recursive https://github.com/cmusphinx/pocketsphinx-python
cd pocketsphinx-python
sudo python setup.py install
然后从cmusphinx网站下载西班牙语models。
然后编写一个脚本并尝试运行它,它应该如下所示:
#!/usr/bin/env python
from os import environ, path
from pocketsphinx.pocketsphinx import *
from sphinxbase.sphinxbase import *
# Here is the configuration for Spanish
config = Decoder.default_config()
config.set_string('-hmm', 'cmusphinx-es-5.2/model_parameters/voxforge_es_sphinx.cd_ptm_4000')
config.set_string('-lm', 'es-20k.lm.gz')
config.set_string('-dict', 'es.dict')
decoder = Decoder(config)
# Decode streaming data.
decoder = Decoder(config)
decoder.start_utt()
stream = open('hola.wav', 'rb')
while True:
buf = stream.read(1024)
if buf:
decoder.process_raw(buf, False, False)
else:
break
decoder.end_utt()
print ('Best hypothesis segments: ', [seg.word for seg in decoder.seg()])
要了解有关CMUSphinx的更多信息,请阅读tutorial。