我正在将Python的SpeechRecognition模块与sphinx识别器结合使用,以从wav文件获取音频记录。我当前正在使用的方法在其sample files中可用:
r = sr.Recognizer()
with sr.AudioFile(AUDIO_FILE) as source:
audio = r.record(source) # read the entire audio file
# recognize speech using Sphinx
try:
print("Sphinx thinks you said " + r.recognize_sphinx(audio))
except sr.UnknownValueError:
print("Sphinx could not understand audio")
except sr.RequestError as e:
print("Sphinx error; {0}".format(e))
完全转换音频需要花费大量时间,但是可以拆分此过程吗?因此,文本在此过程中会不断更新。
我知道pocketsphinx
本身就有实时语音识别(look for LiveSpeech),但是这种方法可以用于音频文件吗?
如果是,是否有可能从SpeechRecognition本身使用它?