我有只包含数字的音频文件。我想通过专门监听数字来提高脚本的准确性。
最初,脚本的输出是“35y 6883”,这是错误的。叙述者实际上说的是“5”,但系统听到的是“y”,因为它没有被配置为专门监听数字。
这是我的代码:我无法正确添加配置。真诚感谢帮助。
import speech_recognition as sr
filename = "numbers.wav"
"config": {
"speechContexts": [{
"phrases": ["one", "two", "three", "four"]
}]
}
r = sr.Recognizer()
with sr.AudioFile(filename) as source:
audio_data = r.record(source)
text = r.recognize_google(audio_data, config)
print(text)