我正在通过Python使用Google云语音,发现许多抄写不准确,缺少几个单词。这是一个简单的脚本,我用来返回音频文件的副本,在本例中为'out307.wav':
client = speech.SpeechClient()
with io.open('out307.wav', 'rb') as audio_file:
content = audio_file.read()
audio = speech.types.RecognitionAudio(content=content)
config = speech.types.RecognitionConfig(
enable_word_time_offsets=True,
language_code='en-US',
audio_channel_count=1)
response = client.recognize(config, audio)
for result in response.results:
alternative = result.alternatives[0]
print(u'Transcript: {}'.format(alternative.transcript))
这将返回以下记录:
除了紧张和怀疑之外,
这与实际音频所说的相去甚远(我已将其上传到https://vocaroo.com/i/s1zdZ0SOH1Ki)。音频为.wav,非常清晰,没有背景噪音。这比平均水平还差,因为在某些情况下,它将使转录在10秒的音频文件上完全正确,或者可能只丢失几个单词。我有什么办法可以改善结果?
答案 0 :(得分:0)
这很奇怪,我用您的代码尝试了您的音频文件,并且得到了相同的结果,但是,如果将language_code更改为“ en-UK”,我将获得完整的响应。
我正在为Google Cloud工作,并为您创建了一个公开问题here,您可以在其中跟踪更新。