Google云语音非常不准确,并且错过了清晰音频中的单词

时间:2018-11-27 09:51:46

标签: google-cloud-speech

我正在通过Python使用Google云语音,发现许多抄写不准确,缺少几个单词。这是一个简单的脚本,我用来返回音频文件的副本,在本例中为'out307.wav':

client = speech.SpeechClient()

with io.open('out307.wav', 'rb') as audio_file:
    content = audio_file.read()

audio = speech.types.RecognitionAudio(content=content)

config = speech.types.RecognitionConfig(
    enable_word_time_offsets=True,
    language_code='en-US',
    audio_channel_count=1)

response = client.recognize(config, audio)

for result in response.results:
    alternative = result.alternatives[0]
    print(u'Transcript: {}'.format(alternative.transcript))

这将返回以下记录:

  

除了紧张和怀疑之外,

这与实际音频所说的相去甚远(我已将其上传到https://vocaroo.com/i/s1zdZ0SOH1Ki)。音频为.wav,非常清晰,没有背景噪音。这比平均水平还差,因为在某些情况下,它将使转录在10秒的音频文件上完全正确,或者可能只丢失几个单词。我有什么办法可以改善结果?

1 个答案:

答案 0 :(得分:0)

这很奇怪,我用您的代码尝试了您的音频文件,并且得到了相同的结果,但是,如果将language_code更改为“ en-UK”,我将获得完整的响应。

我正在为Google Cloud工作,并为您创建了一个公开问题here,您可以在其中跟踪更新。