Question

我正在通过Python使用Google云语音，发现许多抄写不准确，缺少几个单词。这是一个简单的脚本，我用来返回音频文件的副本，在本例中为'out307.wav'：

client = speech.SpeechClient()

with io.open('out307.wav', 'rb') as audio_file:
    content = audio_file.read()

audio = speech.types.RecognitionAudio(content=content)

config = speech.types.RecognitionConfig(
    enable_word_time_offsets=True,
    language_code='en-US',
    audio_channel_count=1)

response = client.recognize(config, audio)

for result in response.results:
    alternative = result.alternatives[0]
    print(u'Transcript: {}'.format(alternative.transcript))

这将返回以下记录：

除了紧张和怀疑之外，

这与实际音频所说的相去甚远（我已将其上传到https://vocaroo.com/i/s1zdZ0SOH1Ki）。音频为.wav，非常清晰，没有背景噪音。这比平均水平还差，因为在某些情况下，它将使转录在10秒的音频文件上完全正确，或者可能只丢失几个单词。我有什么办法可以改善结果？

Answer 1

这很奇怪，我用您的代码尝试了您的音频文件，并且得到了相同的结果，但是，如果将language_code更改为“ en-UK”，我将获得完整的响应。

我正在为Google Cloud工作，并为您创建了一个公开问题here，您可以在其中跟踪更新。

Google云语音非常不准确，并且错过了清晰音频中的单词

1 个答案: