Google语音语音转换会随机跳过部分音频吗?

时间:2019-07-19 12:23:57

标签: python python-3.x audio speech-recognition google-cloud-speech

我有荷兰电话,并且正在使用Google STT(long_running_recognize)进行抄录。一切正常,但许多单词无法识别。转录似乎偶尔会随机停止几秒钟。无法识别的部分表示为很长的时间戳。例如,有一个单词实际上在17秒左右的时间内需要大约0.5秒,但时间戳为11.5s-17.5s,因此无法识别大约5.5秒的清晰语音。

这是我使用的配置:

CONFIG = speech.types.RecognitionConfig(
    encoding = speech.enums.RecognitionConfig.AudioEncoding.LINEAR16, # optional for WAV
    # model="phone_call", # this doesn't exist for Dutch
    sample_rate_hertz = 8000, # default value
    language_code="nl-NL", # language code
    enable_word_time_offsets=True # return hit timestamps
)

这是一条记录的信息(使用mediainfo

General
Complete name                            : 20161130_215643_31651118731.wav
Format                                   : Wave
File size                                : 2.30 MiB
Duration                                 : 2mn 30s
Overall bit rate mode                    : Constant
Overall bit rate                         : 128 Kbps
Writing application                      : Lavf57.25.100

Audio
Format                                   : PCM
Format settings, Endianness              : Little
Format settings, Sign                    : Signed
Codec ID                                 : 1
Duration                                 : 2mn 30s
Bit rate mode                            : Constant
Bit rate                                 : 128 Kbps
Channel(s)                               : 1 channel
Sampling rate                            : 8 000 Hz
Bit depth                                : 16 bits
Stream size                              : 2.30 MiB (100%)

由于隐私原因,我无法分享音频或转录,但是识别出的单词大部分是正确的,时间戳也正确。

这是为什么?尤其是在使用这种语言模型的情况下,未被转录的部分难道不是Google难以理解的吗?我可以做些什么来增加可识别单词的数量吗?

0 个答案:

没有答案