Question

我有荷兰电话，并且正在使用Google STT（long_running_recognize）进行抄录。一切正常，但许多单词无法识别。转录似乎偶尔会随机停止几秒钟。无法识别的部分表示为很长的时间戳。例如，有一个单词实际上在17秒左右的时间内需要大约0.5秒，但时间戳为11.5s-17.5s，因此无法识别大约5.5秒的清晰语音。

这是我使用的配置：

CONFIG = speech.types.RecognitionConfig(
    encoding = speech.enums.RecognitionConfig.AudioEncoding.LINEAR16, # optional for WAV
    # model="phone_call", # this doesn't exist for Dutch
    sample_rate_hertz = 8000, # default value
    language_code="nl-NL", # language code
    enable_word_time_offsets=True # return hit timestamps
)

这是一条记录的信息（使用mediainfo。

General
Complete name                            : 20161130_215643_31651118731.wav
Format                                   : Wave
File size                                : 2.30 MiB
Duration                                 : 2mn 30s
Overall bit rate mode                    : Constant
Overall bit rate                         : 128 Kbps
Writing application                      : Lavf57.25.100

Audio
Format                                   : PCM
Format settings, Endianness              : Little
Format settings, Sign                    : Signed
Codec ID                                 : 1
Duration                                 : 2mn 30s
Bit rate mode                            : Constant
Bit rate                                 : 128 Kbps
Channel(s)                               : 1 channel
Sampling rate                            : 8 000 Hz
Bit depth                                : 16 bits
Stream size                              : 2.30 MiB (100%)

由于隐私原因，我无法分享音频或转录，但是识别出的单词大部分是正确的，时间戳也正确。

这是为什么？尤其是在使用这种语言模型的情况下，未被转录的部分难道不是Google难以理解的吗？我可以做些什么来增加可识别单词的数量吗？

Google语音语音转换会随机跳过部分音频吗？

0 个答案: