我有荷兰电话,并且正在使用Google STT(long_running_recognize)进行抄录。一切正常,但许多单词无法识别。转录似乎偶尔会随机停止几秒钟。无法识别的部分表示为很长的时间戳。例如,有一个单词实际上在17秒左右的时间内需要大约0.5秒,但时间戳为11.5s-17.5s,因此无法识别大约5.5秒的清晰语音。
这是我使用的配置:
CONFIG = speech.types.RecognitionConfig(
encoding = speech.enums.RecognitionConfig.AudioEncoding.LINEAR16, # optional for WAV
# model="phone_call", # this doesn't exist for Dutch
sample_rate_hertz = 8000, # default value
language_code="nl-NL", # language code
enable_word_time_offsets=True # return hit timestamps
)
这是一条记录的信息(使用mediainfo
。
General
Complete name : 20161130_215643_31651118731.wav
Format : Wave
File size : 2.30 MiB
Duration : 2mn 30s
Overall bit rate mode : Constant
Overall bit rate : 128 Kbps
Writing application : Lavf57.25.100
Audio
Format : PCM
Format settings, Endianness : Little
Format settings, Sign : Signed
Codec ID : 1
Duration : 2mn 30s
Bit rate mode : Constant
Bit rate : 128 Kbps
Channel(s) : 1 channel
Sampling rate : 8 000 Hz
Bit depth : 16 bits
Stream size : 2.30 MiB (100%)
由于隐私原因,我无法分享音频或转录,但是识别出的单词大部分是正确的,时间戳也正确。
这是为什么?尤其是在使用这种语言模型的情况下,未被转录的部分难道不是Google难以理解的吗?我可以做些什么来增加可识别单词的数量吗?