我使用的是google-cloud-speech(0.35.0)的最新python库,得到的结果如下,第一个转录结果中的单词会在第二个转录结果中重复出现,依此类推直到最后。在以前的版本(0.34.0)中不是这种情况
请参阅源代码。
源代码:
config = speech.types.RecognitionConfig(
encoding=enums.RecognitionConfig.AudioEncoding.FLAC,
sample_rate_hertz=48000,
language_code='en-US',
alternative_language_codes={'en-IN'},
# max_alternatives=10,
profanity_filter=True,
enable_word_time_offsets=True,
enable_word_confidence=True,
enable_automatic_punctuation=True,
enable_speaker_diarization=True,
diarization_speaker_count=5,
#model="video",
use_enhanced=True)
结果:
results {
alternatives {
transcript: "start"
confidence: 0.632519185543
words {
start_time {}
end_time {
seconds: 5
nanos: 900000000
}
word: "start"
confidence: 0.655210196972
speaker_tag: 1
}
}
}
.....
.....
.....
results {
alternatives {
transcript: "end"
confidence: 0.632519185543
words {
start_time {}
end_time {
seconds: 5
nanos: 900000000
}
word: "start"
confidence: 0.655210196972
speaker_tag: 1
}
words {
start_time {
seconds: 129
nanos: 300000000
}
end_time {
seconds: 130
nanos: 400000000
}
word: "end"
confidence: 0.624447464943
speaker_tag: 1
}
}
}
问题:
答案 0 :(得分:0)
貌似Google在其文档中指出了类似的内容
注意:如果为真,我们将从 音频是每个连续响应中最重要的选择。这个 这样做是为了改善我们的说话者标签,因为我们的模型学会了 在一段时间内确定对话中的发言人。