谷歌语音API转录响应被重复多次

时间:2018-07-25 13:09:32

标签: python google-cloud-speech

我使用的是google-cloud-speech(0.35.0)的最新python库,得到的结果如下,第一个转录结果中的单词会在第二个转录结果中重复出现,依此类推直到最后。在以前的版本(0.34.0)中不是这种情况

请参阅源代码。

源代码:

config = speech.types.RecognitionConfig(
            encoding=enums.RecognitionConfig.AudioEncoding.FLAC,
            sample_rate_hertz=48000,
            language_code='en-US',
            alternative_language_codes={'en-IN'},
            # max_alternatives=10,
            profanity_filter=True,
            enable_word_time_offsets=True,
            enable_word_confidence=True,
            enable_automatic_punctuation=True,
            enable_speaker_diarization=True,
            diarization_speaker_count=5,
            #model="video",
            use_enhanced=True)

结果:

results {
    alternatives {
        transcript: "start"
        confidence: 0.632519185543
        words {
            start_time {}
            end_time {
                seconds: 5
                nanos: 900000000
            }
            word: "start"
            confidence: 0.655210196972
            speaker_tag: 1
        }
    }
}

.....
.....
.....

results {
    alternatives {
        transcript: "end"
        confidence: 0.632519185543
        words {
            start_time {}
            end_time {
                seconds: 5
                nanos: 900000000
            }
            word: "start"
            confidence: 0.655210196972
            speaker_tag: 1
        }
        words {
            start_time {
                seconds: 129
                nanos: 300000000
            }
            end_time {
                seconds: 130
                nanos: 400000000
            }
            word: "end"
            confidence: 0.624447464943
            speaker_tag: 1
        }

    }
}

问题:

  1. 为什么我在响应中得到多个结果?
  2. 在所有结果集中重复单词的原因是什么?以前,每个结果集将只包含该时间范围内所说的单词。

1 个答案:

答案 0 :(得分:0)

貌似Google在其文档中指出了类似的内容

  

注意:如果为真,我们将从   音频是每个连续响应中最重要的选择。这个   这样做是为了改善我们的说话者标签,因为我们的模型学会了   在一段时间内确定对话中的发言人。

https://cloud.google.com/speech-to-text/docs/reference/rpc/google.cloud.speech.v1p1beta1#google.cloud.speech.v1p1beta1.RecognitionConfig