标签: audio speech-recognition speech-to-text google-speech-api transcription
当Google Speech API返回长音频转录时,它会以不同长度的短文本块的形式返回它,每个文本都有一些相关的置信度值。我想知道底层算法如何决定在转录的音频块之间放置边界的位置,因为它似乎比简单地将音频分块为固定持续时间的片段并且分别转录每个(虽然我可能错了)更复杂。