标签: google-cloud-speech
我有一些音频文件(25 GB),我想为其提供一个功能,供用户在播放音频时看到突出显示的单词已与音频同步。我一直在寻找Google Speech API来转录文件并提供字偏移量的数据,因此我不必手动执行此操作。但是,我注意到,即使API能够正确正确地转录音频(每个单词超过90%的置信度),偏移量的准确性也不一致。
什么会影响这些单词计时的准确性? 一些观察: