应用错误收集

我有一些音频文件（25 GB），我想为其提供一个功能，供用户在播放音频时看到突出显示的单词已与音频同步。我一直在寻找Google Speech API来转录文件并提供字偏移量的数据，因此我不必手动执行此操作。但是，我注意到，即使API能够正确正确地转录音频（每个单词超过90％的置信度），偏移量的准确性也不一致。

什么会影响这些单词计时的准确性？一些观察：

我创建了一个音频文件“快棕色的狐狸跳过了熟睡的懒狗。”使用Audacity作为16位波形，采样率为44100。该API可以正确转录，但单词计时可以完全丢失整个单词。
我从Audible（通过麦克风）创建了一个wave文件，并且单词offsets相当准确。
我尝试了一个专业记录的阿拉伯文文件，尽管该API能够准确转录，但单词计时却遥遥无期。

Google Speech API字偏移时间戳不正确

0 个答案: