Google Speech API字偏移时间戳不正确

时间:2018-08-03 17:01:55

标签: google-cloud-speech

我有一些音频文件(25 GB),我想为其提供一个功能,供用户在播放音频时看到突出显示的单词已与音频同步。我一直在寻找Google Speech API来转录文件并提供字偏移量的数据,因此我不必手动执行此操作。但是,我注意到,即使API能够正确正确地转录音频(每个单词超过90%的置信度),偏移量的准确性也不一致。

什么会影响这些单词计时的准确性? 一些观察:

  1. 我创建了一个音频文件“快棕色的狐狸跳过了熟睡的懒狗。”使用Audacity作为16位波形,采样率为44100。该API可以正确转录,但单词计时可以完全丢失整个单词。
  2. 我从Audible(通过麦克风)创建了一个wave文件,并且单词offsets相当准确。
  3. 我尝试了一个专业记录的阿拉伯文文件,尽管该API能够准确转录,但单词计时却遥遥无期。

0 个答案:

没有答案