应用错误收集

我有用于叙述的音频和确切的文本，用于创建此音频。我需要获取旁白中所有单词的时间戳。

我尝试使用AWS transcribe和Google Speech-to-text，但它们都无法很好地工作。许多单词被错误地转录。这两个服务都具有“短语列表”或词汇表，它们没有选项来提供完整的文本，而是提供单个单词或短语。我尝试从脚本中的单个单词创建词汇表或短语列表，但这几乎无济于事。

有人可以指示我采用哪种方法进行AWS转录或Google Speech To Text服务来提高转录准确性，或者是否可以尝试使用另一种针对我的用例产生更好结果的服务。