我有用于叙述的音频和确切的文本,用于创建此音频。我需要获取旁白中所有单词的时间戳。
我尝试使用AWS transcribe和Google Speech-to-text,但它们都无法很好地工作。许多单词被错误地转录。这两个服务都具有“短语列表”或词汇表,它们没有选项来提供完整的文本,而是提供单个单词或短语。我尝试从脚本中的单个单词创建词汇表或短语列表,但这几乎无济于事。
有人可以指示我采用哪种方法进行AWS转录或Google Speech To Text服务来提高转录准确性,或者是否可以尝试使用另一种针对我的用例产生更好结果的服务。