应用错误收集

我想添加时间戳来预订句子，以适应相关的有声读物。理想情况下，使用各种语言。

以下是一个例子：
傲慢与偏见
text from gutenberg project
audio from Librivox

我的想法是找到一个语音识别工具，将时间戳放在句子上（步骤1），然后使用levenshtein距离将凌乱的转录映射到原始文本（步骤2）。

网站https://speechlogger.appspot.com/提供了第一步的解决方案，但它在字符输出方面受到限制。我可以理论上使用网络自动化来完成工作，每分钟左右开始一次新的录音，但它真的很脏。

我在R中编写了第2步，并在我从speechlogger获得的样本上对其进行了测试，并且它的工作正常，但如果程序知道文本，这可以大大改善，就像您在阅读培训语音识别软件时一样。我没有先通过转录来使用我的所有信息。

所以我的问题是，我可以用什么替代方法为音频文件添加时间戳，有没有办法让识别引擎知道它应该识别的内容，从而使我的过程变得更聪明？