我想添加时间戳来预订句子,以适应相关的有声读物。 理想情况下,使用各种语言。
以下是一个例子:
傲慢与偏见
text from gutenberg project
audio from Librivox
我的想法是找到一个语音识别工具,将时间戳放在句子上(步骤1),然后使用levenshtein距离将凌乱的转录映射到原始文本(步骤2)。
网站https://speechlogger.appspot.com/提供了第一步的解决方案,但它在字符输出方面受到限制。我可以理论上使用网络自动化来完成工作,每分钟左右开始一次新的录音,但它真的很脏。
我在R中编写了第2步,并在我从speechlogger获得的样本上对其进行了测试,并且它的工作正常,但如果程序知道文本,这可以大大改善,就像您在阅读培训语音识别软件时一样。我没有先通过转录来使用我的所有信息。
所以我的问题是,我可以用什么替代方法为音频文件添加时间戳,有没有办法让识别引擎知道它应该识别的内容,从而使我的过程变得更聪明?
答案 0 :(得分:3)
为此开发了许多不错的软件包,具有不同的准确度:
Gentle - 基于Kaldi的对准器,作为一种服务。
较早的实施:
Aligner Demo in Sphinx4 - java中的CMUSphinx工具包
SAIL align - 基于HTK的对齐器,相当多的perl脚本。