为脚本中的每个单词定义发音开始时间

时间:2014-06-27 14:29:34

标签: audio speech-recognition audio-streaming audio-processing

我有一个用于创建播客的文本脚本。所以播客音频中的单词与我的文本完全相同。现在我想要的是以下内容:

Word in text | Pronounciation started at
Hello          0:0:0.000
my             0:0:1.125
friends        0:0:2.750

这可能吗? 提前谢谢!

1 个答案:

答案 0 :(得分:1)

你可以从解决问题的复杂性开始的一个关键词是强迫对齐"。本网站还包含有关此主题的问题,例如here通过相关主题向您提供有关HTK(隐马尔可夫模型工具包)的问题和答案。

您可以在自动音频分段here中找到有关如何使用强制对齐的实用风格说明。

所以答案是:是的,它是可能的,但它在算法上非常复杂,即使在最佳实现中它也没有错误。

PS:我发现你很简单tool