Question

我有一个用于创建播客的文本脚本。所以播客音频中的单词与我的文本完全相同。现在我想要的是以下内容：

Word in text | Pronounciation started at
Hello          0:0:0.000
my             0:0:1.125
friends        0:0:2.750

这可能吗？提前谢谢！

Answer 1

你可以从解决问题的复杂性开始的一个关键词是强迫对齐＆＃34;。本网站还包含有关此主题的问题，例如here通过相关主题向您提供有关HTK（隐马尔可夫模型工具包）的问题和答案。

您可以在自动音频分段here中找到有关如何使用强制对齐的实用风格说明。

所以答案是：是的，它是可能的，但它在算法上非常复杂，即使在最佳实现中它也没有错误。

PS：我发现你很简单tool