标签: audio speech-recognition audio-streaming audio-processing
我有一个用于创建播客的文本脚本。所以播客音频中的单词与我的文本完全相同。现在我想要的是以下内容:
Word in text | Pronounciation started at Hello 0:0:0.000 my 0:0:1.125 friends 0:0:2.750
这可能吗? 提前谢谢!
答案 0 :(得分:1)
你可以从解决问题的复杂性开始的一个关键词是强迫对齐"。本网站还包含有关此主题的问题,例如here通过相关主题向您提供有关HTK(隐马尔可夫模型工具包)的问题和答案。
您可以在自动音频分段here中找到有关如何使用强制对齐的实用风格说明。
所以答案是:是的,它是可能的,但它在算法上非常复杂,即使在最佳实现中它也没有错误。
PS:我发现你很简单tool