标签: c# text-to-speech
我想捕获音频中每个单词的音频时序。
例如,“介绍Hi Bangalore”认为这是一个mp3文件(page1.mp3),从中可以提取每个单词的开始时间。 即,“简介”,“嗨”,“班加罗尔”的开始时间 如果有可能?,可能的方法,我该怎么办? 如果有可用的软件?。
我尝试使用system.speech API使用bookmark-reach事件提取时序,但它并不像我想要的那样准确。