应用错误收集

查找音频中单词的时间戳

时间：2017-01-19 23:14:19

标签： audio synchronization alignment speech-recognition speech

我有一个人类语音的音频文件。音频长度约为1分钟。我想找到音频中说出的单词或短语的时间戳。

是否有任何现有的库可以完成任务？

1 个答案:

答案 0 :(得分：1)

至少有两种方法可以解决这个问题：语音识别和机器学习。哪种更合适取决于您的具体情况。

通过语音识别，您可以通过已建立的语音到文本识别器运行音频，并根据其与结果字符串开头的距离来评估单词的时间戳。通过机器学习，您可以为训练数据中的单词或短语生成音频建立模型，然后将测试音频切成合适的长度，并针对模型运行每个模型，以评估其成为您正在寻找的单词的可能性。

机器学习方法可能在时间戳方面更准确，但当然需要大量的训练数据来建立模型。