我有一个人类语音的音频文件。音频长度约为1分钟。我想找到音频中说出的单词或短语的时间戳。
是否有任何现有的库可以完成任务?
答案 0 :(得分:1)
至少有两种方法可以解决这个问题:语音识别和机器学习。哪种更合适取决于您的具体情况。
通过语音识别,您可以通过已建立的语音到文本识别器运行音频,并根据其与结果字符串开头的距离来评估单词的时间戳。通过机器学习,您可以为训练数据中的单词或短语生成音频建立模型,然后将测试音频切成合适的长度,并针对模型运行每个模型,以评估其成为您正在寻找的单词的可能性。
机器学习方法可能在时间戳方面更准确,但当然需要大量的训练数据来建立模型。