比方说,我有一些很长的音频文件(例如,广播录音)。我需要从每个文件中提取特定声音(例如,广告开始声音)后5秒钟。每个文件可能包含3-5种这样的声音,所以我应该得到*(3-5)源文件数结果文件。
答案 0 :(得分:0)
您可以从计算信号与特定声音的相关性开始。不知道librosa是否提供此功能。我将从scipy.signal.correlate或scipy.signal.convolve开始。
不确定您的背景。如果需要一些理论,请开始here。
基本上,如果音频与您的特定信号匹配或非常相似,则相关性会很高。确定这些位置后,您可以选择它们周围的区域。