我有两个音频文件。一个持续大约一秒钟,包含一个非常无聊的“嘟嘟”声,另一个持续约60分钟,充满随机声音(说话,噪音等)以及同样“嘟嘟”声的实例(注意: “哔”声可能与其他声音同时发生!)。
有人能告诉我一个简单的方法来编写一个搜索60分钟音频文件的程序,并为它发现的“嘟嘟”声音的每个实例返回一个时间戳吗?我一直在寻找如何做到这一点,但我甚至无法弄清楚搜索/阅读的条款。
如果可能,我更愿意使用Python,但我也愿意使用C,C ++,Java或(对我来说最明显的)Matlab。请随意指出我认为可能有用的教科书,概念或其他任何内容。我愿意做大量的学习,以弄清楚如何做到这一点。非常感谢任何帮助!
编辑:标题清晰
答案 0 :(得分:1)
我想您必须将信号转换到频域(FFT),然后从头到尾读取声音,并搜索您所需频率超过某个阈值的位置,然后看它重复至少一秒钟希望你的嘟嘟声足够大,这样门槛就可以设置得足够高,声音也不会被“背景”噪音和声音混淆。
答案 1 :(得分:1)
您正在寻找的技术称为音频指纹识别。 它在this answer中描述。
答案 2 :(得分:0)
首先,您必须了解您想要做的事情并非简单易行。它就像提供计算机能力来听和匹配声音。让人们更多地了解人类感知它的声音。您可以浏览某些开源项目以获取帮助。查找与此主题密切相关的一些开源项目的AcoustID和chromaprint。