应用错误收集

时间：2011-03-28 23:05:32

标签： audio

我有两个音频文件。一个持续大约一秒钟，包含一个非常无聊的“嘟嘟”声，另一个持续约60分钟，充满随机声音（说话，噪音等）以及同样“嘟嘟”声的实例（注意： “哔”声可能与其他声音同时发生！）。

有人能告诉我一个简单的方法来编写一个搜索60分钟音频文件的程序，并为它发现的“嘟嘟”声音的每个实例返回一个时间戳吗？我一直在寻找如何做到这一点，但我甚至无法弄清楚搜索/阅读的条款。

如果可能，我更愿意使用Python，但我也愿意使用C，C ++，Java或（对我来说最明显的）Matlab。请随意指出我认为可能有用的教科书，概念或其他任何内容。我愿意做大量的学习，以弄清楚如何做到这一点。非常感谢任何帮助！

编辑：标题清晰

答案 0 :(得分：1)

我想您必须将信号转换到频域（FFT），然后从头到尾读取声音，并搜索您所需频率超过某个阈值的位置，然后看它重复至少一秒钟希望你的嘟嘟声足够大，这样门槛就可以设置得足够高，声音也不会被“背景”噪音和声音混淆。

答案 1 :(得分：1)

您正在寻找的技术称为音频指纹识别。它在this answer中描述。

答案 2 :(得分：0)

首先，您必须了解您想要做的事情并非简单易行。它就像提供计算机能力来听和匹配声音。让人们更多地了解人类感知它的声音。您可以浏览某些开源项目以获取帮助。查找与此主题密切相关的一些开源项目的AcoustID和chromaprint。