我一直在开发一种工具,用于比较当天一个记录的音频文件与另一个三十天日记录的另一个音频文件。我的培训是语言学,这个工具将用于编目,索引和比较独特的人声录音数据库。我知道商业级API,如MusicBrainz或EchoNest,但不能将它们用于此项目。所有文件必须本地存储,不能提供给在线数据库。
目前,我有每个文件的光谱图和批量转换器,可以转换为几乎任何声音文件。我使用频谱分析仪精确匹配频谱图(如哈希映射覆盖图),并能够以96%的准确度匹配我的结果。但是,随着我的项目的增长,我的存储需求对于这种方法来说将变得非常崇高。
我的想法是这样的 - 如果我可以将音频文件调整到类似的帧速度,我应该能够对声学数据进行哈希编码并将哈希字符串存储在简单的SQL表中,而不是整个音频文件或频谱图中。我不想散列整个文件 - 只是声学,用于匹配。我通过Python(dejavu,libmo等)找到了一些矫枉过正的解决方案,但作为语言学家,而不是计算机人员,我不确定新手是否可以纠缠散列音频数据的代码
我希望有一种方法可以在下周左右创建哈希值(或其他校验和)。来自interwebz?