应用错误收集

我一直想知道有多少种不同的搜索技术，用于搜索文本，搜索图像甚至视频。

但是，我从未遇到过在音频文件中搜索内容的解决方案。

例如：让我们假设我有大约200个播客以mp3，wav和ogg文件的形式下载到我的电脑上。它们都被命名为podcast1.mp3，podcast2.mp3等等。因此，如果没有实际听到内容，就无法知道内容是什么。让我们说，我有兴趣发现，播客谈论“游戏编程”。我希望结果显示为：

所以我的问题：

我想到的一个想法是，人们可以使用“语音到文本”软件来获取每个音频文件的时间索引的成绩单，然后解析成绩单以获得输出。 / p>

我认为这是我的业余爱好项目之一。谢谢！

如果要在音频流中搜索文本（即所说的内容），则必须使用某种语音识别算法对其进行处理，并将文本存储为与文件关联的元数据。对于视频，您还可以对视频内的文本进行文本识别。 Evernote已针对图像文件中的文本执行此操作，但据我所知，它不支持音频。

使用音频搜索音频时可能会出现类似情况。我不知道这些算法的细节，但我猜它们涉及某种频率分析。 Shazam正在使用这种技术来识别基于音频剪辑的歌曲。

以下是一些可能有用的维基百科文章：