我有数百个视频和音频文件的自动机器记录。我有五种格式的每个成绩单:JSON,XML,SRT,VTT,TXT。 (单击here查看示例文件。)JSON和XML文件包含最全面的数据,包括发言人ID,置信度和时间码。
我正在寻找一种挖掘或搜索此数据以查找单词和短语的方法。我需要能够提交布尔搜索查询,然后单击结果并以文本结果的时间码播放视频/音频文件。唯一必要的布尔运算符是NOT,AND,OR(就像在线搜索引擎一样)。搜索示例:("棒球棒" AND公园)或足球
我想到一个相当简单的界面。
基本选项:
高级选项的想法:
简单地说,我需要像时间码的代理Ransack,如果可能的话,还需要一些其他选项。 我知道这是一个非常具体和复杂的请求。 :)你能否就这个想法给我任何线索?我不想重新发明轮子。哪个软件/命令行程序/引擎最接近能够做到这一切?也许我可以从那里进行调整。
谢谢!
答案 0 :(得分:0)
您可以在Solr / Lucene http://lucene.apache.org/solr之上实现此类系统,但是,您需要获得实施所需功能的更多经验。
对于语音存档和索引的开源实施,您可以查看Matterhorn
您可以在presentation
中找到有关马特宏峰语音索引的详细信息但是,这不是实现此类功能的唯一方法,您还可以继续使用您选择的语言和简单的工具。 Ruby / PHP或Node.js也可以在这里工作。