我想索引一组包含半结构化数据的文档,通常是@author Joe Bloggs
之类的键值对。然后,这些关键字应作为文档的可搜索属性提供,可以单独查询。
我一直在关注Lucene,我能够为我感兴趣的文档建立一个索引,但我不确定如何最好地继续下一步的关键字提取。
在Lucene或其他索引系统中执行此操作是否有通用方法?我希望能够使用典型的单词搜索来搜索文档,因为我已经能够进行搜索了,所以我想要的不仅仅是自定义正则表达式提取。
非常感谢任何帮助。
尼尔
答案 0 :(得分:1)
我使用Lucene编写了一个源代码搜索引擎,作为我学士论文的一部分。其中一个关键特征是源代码被视为结构化信息,因此应该是可搜索的,即可根据您在上面描述的属性进行搜索。
Here您可以找到有关此项目的更多信息。如果这对您来说很广泛,我可以总结一些事情: