索引半结构化数据

时间:2011-09-14 12:22:30

标签: java search lucene indexing

我想索引一组包含半结构化数据的文档,通常是@author Joe Bloggs之类的键值对。然后,这些关键字应作为文档的可搜索属性提供,可以单独查询。

我一直在关注Lucene,我能够为我感兴趣的文档建立一个索引,但我不确定如何最好地继续下一步的关键字提取。

在Lucene或其他索引系统中执行此操作是否有通用方法?我希望能够使用典型的单词搜索来搜索文档,因为我已经能够进行搜索了,所以我想要的不仅仅是自定义正则表达式提取。

非常感谢任何帮助。

尼尔

1 个答案:

答案 0 :(得分:1)

我使用Lucene编写了一个源代码搜索引擎,作为我学士论文的一部分。其中一个关键特征是源代码被视为结构化信息,因此应该是可搜索的,即可根据您在上面描述的属性进行搜索。

Here您可以找到有关此项目的更多信息。如果这对您来说很广泛,我可以总结一些事情:

  • 我为所有应该可搜索的属性创建了单独的搜索字段。在我的情况下,例如'方法名称'或'评论'或'类名'。
  • 让这些字段的内容重叠是有利的,但这会破坏您的数据库索引(但只能与可搜索字段中冗余数据的出现呈线性关系)。