如何索引WEB TREC集合?

时间:2012-05-18 10:57:13

标签: lucene information-retrieval

我通过自己下载和解析html页面来构建WEB TREC集合。每个TREC文件都包含一个Category字段。如何使用Lucene构建索引以在该集合中执行搜索?我们的想法是,这种搜索不是将文档作为结果返回,而是可以返回类别。

谢谢!

1 个答案:

答案 0 :(得分:1)

这应该是一个相对简单的任务,因为你有HTML格式。你可以在Lucene中索引它们(基于Java的伪代码)

foreach(file in htmlfiles)
{
 Document d = new Document();
 d.add(new Field("Category", GetCategoryName(...), Field.Store.YES,  Field.Index.NOT_ANALYZED));
d.add(new Field("Contents", GetContents(...), Field.Store.YES, Field.Index.ANALYZED));

writer.addDocument(d);
writer.close();
}

GetCategoryName =应该返回类别字符串和GetContents(...)相应HTML文件的内容。从标签中解析HTML内容是一个好主意,有几种方法可以做到这一点。 HtmlParser是一个人。

搜索时,搜索内容字段并遍历搜索结果以收集您的类别。

如果您想获得附加计数的类别列表(“facets”),请查看分面搜索。 Solr是一个使用Lucene构建的搜索服务器,提供开箱即用的功能。