使用SOLR索引HTML文件

时间:2013-02-22 07:55:07

标签: solr lucene indexing

尝试使用SOLR索引一组HTML文件。基本思想是为开发的网站实现网站搜索功能。对于Lucene和SOLR来说,这是一个非常新的东西,并尝试了网站上的一些样本,并使用它们索引了一些文档。但是我无法得出关于最佳做事方式的结论。有人建议使用DataImportHandler,我看到一些使用ExtractingRequestHandler的地方。我这边的一个简单尝试就是使用ExtractingRequestHandler。 lso我将不得不更新文件列表,例如,将来可能会删除一些HTML,有些可能会被添加等等.P1建议选择方法时要考虑的因素

干杯!!

1 个答案:

答案 0 :(得分:0)

我建议您使用Nutch抓取HTML文件并将其编入索引。它内置支持跟踪文件的删除/添加。

另请查看Nutch Wiki有关入门的教程。