Nutch - Lucene - 捕获页面的内容

时间:2010-12-04 23:49:28

标签: lucene nutch web-crawler

我用Java Nutch爬了几页 此外,我在Java中创建了一个带有Lucene的模块,它允许对索引文档执行查询。 我知道我创建了Nutch字段,如网址,重量和标题。但我有兴趣捕获每个页面的内容。我怎么能用Lucene做到这一点并知道我已经用nutch爬了?

谢谢

1 个答案:

答案 0 :(得分:0)

你需要提供更多关于你想要实现的细节......因为Nutch已经包含了一个Lucene索引,所以我想知道为什么你想要另一个? Nutch有一个jsp前端,你可以查看,并找到如何查询一些字段内容。有一个缓存系统实现,所以你可以检索页面的缓存数据,但你必须再次解析它并再次索引。