应用错误收集

使用Nutch检索页面内容

时间：2014-09-30 12:50:15

标签： java web-crawler nutch

我有一个非常大的种子列表要爬行（只需要那些种子而不加深）。我怎样才能使用Nutch来检索：

（最好）

由于

1 个答案:

答案 0 :(得分：1)

嗯，你想解决很多问题。以下是他们的解决方案的问题：

限制抓取到种子列表：启用得分深度插件，并将其配置为仅允许1级抓取。
获取文字内容：默认情况下，Nutch会这样做。
获取HTML原始数据：Nutch 1.9无法实现。您需要从其主干存储库下载Nutch并构建它，因为HTML内容是为Nutch的下一个版本（1.10）安排的。
提取外链：您可以这样做，但您必须编写一个新的indexingFilter来索引外链。
在没有Solr的情况下完成上述所有操作：您可以这样做。但是，您必须编写一个新的索引器，以您想要的任何格式存储提取数据。