使用Nutch检索页面内容

时间:2014-09-30 12:50:15

标签: java web-crawler nutch

我有一个非常大的种子列表要爬行(只需要那些种子而不加深)。我怎样才能使用Nutch来检索:

  1. 的HTML
  2. 的文字内容
  3. (最好)
  4. 的外链接 种子页面? (没有任何索引和集成到任何其他平台,如Solr)。

    由于

1 个答案:

答案 0 :(得分:1)

嗯,你想解决很多问题。以下是他们的解决方案的问题:

  1. 限制抓取到种子列表:启用得分深度插件,并将其配置为仅允许1级抓取。
  2. 获取文字内容:默认情况下,Nutch会这样做。
  3. 获取HTML原始数据:Nutch 1.9无法实现。您需要从其主干存储库下载Nutch并构建它,因为HTML内容是为Nutch的下一个版本(1.10)安排的。
  4. 提取外链:您可以这样做,但您必须编写一个新的indexingFilter来索引外链。
  5. 在没有Solr的情况下完成上述所有操作:您可以这样做。但是,您必须编写一个新的索引器,以您想要的任何格式存储提取数据。