如何在找到的页面上抓取外部链接?

时间:2010-10-25 21:40:58

标签: nutch

我用他们的wiki安装nutch的例子。我能够轻松抓取从dmoz中提取的多个页面。但是,是否可以执行一项配置来抓取它在页面上找到的外部链接,或者将这些外部链接写入下一个要爬网的文件中?

使用nutch跟踪页面上的链接以及索引该页面的最佳方法是什么?如果我通过python执行bin / nutch,我可以找回它找到的所有外部链接,并创建一个新的爬行列表再次运行吗?你会做什么?

1 个答案:

答案 0 :(得分:3)

首先,确保参数'db.ignore.external.links'设置为false。此外,在文件'regex-urlfilter.txt'中,添加您希望被抓取的外部链接的规则,或者添加+.作为最后一条规则。 +.规则将使抓取工具跟随所有链接。如果您使用最后一个选项,请注意您冒着抓取所有Web的风险!