应用错误收集

如何在找到的页面上抓取外部链接？

时间：2010-10-25 21:40:58

标签： nutch

我用他们的wiki安装nutch的例子。我能够轻松抓取从dmoz中提取的多个页面。但是，是否可以执行一项配置来抓取它在页面上找到的外部链接，或者将这些外部链接写入下一个要爬网的文件中？

使用nutch跟踪页面上的链接以及索引该页面的最佳方法是什么？如果我通过python执行bin / nutch，我可以找回它找到的所有外部链接，并创建一个新的爬行列表再次运行吗？你会做什么？

1 个答案:

答案 0 :(得分：3)

首先，确保参数'db.ignore.external.links'设置为false。此外，在文件'regex-urlfilter.txt'中，添加您希望被抓取的外部链接的规则，或者添加+.作为最后一条规则。 +.规则将使抓取工具跟随所有链接。如果您使用最后一个选项，请注意您冒着抓取所有Web的风险！

如何在找到的页面上抓取外部链接？
特定页面上的抓取和索引特定链接
由于外部链接导致Google抓取错误
如何抓取/索引单个页面上的链接：Google Search Appliance
Scrapy：存储所有外部链接并抓取所有内部链接
Scrapy抓取类别链接到产品页面
scrapy无法抓取页面中的所有链接
Scrapy：不要抓取其他域页面上的链接
如何使用BeautifulSoup获取在页面上找到的所有外部链接？
如何使用Rcrawler检索/抓取外部链接

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？