我正在通过关于hadoop的nutch章节阅读,这是权威指南。我理解使用反向链接对页面进行排名的概念。但是,当您只想抓取几个网站时,我没有看到扮演角色。由于linkdb的创建是map reduce作业,因此它必然会占用大量的计算资源。我只是想知道为什么当大多数nutch用例只是为指定的URL获取web内容时,始终生成linkdb。
答案 0 :(得分:1)
这是因为Nutch使用页面排名(使用链接信息计算)来确定抓取的优先级。例如,具有较高页面排名的链接将在具有较低页面排名的链接之前被爬网。
Nutch被设计用作大型网络爬虫,因此计算网页排名和评分网页仍然是一个重要的组成部分。如果你正在抓取一些网站,那么你可能应该使用scrappy(一个python库)。
我希望能回答你的问题。