Nutch的增量爬行

时间:2014-11-17 02:43:27

标签: nutch

我是Nutch的新手,正在与Nutch 1.9进行POC。我只是试图抓取我自己的网站来设置搜索。我发现第一次抓取只抓取一页。第二个抓取40页,第三个300.增量减少,整体爬行约400页。有谁知道为什么它不会在第一次运行时完全抓取网站?我使用了nutch教程(http://wiki.apache.org/nutch/NutchTutorial),并按照第3.5节使用脚本运行。

我也发现多次运行它无法抓取整个网站 - GSA为同一网站带回了超过900页 - 荷兰带回400。

非常感谢

杰森

2 个答案:

答案 0 :(得分:1)

据我所知,

Nutch抓取已知链接并从已知页面获取链接和链接,然后将这些链接添加到db中以进行下一次抓取。这似乎是为什么荷兰人不会一次性抓取所有页面。

增量抓取意味着只抓取新的或更新的网页,并保留未经修改的网页。

由于您的配置设置,Nutch cralws仅限制页面。将其更改为抓取所有页面。见here

如果您想搜索一个网站,请查看Aperture。它将在单次运行时抓取整个网站。它提供增量支持。

答案 1 :(得分:0)

为什么不使用Nutch邮件列表?你会得到更多的观众和更快的Nutch用户答案。

使用抓取脚本时,您为舍入次数设置了什么值?将其设置为1意味着您不会超过种子列表中的URL。通过一次调用脚本,使用较大的值来抓取整个站点。

网址总数的差异可能是Kumar建议的每页最大链接数,但也可能是由于网址过滤造成的。

相关问题