应用错误收集

Nutch的增量爬行

时间：2014-11-17 02:43:27

标签： nutch

我是Nutch的新手，正在与Nutch 1.9进行POC。我只是试图抓取我自己的网站来设置搜索。我发现第一次抓取只抓取一页。第二个抓取40页，第三个300.增量减少，整体爬行约400页。有谁知道为什么它不会在第一次运行时完全抓取网站？我使用了nutch教程（http://wiki.apache.org/nutch/NutchTutorial），并按照第3.5节使用脚本运行。

我也发现多次运行它无法抓取整个网站 - GSA为同一网站带回了超过900页 - 荷兰带回400。

非常感谢

杰森

2 个答案:

答案 0 :(得分：1)

据我所知，

Nutch抓取已知链接并从已知页面获取链接和链接，然后将这些链接添加到db中以进行下一次抓取。这似乎是为什么荷兰人不会一次性抓取所有页面。

增量抓取意味着只抓取新的或更新的网页，并保留未经修改的网页。

由于您的配置设置，Nutch cralws仅限制页面。将其更改为抓取所有页面。见here

如果您想搜索一个网站，请查看Aperture。它将在单次运行时抓取整个网站。它提供增量支持。

答案 1 :(得分：0)

为什么不使用Nutch邮件列表？你会得到更多的观众和更快的Nutch用户答案。

使用抓取脚本时，您为舍入次数设置了什么值？将其设置为1意味着您不会超过种子列表中的URL。通过一次调用脚本，使用较大的值来抓取整个站点。

网址总数的差异可能是Kumar建议的每页最大链接数，但也可能是由于网址过滤造成的。