我是Nutch的新手,正在与Nutch 1.9进行POC。我只是试图抓取我自己的网站来设置搜索。我发现第一次抓取只抓取一页。第二个抓取40页,第三个300.增量减少,整体爬行约400页。有谁知道为什么它不会在第一次运行时完全抓取网站?我使用了nutch教程(http://wiki.apache.org/nutch/NutchTutorial),并按照第3.5节使用脚本运行。
我也发现多次运行它无法抓取整个网站 - GSA为同一网站带回了超过900页 - 荷兰带回400。
非常感谢
杰森
答案 0 :(得分:1)
据我所知,
Nutch抓取已知链接并从已知页面获取链接和链接,然后将这些链接添加到db中以进行下一次抓取。这似乎是为什么荷兰人不会一次性抓取所有页面。
增量抓取意味着只抓取新的或更新的网页,并保留未经修改的网页。
由于您的配置设置,Nutch cralws仅限制页面。将其更改为抓取所有页面。见here
如果您想搜索一个网站,请查看Aperture。它将在单次运行时抓取整个网站。它提供增量支持。
答案 1 :(得分:0)
为什么不使用Nutch邮件列表?你会得到更多的观众和更快的Nutch用户答案。
使用抓取脚本时,您为舍入次数设置了什么值?将其设置为1意味着您不会超过种子列表中的URL。通过一次调用脚本,使用较大的值来抓取整个站点。
网址总数的差异可能是Kumar建议的每页最大链接数,但也可能是由于网址过滤造成的。