应用错误收集

Nutch未能抓住特定网站

时间：2012-03-26 04:24:32

标签： web-crawler nutch

我正在使用nutch 1.4来抓取网站。出于演示目的，我开始使用jabong.com抓取，但我发现nutch无法获取网站中的所有链接。

访问http://www.jabong.com/women/clothing/womens-suits-sets/后它不会获取此站点中存在的映射到映像的链接。

我已将nutch配置为： - conf / nuth-default.xml ---＆gt;添加了代理名称 conf / regex-urlfilter.txt ---＆gt;而不是+。，我写了+ ^ http：//（[a-z0-9] *。）* jabong.com / seed.txt包含http://www.jabong.com/

有人可以告诉我可能是什么问题它没有取出所有链接？

1 个答案:

答案 0 :(得分：2)

最后，能够彻底解决这个问题。所以在这里分享:) 您必须调整conf目录

中nutch-default.xml中定义的参数

因此请检查max.content.length，为此定义的值大约为60K，但实际上页面内容更多，因此无法抓取整个页面，这就是为什么链接无法在爬网中显示的原因页。

所以在抓取任何网站之前请检查这些参数:) 享受爬行：）

PS：对不起我的情况有些人认为我在这里发帖提问然后发布解决方案。在发布问题之前我实际上尝试了很多..