我正在使用nutch 1.4来抓取网站。出于演示目的,我开始使用jabong.com抓取,但我发现nutch无法获取网站中的所有链接。
访问http://www.jabong.com/women/clothing/womens-suits-sets/后 它不会获取此站点中存在的映射到映像的链接。
我已将nutch配置为: - conf / nuth-default.xml --->添加了代理名称 conf / regex-urlfilter.txt --->而不是+。 ,我写了+ ^ http://([a-z0-9] *。)* jabong.com / seed.txt包含http://www.jabong.com/
有人可以告诉我可能是什么问题它没有取出所有链接?
答案 0 :(得分:2)
最后,能够彻底解决这个问题。所以在这里分享:) 您必须调整conf目录
中nutch-default.xml
中定义的参数
因此请检查max.content.length
,为此定义的值大约为60K,但实际上页面内容更多,因此无法抓取整个页面,这就是为什么链接无法在爬网中显示的原因页。
所以在抓取任何网站之前请检查这些参数:) 享受爬行:)
PS:对不起我的情况有些人认为我在这里发帖提问然后发布解决方案。在发布问题之前我实际上尝试了很多..