使用Nutch 2.3.1抓取网站会跳过产品链接,但会抓取其他链接

时间:2016-03-31 10:33:11

标签: solr web-crawler nutch

所以,我正试图从jabong.com抓人鞋。

我的种子网址是:

http://www.jabong.com/men/shoes/

我确保nutch没有跳过?=使用此regex-urlfilter.txt

-[*!@]

这是我在nutch-site.xml中的protocol.includes

protocol-httpclient|urlfilter-regex|parse-(html|tika)|index-(basic|anchor)|scoring-opic|urlnormalizer-(pass|regex|basic)|indexer-solr

它抓取以下链接,我可以在solr中搜索它们:

http://www.jabong.com/men/shoes/andrew-hill/
http://www.jabong.com/men/shoes/?sh_size=40
http://www.jabong.com/all-products/?promotion=app-10-promo&cmpgp=takeover5

但它实际上并不抓取我想要抓取的产品。产品链接是:

http://www.jabong.com/Alberto-Torresi-Black-Sandals-2024892.html?pos=2
http://www.jabong.com/Clarks-Un-Walk-Brown-Formal-Shoes-874785.html?pos=11

这很奇怪,因为这些链接与种子URL位于同一页面中,但它们不会被抓取。我做了wget来获取页面,看到链接在那里,所以没有涉及到javascript。

我做错了什么?

1 个答案:

答案 0 :(得分:0)

确保您的网页导航不依赖于Cookie。尝试转储crawlDB和段并检查是否已导航到预期的URL。如果导航了从此网址获取的内容。