Question

所以，我正试图从jabong.com抓人鞋。

我的种子网址是：

http://www.jabong.com/men/shoes/

我确保nutch没有跳过?和=使用此regex-urlfilter.txt：

-[*!@]

这是我在nutch-site.xml中的protocol.includes：

protocol-httpclient|urlfilter-regex|parse-(html|tika)|index-(basic|anchor)|scoring-opic|urlnormalizer-(pass|regex|basic)|indexer-solr

它抓取以下链接，我可以在solr中搜索它们：

http://www.jabong.com/men/shoes/andrew-hill/
http://www.jabong.com/men/shoes/?sh_size=40
http://www.jabong.com/all-products/?promotion=app-10-promo&cmpgp=takeover5

但它实际上并不抓取我想要抓取的产品。产品链接是：

http://www.jabong.com/Alberto-Torresi-Black-Sandals-2024892.html?pos=2
http://www.jabong.com/Clarks-Un-Walk-Brown-Formal-Shoes-874785.html?pos=11

这很奇怪，因为这些链接与种子URL位于同一页面中，但它们不会被抓取。我做了wget来获取页面，看到链接在那里，所以没有涉及到javascript。

我做错了什么？

Answer 1

确保您的网页导航不依赖于Cookie。尝试转储crawlDB和段并检查是否已导航到预期的URL。如果导航了从此网址获取的内容。

使用Nutch 2.3.1抓取网站会跳过产品链接，但会抓取其他链接

1 个答案: