所以,我正试图从jabong.com抓人鞋。
我的种子网址是:
http://www.jabong.com/men/shoes/
我确保nutch没有跳过?
和=
使用此regex-urlfilter.txt
:
-[*!@]
这是我在nutch-site.xml中的protocol.includes
:
protocol-httpclient|urlfilter-regex|parse-(html|tika)|index-(basic|anchor)|scoring-opic|urlnormalizer-(pass|regex|basic)|indexer-solr
它抓取以下链接,我可以在solr中搜索它们:
http://www.jabong.com/men/shoes/andrew-hill/
http://www.jabong.com/men/shoes/?sh_size=40
http://www.jabong.com/all-products/?promotion=app-10-promo&cmpgp=takeover5
但它实际上并不抓取我想要抓取的产品。产品链接是:
http://www.jabong.com/Alberto-Torresi-Black-Sandals-2024892.html?pos=2
http://www.jabong.com/Clarks-Un-Walk-Brown-Formal-Shoes-874785.html?pos=11
这很奇怪,因为这些链接与种子URL位于同一页面中,但它们不会被抓取。我做了wget
来获取页面,看到链接在那里,所以没有涉及到javascript。
我做错了什么?
答案 0 :(得分:0)
确保您的网页导航不依赖于Cookie。尝试转储crawlDB和段并检查是否已导航到预期的URL。如果导航了从此网址获取的内容。