如何使用Scrapy中的规则来关注某些链接?

时间:2016-06-29 14:52:16

标签: python scrapy web-crawler scrapy-spider

我想通过 Python Scrapy 抓取一个网站,并按照包含“目录”的所有链接

我认为聪明的方法是使用Scrapy规则,我试试这个,但它不遵循链接

<div class="class1 class2"> 
  <a href="/cart">TEXT</a>

1 个答案:

答案 0 :(得分:2)

restrict_xpaths定义了查找链接的区域。但您需要使用allow来检查链接href值:

Rule(LinkExtractor(allow=r'catalogue/'), callback='parse_page', follow=True)