Question

我想通过 Python Scrapy 抓取一个网站，并按照包含“目录”的所有链接

我认为聪明的方法是使用Scrapy规则，我试试这个，但它不遵循链接

<div class="class1 class2"> 
  <a href="/cart">TEXT</a>

Answer 1

restrict_xpaths定义了查找链接的区域。但您需要使用allow来检查链接href值：

Rule(LinkExtractor(allow=r'catalogue/'), callback='parse_page', follow=True)