我想通过 Python Scrapy 抓取一个网站,并按照包含“目录”的所有链接
我认为聪明的方法是使用Scrapy规则,我试试这个,但它不遵循链接
<div class="class1 class2">
<a href="/cart">TEXT</a>
答案 0 :(得分:2)
restrict_xpaths
定义了查找链接的区域。但您需要使用allow
来检查链接href
值:
Rule(LinkExtractor(allow=r'catalogue/'), callback='parse_page', follow=True)