Question

我使用Scrapy抓取某些网站，我对href有一个引用href=' '而不是双引号href=" "的链接有疑问。

当我允许使用allow()抓取所有链接时，结果将只包含用双引号形成的链接。我怎样才能克服这个问题？

Answer 1

您使用的是scrapy.contrib_exp.crawlspider.rules.Rule和SgmlLinkExtractor吗？我不认为单引号或双引号很重要。如果您希望提取所有链接并将其与该特定规则相关联，请使用

Rule(SgmlLinkExtractor(allow=('.*', )), callback='parse_item')

as allow =（）引用空元组，因此不会匹配url。