我使用Scrapy抓取某些网站,我对href
有一个引用href=' '
而不是双引号href=" "
的链接有疑问。
当我允许使用allow()
抓取所有链接时,结果将只包含用双引号形成的链接。我怎样才能克服这个问题?
答案 0 :(得分:0)
您使用的是scrapy.contrib_exp.crawlspider.rules.Rule
和SgmlLinkExtractor
吗?我不认为单引号或双引号很重要。如果您希望提取所有链接并将其与该特定规则相关联,请使用
Rule(SgmlLinkExtractor(allow=('.*', )), callback='parse_item')
as allow =()引用空元组,因此不会匹配url。