在一个引号内抓取href的链接

时间:2012-01-16 06:32:56

标签: scrapy web-crawler

我使用Scrapy抓取某些网站,我对href有一个引用href=' '而不是双引号href=" "的链接有疑问。

当我允许使用allow()抓取所有链接时,结果将只包含用双引号形成的链接。我怎样才能克服这个问题?

1 个答案:

答案 0 :(得分:0)

您使用的是scrapy.contrib_exp.crawlspider.rules.RuleSgmlLinkExtractor吗?我不认为单引号或双引号很重要。如果您希望提取所有链接并将其与该特定规则相关联,请使用

Rule(SgmlLinkExtractor(allow=('.*', )), callback='parse_item')

as allow =()引用空元组,因此不会匹配url。