如何在spppy规则链接提取器中传递启动URL?

时间:2016-06-07 07:02:35

标签: python web-scraping scrapy

我有一组启动网址,如下所示:

appdelegate

现在我编写了用于提取每个start_urls中发生的所有url的代码,如下所示:

start_urls = [www.example.com,www.example.com/ca,wwww.example.com/ap]

rules = (Rule( LinkExtractor( allow_domains = ('example.com'), attrs = ('href'), tags = ('a'), deny = (), deny_extensions = (), unique = True, ), callback = 'parseHtml', follow = True),) 函数中,我正在解析链接的内容。

现在在上述网站中,我发生了常见的链接。对于那些常见链接,我需要根据parseHtml进行某种识别。 如何使用scrappy来实现这一目标?

1 个答案:

答案 0 :(得分:0)

  1. 您无法使用CrawlSpider并自行从start_requests通过所有回调传递start_url信息

  2. 你可以创建一个Spider Middleware来处理start_requests来做同样的事情但不直接在蜘蛛上做,你可以找到类似的行为here