我有一组启动网址,如下所示:
appdelegate
现在我编写了用于提取每个start_urls中发生的所有url的代码,如下所示:
start_urls = [www.example.com,www.example.com/ca,wwww.example.com/ap]
在rules = (Rule(
LinkExtractor(
allow_domains = ('example.com'),
attrs = ('href'),
tags = ('a'),
deny = (),
deny_extensions = (),
unique = True,
),
callback = 'parseHtml', follow = True),)
函数中,我正在解析链接的内容。
现在在上述网站中,我发生了常见的链接。对于那些常见链接,我需要根据parseHtml
进行某种识别。
如何使用scrappy来实现这一目标?
答案 0 :(得分:0)
您无法使用CrawlSpider
并自行从start_requests
通过所有回调传递start_url信息
你可以创建一个Spider Middleware
来处理start_requests
来做同样的事情但不直接在蜘蛛上做,你可以找到类似的行为here