Question

我有一组启动网址，如下所示：

appdelegate

现在我编写了用于提取每个start_urls中发生的所有url的代码，如下所示：

start_urls = [www.example.com,www.example.com/ca,wwww.example.com/ap]

在rules = (Rule( LinkExtractor( allow_domains = ('example.com'), attrs = ('href'), tags = ('a'), deny = (), deny_extensions = (), unique = True, ), callback = 'parseHtml', follow = True),)函数中，我正在解析链接的内容。

现在在上述网站中，我发生了常见的链接。对于那些常见链接，我需要根据parseHtml进行某种识别。如何使用scrappy来实现这一目标？

Answer 1

您无法使用CrawlSpider并自行从start_requests通过所有回调传递start_url信息
你可以创建一个Spider Middleware来处理start_requests来做同样的事情但不直接在蜘蛛上做，你可以找到类似的行为here

如何在spppy规则链接提取器中传递启动URL？

1 个答案: