如何在抓取爬行时更改深度限制?

时间:2019-07-27 13:05:26

标签: python scrapy

我想为我的Spider禁用某个方法的深度检查和迭代,或者在爬网时更改深度限制。这是我的一些代码:

    def start_requests(self):
        if isinstance(self.vuln, context.GenericVulnerability):
            yield Request(
                self.vuln.base_url,
                callback=self.determine_aliases,
                meta=self._normal_meta,
            )
        else:
            for url in self.vuln.entrypoint_urls:
                yield Request(
                    url, callback=self.parse, meta=self._patch_find_meta
                )


    @inline_requests
    def determine_aliases(self, response):
        vulns = [self.vuln]
        processed_vulns = set()
        while vulns:
            vuln = vulns.pop()
            if vuln.vuln_id is not self.vuln.vuln_id:
                response = yield Request(vuln.base_url)
            processed_vulns.add(vuln.vuln_id)
            aliases = context.create_vulns(*list(self.parse(response)))
            for alias in aliases:
                if alias.vuln_id in processed_vulns:
                    continue
                if isinstance(alias, context.GenericVulnerability):
                    vulns.append(alias)
                else:
                    logger.info("Alias discovered: %s", alias.vuln_id)
                    self.cves.add(alias)
        yield from self._generate_requests_for_vulns()


    def _generate_requests_for_vulns(self):
        for vuln in self.cves:
            for url in vuln.entrypoint_urls:
                yield Request(
                    url, callback=self.parse, meta=self._patch_find_meta
                )

我的程序使用户可以给出他们需要/想要的深度限制作为输入。在某些情况下,我的默认解析方法允许递归爬网链接。

determine_aliases是一种预处理方法,并且_generate_requests_for_vulns生成的请求用于实际解决方案。

如您所见,我从响应中抓取了我需要的数据,并将其存储在来自define_aliases的蜘蛛类中的set属性'cves'中。完成之后,我会从_generate_requests_for_vulns中产生带有该数据的请求。

这里的问题是,要么从dedecms_aliases产生请求,要么作为回调调用determine_aliases来迭代深度。因此,当我从_generate_requests_for_vulns发出请求以进行进一步爬网时,比预期的要早达到深度限制。

请注意,实际的爬网解决方案始于_generate_requests_for_vulns生成的请求,因此给定的深度限制应仅从这些请求中应用。

1 个答案:

答案 0 :(得分:0)

最后,我通过创建一个将深度重置为0的中间件解决了这个问题。我在请求中传递了一个元参数,其“ reset_depth”为True,中间件在此之后更改了请求的depth参数。

class DepthResetMiddleware(object):

    def process_spider_output(self, response, result, spider):
        for r in result:
            if not isinstance(r, Request):
                yield r
                continue
            if (
                "depth" in r.meta
                and "reset_depth" in r.meta
                and r.meta["reset_depth"]
            ):
                r.meta["depth"] = 0
            yield r

请求应该以某种方式从蜘蛛产生:

yield Request(url, meta={"reset_depth": True})

然后将中间件添加到您的设置。顺序很重要,因为此中间件应在DepthMiddleware之前执行。由于默认的DepthMiddleware顺序为900,因此我在CrawlerProcess中将DepthResetMiddleware的顺序设置为850,如下所示:

"SPIDER_MIDDLEWARES": {
    "patchfinder.middlewares.DepthResetMiddleware": 850
}

不知道这是否是最好的解决方案,但是它可以工作。另一种选择是扩展DepthMiddleware并在其中添加此功能。