Scrapy:如何调试scrapy丢失的请求

时间:2013-12-21 20:46:22

标签: python twisted scrapy

我有一只scrapy蜘蛛,但它有时不会返回请求。

我发现通过在产生请求之前和获得响应之后添加日志消息。

Spider遍历页面并解析每个页面上的项目报废链接。

这是代码的一部分

SampleSpider(BaseSpider):
    ....
    def parse_page(self, response):
        ...
        request = Request(target_link, callback=self.parse_item_general)
        request.meta['date_updated'] = date_updated
        self.log('parse_item_general_send {url}'.format(url=request.url), level=log.INFO)
        yield request

    def parse_item_general(self, response):
        self.log('parse_item_general_recv {url}'.format(url=response.url), level=log.INFO)
        sel = Selector(response)
        ...

我已经比较了每条日志消息的数量,而“parse_item_general_send”大于“parse_item_general_recv”

最终统计数据中没有400或500个错误,所有响应状态代码仅为200.看起来请求消失了。

我还添加了这些参数以最大限度地减少可能的错误:

CONCURRENT_REQUESTS_PER_DOMAIN = 1
DOWNLOAD_DELAY = 0.8

由于扭曲的异步性质,我不知道如何调试这个bug。 我发现了一个类似的问题:Python Scrapy not always downloading data from website,但它没有任何回复

1 个答案:

答案 0 :(得分:1)

On,与Rho相同的注释,您可以添加设置

DUPEFILTER_CLASS = 'scrapy.dupefilter.BaseDupeFilter' 

到你的“settings.py”,这将删除网址缓存。这是一个棘手的问题,因为scrapy日志中没有调试字符串可以告诉您何时使用缓存结果。