我注意到,由于在太多页面上使用会话cookie,我有时会在抓取时被阻止。 有没有办法在抓取过程中完全清除所有cookie以回到爬虫的初始状态?
答案 0 :(得分:0)
自己面对类似的情况。我可以在这里轻松逃脱,但我有一个想法是继承CookieMiddleware,然后编写一个方法来直接调整jar变量。这很脏,但也许值得考虑。
另一种选择是编写功能请求,至少具有清除cookie的功能。可以轻松地再花一年时间实施,如果认为有需要的话,我并不特别信任scrapy devs。
刚出现,我可以使用你自己的cookiejar元,如果你想返回干净状态,你只需使用不同的值(比如递增一个整数)。