我正在将Scrapy(Scrapy == 1.6.0)库与Python3一起使用。我想知道,Scrapy在代码中实际上在哪里进行HTML请求?我想在此处设置一个断点,以便可以确切地看到实际传递了哪些标头/ Cookie / URL /用户代理。
此外,回复也恰好在哪里收到?现在,我的蜘蛛无法找到任何页面,所以我想我正在得到空白的HTML文档或403错误,但是我不知道在哪里可以确认这一点。
任何熟悉scrapy库的人都可以将我指向代码中可以检查这些参数的确切位置吗?
答案 0 :(得分:0)
我相信您可以签出scrapy / core / engine.py方法_download。 尽管我建议您使用可刮擦的外壳。它可以让您执行特定的请求,检查响应,在浏览器中打开响应以查看Scrapy收到的内容。另外,您还可以进行一些调整,将Spider导入外壳程序中,并调用Spider的特定方法并在其中放置一个断点。
如果您的蜘蛛无法找到任何页面,则问题可能出在您的蜘蛛上,而不是框架上。