应用错误收集

Scrapy在哪里实际执行html请求？

时间：2019-03-13 17:31:44

标签： python web-scraping scrapy

我正在将Scrapy（Scrapy == 1.6.0）库与Python3一起使用。我想知道，Scrapy在代码中实际上在哪里进行HTML请求？我想在此处设置一个断点，以便可以确切地看到实际传递了哪些标头/ Cookie / URL /用户代理。

此外，回复也恰好在哪里收到？现在，我的蜘蛛无法找到任何页面，所以我想我正在得到空白的HTML文档或403错误，但是我不知道在哪里可以确认这一点。

任何熟悉scrapy库的人都可以将我指向代码中可以检查这些参数的确切位置吗？

1 个答案:

答案 0 :(得分：0)

我相信您可以签出scrapy / core / engine.py方法_download。尽管我建议您使用可刮擦的外壳。它可以让您执行特定的请求，检查响应，在浏览器中打开响应以查看Scrapy收到的内容。另外，您还可以进行一些调整，将Spider导入外壳程序中，并调用Spider的特定方法并在其中放置一个断点。

如果您的蜘蛛无法找到任何页面，则问题可能出在您的蜘蛛上，而不是框架上。