应用错误收集

我有一个Drupal网站（无法显示），它是html表。我需要仔细检查这张桌子上的行。

默认情况下，表视图不适合爬网：

表仅显示15行，要查看接下来的15行，请点击 “下一个”按钮。
没有“国家”列，它在单独的位置行。

这两个问题可以通过过滤器解决：

我需要在每页“所有”行上更改“ 15”。
取消选中该复选框，将显示“国家”列。

此后便可以开始使用桌子了。

我注意到，当我按下“下一步”按钮或更改F12中的表格选项->网络时，我看到一个很大的Ajax POST请求。存在负责“每页行数”和““国家”列”的数据。我试图使用由数据构成的正文进行请求POST。我只收到响应“错误的请求”。之后，我发现体内是负责盐分的数据。我在html中找到了这种盐，然后从html动态获取。目前，我发出POST请求，得到响应200，但是此页面错误。

问题：如何在“准备抓取”模式下通过Scrapy获取页面？如何与代码中的过滤器进行交互？

我了解我对情况的解释非常抽象，但是我对所有想法和解决方案都很满意！提前非常感谢！

如何通过Python Scrapy抓取drupal网站？

0 个答案: