如何通过Python Scrapy抓取drupal网站?

时间:2019-06-28 09:19:50

标签: python filter drupal scrapy

我有一个Drupal网站(无法显示),它是html表。我需要仔细检查这张桌子上的行。

默认情况下,表视图不适合爬网:

  1. 表仅显示15行,要查看接下来的15行,请点击 “下一个”按钮。
  2. 没有“国家”列,它在单独的位置     行。

这两个问题可以通过过滤器解决:

  1. 我需要在每页“所有”行上更改“ 15”。
  2. 取消选中该复选框,将显示“国家”列。

此后便可以开始使用桌子了。

我注意到,当我按下“下一步”按钮或更改F12中的表格选项->网络时,我看到一个很大的Ajax POST请求。存在负责“每页行数”和““国家”列”的数据。我试图使用由数据构成的正文进行请求POST。我只收到响应“错误的请求”。之后,我发现体内是负责盐分的数据。 我在html中找到了这种盐,然后从html动态获取。 目前,我发出POST请求,得到响应200,但是此页面错误。

问题: 如何在“准备抓取”模式下通过Scrapy获取页面?如何与代码中的过滤器进行交互?

我了解我对情况的解释非常抽象,但是我对所有想法和解决方案都很满意!提前非常感谢!

0 个答案:

没有答案