我有一个Drupal网站(无法显示),它是html表。我需要仔细检查这张桌子上的行。
默认情况下,表视图不适合爬网:
这两个问题可以通过过滤器解决:
此后便可以开始使用桌子了。
我注意到,当我按下“下一步”按钮或更改F12中的表格选项->网络时,我看到一个很大的Ajax POST请求。存在负责“每页行数”和““国家”列”的数据。我试图使用由数据构成的正文进行请求POST。我只收到响应“错误的请求”。之后,我发现体内是负责盐分的数据。 我在html中找到了这种盐,然后从html动态获取。 目前,我发出POST请求,得到响应200,但是此页面错误。
问题: 如何在“准备抓取”模式下通过Scrapy获取页面?如何与代码中的过滤器进行交互?
我了解我对情况的解释非常抽象,但是我对所有想法和解决方案都很满意!提前非常感谢!