使用预加载器抓取网站时出现问题

时间:2020-07-20 15:10:21

标签: python web beautifulsoup scrapy screen-scraping

我正在尝试删除此网站

https://www.neds.com.au/sports/esports

我正在使用scrapy来做,但是我做的任何尝试都只能抓住preloader页面。我只是在使用错误的工具吗?

1 个答案:

答案 0 :(得分:0)

无论最终使用什么工具,它都必须监视DOM的变化,并且仅在DOM稳定(内容在任意时间范围内不再变化)时才开始实际抓取。

这样的工具之一就是开源浏览器扩展https://github.com/get-set-fetch/extension。它基于CSS选择器进行抓取,并具有“稳定超时”选项。

从文档中:稳定性超时-当在指定的时间段(毫秒)内没有DOM更改时,考虑页面已加载并准备被抓取。仅适用于html资源。对于绕过预加载器内容很有用。

免责声明:我是扩展程序作者。