应用错误收集

使用预加载器抓取网站时出现问题

时间：2020-07-20 15:10:21

标签： python web beautifulsoup scrapy screen-scraping

我正在尝试删除此网站

https://www.neds.com.au/sports/esports

我正在使用scrapy来做，但是我做的任何尝试都只能抓住preloader页面。我只是在使用错误的工具吗？

1 个答案:

答案 0 :(得分：0)

无论最终使用什么工具，它都必须监视DOM的变化，并且仅在DOM稳定（内容在任意时间范围内不再变化）时才开始实际抓取。

这样的工具之一就是开源浏览器扩展https://github.com/get-set-fetch/extension。它基于CSS选择器进行抓取，并具有“稳定超时”选项。

从文档中：稳定性超时-当在指定的时间段（毫秒）内没有DOM更改时，考虑页面已加载并准备被抓取。仅适用于html资源。对于绕过预加载器内容很有用。

免责声明：我是扩展程序作者。