我正在尝试删除此网站
https://www.neds.com.au/sports/esports
我正在使用scrapy来做,但是我做的任何尝试都只能抓住preloader页面。我只是在使用错误的工具吗?
答案 0 :(得分:0)
无论最终使用什么工具,它都必须监视DOM的变化,并且仅在DOM稳定(内容在任意时间范围内不再变化)时才开始实际抓取。
这样的工具之一就是开源浏览器扩展https://github.com/get-set-fetch/extension。它基于CSS选择器进行抓取,并具有“稳定超时”选项。
从文档中:稳定性超时-当在指定的时间段(毫秒)内没有DOM更改时,考虑页面已加载并准备被抓取。仅适用于html资源。对于绕过预加载器内容很有用。
免责声明:我是扩展程序作者。