检索包含动态加载的链接/图片的完整网页

时间:2018-04-15 17:11:54

标签: python selenium web-scraping wget httrack

问题

下载动态加载链接/图片的网站的完整脱机副本

研究

Stackoverflow上有一些问题(例如[1][2][3])解决了这个问题,其中大多数都使用wget或{{3}获得了最佳答案如果错误地加载链接或使用srcset而不是src用于img标记的网页 - 或者通过JS加载的任何内容,这两个都失败了(如果我错了请纠正我) - 。一个相当明显的解决方案是httrack,但是,如果你曾经在生产中使用Selenium,你很快就会看到这样一个决定引起的问题(资源繁重,使用头部驱动程序非常复杂,事实是据说,Selenium

,它不是为此而建的

预期解决方案

一个脚本(最好是在python中),它解析链接页面并单独加载它们。我似乎无法找到任何现有的脚本。如果您的解决方案是“如此实施自己的”,那么首先提出问题毫无意义,我正在寻求现有的实施方案。

实施例

  1. Shopify.com
  2. 使用Wix构建的网站

1 个答案:

答案 0 :(得分:2)

现在有Selenium的无头版本和PhantomJS之类的替代版本,它们都可以与小型脚本一起使用,以删除任何动态加载的网站。

我已经实现了一个通用的刮板here,并详细介绍了主题here