问题
下载动态加载链接/图片的网站的完整脱机副本
研究
Stackoverflow上有一些问题(例如[1],[2],[3])解决了这个问题,其中大多数都使用wget或{{3}获得了最佳答案如果错误地加载链接或使用srcset
而不是src
用于img
标记的网页 - 或者通过JS加载的任何内容,这两个都失败了(如果我错了请纠正我) - 。一个相当明显的解决方案是httrack,但是,如果你曾经在生产中使用Selenium,你很快就会看到这样一个决定引起的问题(资源繁重,使用头部驱动程序非常复杂,事实是据说,Selenium
预期解决方案
一个脚本(最好是在python中),它解析链接页面并单独加载它们。我似乎无法找到任何现有的脚本。如果您的解决方案是“如此实施自己的”,那么首先提出问题毫无意义,我正在寻求现有的实施方案。
实施例