有什么办法可以在Ubuntu上使用Selenium chromedriver来归档和恢复整个页面(包括整个html,css,img,js等)?

时间:2018-11-27 09:06:43

标签: selenium web selenium-chromedriver

我正在寻找一种存档网页整个状态的方法,以用于存档网页。

实际上,我想以某种方式保存页面的所有呈现结果(不是屏幕截图的形式,而是DOM元素呈现结果的形式)我们可以在浏览器上看到,并在没有网络的本地环境中恢复它们。

我真的不需要保存与其他计算机交互的页面的所有功能。只需存档页面视图即可。

我试图归档youtube.com主页的原因是

  1. 使用漂亮的汤直接获取html来源
  2. 使用python硒和chromedriver获取动态加载的html源
  3. 2 +从html代码链接到本地​​目录中下载所有引用的.css,.js和图像。
  4. 在chrome上按ctrl + s即可下载html源和几个文件。 (.js,.css,.jpg等)

但是所有这些都无法正常工作。

起初,第4种方法似乎可行,但很快我发现它会下载初始的html源,而不是动态加载的源。

有没有已知的方法来做这种事情? (存档页面的当前呈现状态)

谢谢。

0 个答案:

没有答案