在JS执行后递归镜像网页

时间:2018-05-31 17:06:24

标签: javascript dom phantomjs wget

我正在尝试递归地镜像网页,例如将所有页面放在一个网页上。所有网页都只在一个文件夹的子文件夹中,因此我可以使用wget轻松镜像所有网页:

wget --mirror --recursive --page-requisites --adjust-extension --no-parent --convert-links https://www.example.com/

但是,在执行某些JS脚本之前会对该页面进行镜像,并且这些JS脚本不会被镜像。我也需要以某种方式镜像它们,因为它们会改变网页的DOM。另一个选择是等待站点完成加载并镜像加载的网页(任务不是时间关键)。

我已经尝试使用PhantomJS镜像网页,但我不能使用PhantomJS进行递归,或者至少我找不到如何。我还仔细看了一下wget手册页,但找不到任何相应的选项。

有可能这样做吗?提前谢谢。

1 个答案:

答案 0 :(得分:0)

wget不执行任何JavaScript。您可能需要通过splash之类的代理。我以前曾用刮板蜘蛛飞溅,但从未用过wget。值得尝试