克隆单个网页(带图片)并保存到index.html

时间:2017-07-09 03:43:03

标签: python html wget

我想克隆包含所有图片的单个网页,而不是html中的链接。我可以使用wget -E -H -k -K -p {url}实现此目的但是这会使用完整结构下拉网页,您必须导航到html文件才能显示内容。这使得显示网页的html文件的位置不一致。

我也可以执行此操作wget --no-check-certificate -O index.html -c -k {url}但这会保留指向图片的链接,并且不会使网页真正本地化,因为它必须通过网络正常显示页面。

有没有办法克隆单个网页并使用本地链接的图片吐出index.html?

PS:我正在使用wget通过一个python脚本来更改网页,因此有一个index.html对我来说是必要的。如果有更好的方法,我对其他方法感兴趣。

修改

所以看起来我还没有解释好自己,但是关于这个项目的一些背景信息是我正在研究一个自动网络钓鱼脚本的学校概念证明,它应该克隆一个网页,修改一些操作标记并放置在本地Web服务器上,以便用户可以导航到该服务器并且页面将正确显示。以前使用-O工作正常,但由于我现在将DNS欺骗加入到我的项目中,网页无法指向外部链接,因为它们最终会被重新路由到我的内部网络服务器,网页看起来会破碎。这就是为什么我需要只有正确显示单个网页所需的信息,但也可以预测,以便我能够确保当我导航到我从网页克隆网站的目录时(与图像,CSS等适当的链接..)

2 个答案:

答案 0 :(得分:2)

如果您想下载网页后添加wget facebook.com --domains website.org --no-parent --page-requisites --html-extension --convert-links的整个网站,请使用此--recursive

答案 1 :(得分:0)

wget是一个bash命令。当您可以在Python中直接完成此任务时,通过Python调用它没有任何意义。基本上你要做的就是网络刮刀。使用请求和BeautifulSoup模块来实现这一目标。研究一下它们并开始编写脚本。如果您遇到任何错误,请随时在SO上发布有关它的新问题。