应用错误收集

如何备份整个网页包括图片与python？

时间：2012-09-30 20:06:47

标签： python html url web web-crawler

可能重复：
How to download a file in python

我正在玩Python来做一些爬行的东西。我知道有urllib.urlopen("http://XXXX")这可以帮助我获取目标网站的HTML。但是，该网页中原始图像的链接通常会使备份页面中的图像不可用。我想知道是否有一种方法可以将图像保存在本地空间，然后我们可以在没有互联网连接的情况下阅读网站上的完整内容。这就像备份整个网页，但我不确定在Python中是否有任何方法可以做到这一点。此外，如果它可以摆脱广告的东西，它会更加令人敬畏。感谢。

1 个答案:

答案 0 :(得分：1)

如果您希望备份单个网页，那么您就可以了。

由于您提到了抓取功能，如果您要备份整个网站，则需要进行一些真正的抓取，然后您需要scrapy。

有几种方法可以从互联网上下载文件，只需看看这些问题：

Python File Download
How to- download a file in python
Automate file download from http using python

希望这有帮助