标签: python html url web web-crawler
可能重复: How to download a file in python
我正在玩Python来做一些爬行的东西。我知道有urllib.urlopen("http://XXXX")这可以帮助我获取目标网站的HTML。但是,该网页中原始图像的链接通常会使备份页面中的图像不可用。我想知道是否有一种方法可以将图像保存在本地空间,然后我们可以在没有互联网连接的情况下阅读网站上的完整内容。这就像备份整个网页,但我不确定在Python中是否有任何方法可以做到这一点。此外,如果它可以摆脱广告的东西,它会更加令人敬畏。感谢。
urllib.urlopen("http://XXXX")
答案 0 :(得分:1)
如果您希望备份单个网页,那么您就可以了。
由于您提到了抓取功能,如果您要备份整个网站,则需要进行一些真正的抓取,然后您需要scrapy。
有几种方法可以从互联网上下载文件,只需看看这些问题:
希望这有帮助