将动态页面保存到文件或Web存档

时间:2014-07-26 22:53:11

标签: python python-2.7 web beautifulsoup urllib2

我想在我的磁盘上保存一个页面(甚至可以脱机打开它)。如果页面是非常基本的:一些文本,几个图像,几个链接等我没有问题。但是,如果我想要保存像https://www.python.org/这样的页面,我会有很多关于grpahics的问题。 我在努力:

htmldata = urllib2.urlopen('https://www.python.org/').read()
f = open('myfile.html','w')
f.write(htmldata)
f.close()

但是当我打开文件时,我有: enter image description here

即使我尝试从页面保存任何img(使用bs4查找它们),它也只找到一个图像,我文件中的页面仍然相同。 那么如何保存页面以脱机打开它。也许它不应该是一个.html文件而是别的什么?

1 个答案:

答案 0 :(得分:2)

您必须在HTML中找到所有图片,css,js的网址并下载它们,然后在HTML中更改该溃疡并在磁盘上设置文件位置。

BTW:也许新网址需要file://前缀。

BTW:某些图像可以在CSS或JS文件中定义。因此,您需要在CSS和JS中找到URL,下载它们并在HTML和JS中更改URL。