如何在python中使用wget下载网页(mhtml格式)

时间:2017-03-23 02:37:44

标签: python python-3.x selenium ipython wget

我们如何保存包含其中内容的网页,以便在python语言中使用wget可以脱机查看?目前我使用以下代码:

import wget

driver.webdriver.Chrome()
driver.get("http://www.yahoo.com")
wget.download("http://www.yahoo.com", C:\\Users\\karanjuneja\\Downloads\\kj\\yahoo.mhtml")

这可以在文件夹中找到并编辑mhtml版本的网页,但是当你打开文件时,你只能找到所写的代码而不是网页在线显示的方式。有什么建议? 谢谢 卡兰

1 个答案:

答案 0 :(得分:0)

此代码可帮助您创建网站的离线副本,即使没有互联网访问,您也可以查看该网站。

wget --mirror --convert-links --adjust-extension --page-requisites 
--no-parent http://example.org

- mirror - 使下载递归(除其他外)。

- convert-links - 将所有链接(也包括CSS样式表等内容)转换为相对链接,因此适合离线观看。

- adjust-extension - 根据文件名的内容类型为文件名(html或css)添加合适的扩展名。

- 页面要求 - 下载正确显示页面离线所需的CSS样式表和图像等内容。

- no-parent - 递归时不提升到父目录。它有助于将下载限制为仅部分网站。

感谢Guy Rutenberg在他的论坛中提供了帮助我的代码。