我们如何保存包含其中内容的网页,以便在python语言中使用wget可以脱机查看?目前我使用以下代码:
import wget
driver.webdriver.Chrome()
driver.get("http://www.yahoo.com")
wget.download("http://www.yahoo.com", C:\\Users\\karanjuneja\\Downloads\\kj\\yahoo.mhtml")
这可以在文件夹中找到并编辑mhtml版本的网页,但是当你打开文件时,你只能找到所写的代码而不是网页在线显示的方式。有什么建议? 谢谢 卡兰
答案 0 :(得分:0)
此代码可帮助您创建网站的离线副本,即使没有互联网访问,您也可以查看该网站。
wget --mirror --convert-links --adjust-extension --page-requisites
--no-parent http://example.org
- mirror - 使下载递归(除其他外)。
- convert-links - 将所有链接(也包括CSS样式表等内容)转换为相对链接,因此适合离线观看。
- adjust-extension - 根据文件名的内容类型为文件名(html或css)添加合适的扩展名。
- 页面要求 - 下载正确显示页面离线所需的CSS样式表和图像等内容。
- no-parent - 递归时不提升到父目录。它有助于将下载限制为仅部分网站。
感谢Guy Rutenberg在他的论坛中提供了帮助我的代码。