Python将XML网页保存到.mht

时间:2017-06-29 15:46:06

标签: python

我在设备上有一个诊断网页,其中包含由xsl和gif文件组成的XML格式的图表。有没有办法用Python下载整个页面并将其保存为单个.mht文件而不是单独的文件?

2 个答案:

答案 0 :(得分:0)

这基本上是这两个问题的组合:

AFAIK,您可以使用urllib下载页面,使用Beautiful Soup解析HTML,在解析的HTML中查找图像和其他依赖项,下载这些内容,将解析后的html中的图像网址重写为指向本地副本(Beautiful Soup可以执行此操作),将修改后的HTML保存回磁盘,并使用MHTifier生成MHT。

也许Scrapy也可以帮到你。

答案 1 :(得分:0)

您好,我能够使用win32com将html页面从网页和本地html转换为.mht。 你可以看看这个 https://stackoverflow.com/a/59321911/5290876

您可以将xsl的示例xml与图像共享进行测试。