将webarchive转换为html

时间:2012-11-20 09:15:20

标签: html extract webarchive

我设法将复杂网站的行为收集到webarchive中。此后,我想将该webarchive转换为嵌套目录的html集。然而,当我使用Waf和Apple商店购买的商业软件时,我得到的只是嵌套目录,底部是html页面,没有图像,也没有css或工作链接。 如果您对webarchive文档感兴趣,请访问:

http://www.miafoto.it/it/GiroMilano.webarchive

虽然提取的弱产物是:

http://www.miafoto.it/it/Giromilano/Pagine/default.aspx

以及上面的空目录。 除了不同的外观,webarchive显示与官方网站相同的行为 - 当选择列表框vales然后按下按钮时 - 提取的版本通过加载自身而不是官方页面产生没有内容的页面。 正如您所看到的,webarchive超过1MB,而提取只有1 KB以上。

它有什么问题,我怎么能用可用的结果来完成这么显而易见的琐碎业务?

谢谢,

2 个答案:

答案 0 :(得分:4)

textutil -convert html example.webarchive
  • Be careful — html with files is created in the same folder as webarchive!
  • Also, I had to open .html with text editor and replace "file:///image.tiff" links (replace "file:///" with "") so they point to relative path.
  • Also, not all browsers display .tiff images.

Who knew we have Stack Overflow wiki?

答案 1 :(得分:0)

我通过查找页面中提交的所有参数并在我的脚本中提交它们来管理此问题,忽略了webarchive。