从mht文件中提取图像和文本

时间:2013-12-09 17:21:30

标签: mhtml

我有一个包含图片和一些文字的mht文件。当我用notepad ++打开它时,我看到xml然后看到难以辨认的文字,我认为它们是图像。 有人能告诉我如何使用java程序从mht文件中提取图像和文本? 感谢。

3 个答案:

答案 0 :(得分:4)


尝试名为ExtractMHT的工具 http://www.legroom.net/software/extractmht

答案 1 :(得分:2)

它有点旧,但在Internet Explorer中打开它,并保存为HTML也可以完成这项工作

更新

如果您在IE中打开.mht文件,请使用"保存类型"保存它。设置为"网页,完成( .htm; .html)"然后它将创建' 文件名 .htm'文件,以及' 文件名 _files'目录。在那个目录中会有很多.tmp文件。对于来自MS"问题步骤记录器"的输出,这些将包括一堆带有'(1)'的文件。在名称中(因为可能有一个' mhtD3B8.tmp '文件以及' mhtD3B8(1).tmp '文件)。 '(1)'文件是.jpg格式的图像,只是扩展名为.tmp。使用'(1)'搜索所有文件在该文件夹的名称中,并将它们复制到另一个目录。

进入新目录后,打开指向那里的cmd窗口。要一次更改所有扩展程序,请键入" 重命名* .tmp * .jpg " (不带引号)并按Enter键。 Voila - 提取所有图像文件。

至于访问文本 - 由于文件现在保存为.htm文件,您应该能够在Notepad ++中打开该文件并在那里正确解析/读取它。

希望这有帮助!

答案 2 :(得分:1)

有一个名为unmht的开源perl工具可以完成这项工作:

  

归档中的第一个HTML文件被视为主要Web   页面,其他包含"页面必需品和#34;比如图像   或框架。主网页将写入输出目录   (默认为当前目录),子目录的必备条件   以没有扩展名的主HTML文件名命名   " _files"追加。链接涉及必需品的所有HTML文件中的URL   被重写以指向保存的文件。