我有一个包含图片和一些文字的mht文件。当我用notepad ++打开它时,我看到xml然后看到难以辨认的文字,我认为它们是图像。 有人能告诉我如何使用java程序从mht文件中提取图像和文本? 感谢。
答案 0 :(得分:4)
尝试名为ExtractMHT的工具
http://www.legroom.net/software/extractmht
答案 1 :(得分:2)
它有点旧,但在Internet Explorer中打开它,并保存为HTML也可以完成这项工作
更新
如果您在IE中打开.mht文件,请使用"保存类型"保存它。设置为"网页,完成( .htm; .html)"然后它将创建' 文件名 .htm'文件,以及' 文件名 _files'目录。在那个目录中会有很多.tmp文件。对于来自MS"问题步骤记录器"的输出,这些将包括一堆带有'(1)'的文件。在名称中(因为可能有一个' mhtD3B8.tmp '文件以及' mhtD3B8(1).tmp '文件)。 '(1)'文件是.jpg格式的图像,只是扩展名为.tmp。使用'(1)'搜索所有文件在该文件夹的名称中,并将它们复制到另一个目录。
进入新目录后,打开指向那里的cmd窗口。要一次更改所有扩展程序,请键入" 重命名* .tmp * .jpg " (不带引号)并按Enter键。 Voila - 提取所有图像文件。
至于访问文本 - 由于文件现在保存为.htm文件,您应该能够在Notepad ++中打开该文件并在那里正确解析/读取它。
希望这有帮助!
答案 2 :(得分:1)
有一个名为unmht
的开源perl
工具可以完成这项工作:
归档中的第一个HTML文件被视为主要Web 页面,其他包含"页面必需品和#34;比如图像 或框架。主网页将写入输出目录 (默认为当前目录),子目录的必备条件 以没有扩展名的主HTML文件名命名 " _files"追加。链接涉及必需品的所有HTML文件中的URL 被重写以指向保存的文件。