将图层从PDF文件提取到HTML

时间:2011-10-07 10:29:12

标签: pdf

我有一个包含图层的PDF文件。

例如,在某些页面上,当点击(图层)时,会有图表,其他数据显示在该图表的顶部。

现在我需要尝试从PDF文件中获取所有这些图层,或者确切地说,我需要来自该PDF文件的所有数据,包括图层。 pdf文件包含javascript以在适当时显示/隐藏图层。

最好的方法是什么?有没有任何工具可以实现我的意图?或者我应该自己写点什么? (如果可能的话)。

编辑:

您可以在这里下载PDF文件: http://www.2shared.com/document/IutUfDfr/OR_erasmus.html

查看密码为:erasmus

2 个答案:

答案 0 :(得分:1)

我不知道是否有任何工具本身但如果你找不到那些工具,你可能会做以下事情:

  • 对于您感兴趣的每个开/关层组合,遍历所有页面并收集内容流。对这些进行标记并删除您不希望看到的内容(您需要监视的命令以确定这是BDC和EMC)。使用剪切的内容再次保存流(自然将结果保存在不同的文件中)。你需要一些东西来阅读PDF对象结构并更新一些对象(有很多库),而且你需要能够解析内容流。

现在你将拥有一组没有图层的PDF文件(可选内容),有很多工具可以呈现给HTML等。

注意:可选内容< - > PDF查看器中的图层开关通常为1:1,但标准支持完整的n:m映射。我将专注于真正的可选内容块,可以打开/关闭以保持简单。

答案 1 :(得分:0)

您可以使用此工具从甚至锁定的pdf中提取图像和文本

http://download.cnet.com/Able2Extract/3000-2079_4-10249654.html

我有时会自己使用它,它可以转换为HTML