应用错误收集

时间：2011-10-07 10:29:12

标签： pdf

我有一个包含图层的PDF文件。

例如，在某些页面上，当点击（图层）时，会有图表，其他数据显示在该图表的顶部。

现在我需要尝试从PDF文件中获取所有这些图层，或者确切地说，我需要来自该PDF文件的所有数据，包括图层。 pdf文件包含javascript以在适当时显示/隐藏图层。

最好的方法是什么？有没有任何工具可以实现我的意图？或者我应该自己写点什么？（如果可能的话）。

编辑：

查看密码为：erasmus

答案 0 :(得分：1)

我不知道是否有任何工具本身但如果你找不到那些工具，你可能会做以下事情：

对于您感兴趣的每个开/关层组合，遍历所有页面并收集内容流。对这些进行标记并删除您不希望看到的内容（您需要监视的命令以确定这是BDC和EMC）。使用剪切的内容再次保存流（自然将结果保存在不同的文件中）。你需要一些东西来阅读PDF对象结构并更新一些对象（有很多库），而且你需要能够解析内容流。

现在你将拥有一组没有图层的PDF文件（可选内容），有很多工具可以呈现给HTML等。

注意：可选内容＆lt; - ＆gt; PDF查看器中的图层开关通常为1：1，但标准支持完整的n：m映射。我将专注于真正的可选内容块，可以打开/关闭以保持简单。

答案 1 :(得分：0)

您可以使用此工具从甚至锁定的pdf中提取图像和文本

我有时会自己使用它，它可以转换为HTML