我有一个包含图层的PDF文件。
例如,在某些页面上,当点击(图层)时,会有图表,其他数据显示在该图表的顶部。
现在我需要尝试从PDF文件中获取所有这些图层,或者确切地说,我需要来自该PDF文件的所有数据,包括图层。 pdf文件包含javascript以在适当时显示/隐藏图层。
最好的方法是什么?有没有任何工具可以实现我的意图?或者我应该自己写点什么? (如果可能的话)。
编辑:
您可以在这里下载PDF文件: http://www.2shared.com/document/IutUfDfr/OR_erasmus.html
查看密码为:erasmus
答案 0 :(得分:1)
我不知道是否有任何工具本身但如果你找不到那些工具,你可能会做以下事情:
现在你将拥有一组没有图层的PDF文件(可选内容),有很多工具可以呈现给HTML等。
注意:可选内容< - > PDF查看器中的图层开关通常为1:1,但标准支持完整的n:m映射。我将专注于真正的可选内容块,可以打开/关闭以保持简单。
答案 1 :(得分:0)
您可以使用此工具从甚至锁定的pdf中提取图像和文本
http://download.cnet.com/Able2Extract/3000-2079_4-10249654.html
我有时会自己使用它,它可以转换为HTML