我正在编写一个应用程序,我需要检查PDF文档的树结构,修改此树结构,并将结果写回另一个PDF。
检查和修改不能在专用库中进行(例如,PDFBox),因为它已经以与格式无关的方式为JSON结构树编写。
理想情况下,我需要的是从PDF到任何树格式(XML,JSON,...)以及使用JavaScript或任何其他编程语言或作为命令行工具的无损转换。 /强>
到目前为止我考虑过:
使用pdf2json。这会将PDF转换为JSON文件。不幸的是,不支持另一个方向(JSON-> PDF)。
可以使用PDF的Base64编码二进制内容创建JSON。这是无损的并且可以在两个方向上工作,但是我正在失去我想要检查的树结构。因此,这不是一种选择。
任何人都可以推荐图书馆或程序来实现这一目标吗?