应用错误收集

我有一个非常复杂的PDF文件（产品手册），其中包含书签，数据表，图像等。由于我将需要处理大量文件，因此我正在寻找解析文件的选项，以提取尽可能多的详细信息。可能。

最初的想法是将PDF转换为类似XML的结构，该结构将保留在数据库中，并且可以使用XPath轻松遍历。当我研究各种语言的可能解决方案时，找不到能够执行此任务的解决方案。

所以我需要做的确切是：