标签: parsing pdf
我有一个非常复杂的PDF文件(产品手册),其中包含书签,数据表,图像等。由于我将需要处理大量文件,因此我正在寻找解析文件的选项,以提取尽可能多的详细信息。可能。
最初的想法是将PDF转换为类似XML的结构,该结构将保留在数据库中,并且可以使用XPath轻松遍历。当我研究各种语言的可能解决方案时,找不到能够执行此任务的解决方案。
所以我需要做的确切是: