如何从PDF文件中提取特定元素

时间:2019-01-22 08:49:21

标签: parsing pdf

我有一个非常复杂的PDF文件(产品手册),其中包含书签,数据表,图像等。由于我将需要处理大量文件,因此我正在寻找解析文件的选项,以提取尽可能多的详细信息。可能。

最初的想法是将PDF转换为类似XML的结构,该结构将保留在数据库中,并且可以使用XPath轻松遍历。当我研究各种语言的可能解决方案时,找不到能够执行此任务的解决方案。

所以我需要做的确切是:

  • 通过字符串内容识别标题
  • 从标题中选择所有元素,直到特定的元素类型
  • 捕获文本并将其提取
  • 按类型查找整个文档中的所有元素(SVG元素)
  • 提取它们并将其保存到特定文件

0 个答案:

没有答案