从PDF中提取文本到JSON或XML或其他格式?

时间:2019-01-01 13:52:51

标签: json xml pdf

我正在尝试从PDF中提取数据[价格,信息和数量](我喜欢超过1万个PDF,因此该网站的免费试用无法正常工作)。 这是我得到的PDF的一个示例:

enter image description here

我在Python(这种任务以及Python的初学者)中尝试了PyPDF2,pdfx等几个软件包,但我只得到了这样的文本

使用PyPDF2:

enter image description here

因此可以提取价格,数量和信息,但是我使用的pdf格式不同,因此不可能仅使用文本和某些算法来提取信息。

我想做的事情是有可能的,因为很多网站都在这样做,而且人们为此付费。我想垂直阅读它,并转换以XML / JSON提取的数据或只是数据集。

我想按列而不是按行阅读文档

enter image description here

是否可以使用python或其他语言来做到这一点?

1 个答案:

答案 0 :(得分:0)

首先让我告诉您,这并不是一个容易解决的问题,因为野外的PDF文件在布局上往往有很大差异。我可以建议尝试一个开源项目,该项目对于从PDF文件中的表中提取信息非常有用。它称为Tabula,您可以在https://tabula.technology上获得它。

Tabula将检测每个页面上的表格,并将内容导出为CSV格式。使用CSV格式存储后,使用Python获取信息应该会更容易。请注意,CSV布局取决于PDF中的表格布局,这意味着您可能需要创建一些函数才能正确提取信息。

Tabula并不完美,但它应适用于大多数PDF文件,对于那些无效的文件,您可能需要手动提取信息。