如何从PDF文件中的表格中提取数据?

时间:2019-08-08 10:04:23

标签: javascript python pdf text

我有一个包含表格的PDF文件,格式如下:

pdf img

现在;我需要从每一行的特定列中提取数据以插入数据库中。 如何仅使用javascript或python提取所需的列?

我已经尝试过手动方式,但这还不够。

我希望将原始数据放入变量(数组或列表)中。

========================================== 更新:

我决定使用python,该库的名称为tabula;我使用pip安装了它:

pip install tabula-py

您将pdf传递给库并指定表的页面。我的问题中表格的输出看起来像是这样:

enter image description here

2 个答案:

答案 0 :(得分:2)

您可以尝试AWS Textract。它具有提取表的功能,可将数据作为csv / json格式提供。

您可以详细了解here

答案 1 :(得分:1)

我用pdfjs-dist提取了pdf中的项目,并应用了一些规则来标识表格元素。提取的项目不仅具有文本信息,而且还具有一个名为“ transform”(变换矩阵)的属性,该属性包含坐标信息,该信息也可以用于标识表格元素。

第一件事是查找表的开头。在许多情况下,标题都是相同的,因此您可以利用这些单词来查找开头。行中的第一个表格元素可以共享相同的坐标,这也可以提供表格开始的线索。在确定表的开头之后,由于所有表都是固定宽度的,因此可以将项目划分为某些列。请注意,单个单元格中可能有多个行,因此您需要将它们合并。