如何从PDF表格中提取数据点值?

时间:2020-11-11 10:43:32

标签: pdfbox

我正在使用Java库pdfbox从PDF中提取文本/字形及其其他特征,例如页码,字体,字体大小,左,上,高度,宽度,absY值。现在,我需要创建一个将其作为输入的函数-PDF中存在的表的行文本和列文本以及输出值。例如我正在从PDF表中寻找2019年的收入增长(行文本)(列文本)。因此,输入将是“收入增加”作为行文本,“ 2019年”作为列文本,输出将是“ 8.5%”。在这里,PDF中的表格可以是有边界的或无边界的,可以分布在多个页面上,甚至可以以旋转或报纸格式显示。这使事情变得困难。因此,在这里寻求有关如何使用PDFBOX库提供的文本特征从表中提取“ 2019年”数据点“收入增长”值的帮助。

0 个答案:

没有答案