如何使用自定义<tab>提取PDF文本?

时间:2018-12-28 02:41:01

标签: java pdf pdfbox

我正在尝试使用自定义格式从PDF中提取文本。我正在使用html { height: 100%; } body { min-height: 100%; margin: 0px; border: solid darkgreen; } API。我需要用一个标识符填充空字段的列(例如,管道“ |”)

我尝试订阅PDFBox类的某些方法,但无济于事。我无法确定在什么时候删除了空白,该空白标识了列中的空字段。

我使用了以下示例:https://github.com/JonathanLink/PDFLayoutTextStripper。但是相同的只是格式化空格,我需要的是代表单元格vzia的字段用字符“ |”标识。

PDFTextStripper

查看原文:

enter image description here

简单提取的结果(上面的代码):

enter image description here

应该如何:

enter image description here

1 个答案:

答案 0 :(得分:0)

如所述文档中所述,PDFTextStripper不会保留布局。

  

此类将获取pdf文档,并去除所有文本,并忽略格式等。 [...]

     

来源:PDFBox reactor 2.0.7 API | Class PDFTextStripper

相反,您可以使用已经提到的github存储库中的PDFLayoutTextStripper类,该类是专门为此目的而编写的。只需从仓库中下载文件PDFLayoutTextStripper.java并导入即可。然后更改

PDFTextStripper pdfStripper = new PDFTextStripper();

进入

PDFLayoutTextStripper pdfStripper = new PDFLayoutTextStripper();

使用它。