Question

我正在尝试使用自定义格式从PDF中提取文本。我正在使用html { height: 100%; } body { min-height: 100%; margin: 0px; border: solid darkgreen; } API。我需要用一个标识符填充空字段的列（例如，管道“ |”）

我尝试订阅PDFBox类的某些方法，但无济于事。我无法确定在什么时候删除了空白，该空白标识了列中的空字段。

我使用了以下示例：https://github.com/JonathanLink/PDFLayoutTextStripper。但是相同的只是格式化空格，我需要的是代表单元格vzia的字段用字符“ |”标识。

PDFTextStripper

查看原文：

简单提取的结果（上面的代码）：

应该如何：

Answer 1

如所述文档中所述，PDFTextStripper不会保留布局。

此类将获取pdf文档，并去除所有文本，并忽略格式等。 [...]

来源：PDFBox reactor 2.0.7 API | Class PDFTextStripper

相反，您可以使用已经提到的github存储库中的PDFLayoutTextStripper类，该类是专门为此目的而编写的。只需从仓库中下载文件PDFLayoutTextStripper.java并导入即可。然后更改

PDFTextStripper pdfStripper = new PDFTextStripper();

进入

PDFLayoutTextStripper pdfStripper = new PDFLayoutTextStripper();

使用它。