我正在尝试使用自定义格式从PDF中提取文本。我正在使用html {
height: 100%;
}
body {
min-height: 100%;
margin: 0px;
border: solid darkgreen;
}
API。我需要用一个标识符填充空字段的列(例如,管道“ |”)
我尝试订阅PDFBox
类的某些方法,但无济于事。我无法确定在什么时候删除了空白,该空白标识了列中的空字段。
我使用了以下示例:https://github.com/JonathanLink/PDFLayoutTextStripper。但是相同的只是格式化空格,我需要的是代表单元格vzia的字段用字符“ |”标识。
PDFTextStripper
查看原文:
简单提取的结果(上面的代码):
应该如何:
答案 0 :(得分:0)
如所述文档中所述,PDFTextStripper
不会保留布局。
此类将获取pdf文档,并去除所有文本,并忽略格式等。 [...]
相反,您可以使用已经提到的github存储库中的PDFLayoutTextStripper
类,该类是专门为此目的而编写的。只需从仓库中下载文件PDFLayoutTextStripper.java
并导入即可。然后更改
PDFTextStripper pdfStripper = new PDFTextStripper();
进入
PDFLayoutTextStripper pdfStripper = new PDFLayoutTextStripper();
使用它。