PDFBox读取带有多余空格的PDF数据

时间:2019-03-19 15:46:25

标签: java parsing pdf pdfbox spaces

我正在使用PDFBox使用Java来阅读此PDF file

PDDocument pdf = null;
try {
    pdf = PDDocument.load( new File( path ) );
    PDFTextStripper s = new PDFTextStripper();
    String text = s.getText( pdf );
    System.out.println( text );
    pdf.close();
} catch (IOException ioe) {
    ioe.printStackTrace();
}

我注意到,它以多余的空格打印PDF文本,例如“ Jeremy Bern stein”而不是“ Jeremy Bernstein”。如果我使用Adobe Reader或任何类似的PDF查看器从PDF文件中手动复制文本,则文本会很好地粘贴,没有空格。

我尝试使用选项PDFTextStripper.setAverageCharTolerance(...)和PDFTextStripper.setSpacingTolerance(...)来解决此问题,但没有一个起作用!

有什么办法可以解决这个问题吗?

0 个答案:

没有答案