我正在使用PDFBox使用Java来阅读此PDF file:
PDDocument pdf = null;
try {
pdf = PDDocument.load( new File( path ) );
PDFTextStripper s = new PDFTextStripper();
String text = s.getText( pdf );
System.out.println( text );
pdf.close();
} catch (IOException ioe) {
ioe.printStackTrace();
}
我注意到,它以多余的空格打印PDF文本,例如“ Jeremy Bern stein”而不是“ Jeremy Bernstein”。如果我使用Adobe Reader或任何类似的PDF查看器从PDF文件中手动复制文本,则文本会很好地粘贴,没有空格。
我尝试使用选项PDFTextStripper.setAverageCharTolerance(...)和PDFTextStripper.setSpacingTolerance(...)来解决此问题,但没有一个起作用!
有什么办法可以解决这个问题吗?