Question

我在使用apache PDFBox从PDF中提取数据时遇到了一些问题。使用PDFBox 1.1版，我能够正确提取数据。但是相同的代码在版本1.3.1中提供了不同的输出。仅限少数PDF，我正面临这个问题。

代码示例

PDDocument document = PDDocument.load(new File("sample.pdf"));
PDFTextStripper stripper = new PDFTextStripper();
stripper.setSortByPosition( true );
System.out.println(stripper.getText(document));

以下是示例输出：

1.1版：帐号   xxxxx xxxxxx-xx-x .....

版本1.3.1：SCHDoe   SISInrPnnvuttccraareillreuucfczeX   dde，Pt reeF Hr rusdeDiIBc N dsDVeOe   I：PiiTgdtlaYieutais Bll sXPuwF   df ew l er .rdceo dS   mwecritvhaiscte.cso 0 m 2/1 2 -   0431 / 01-1649-9105040.99 MURTgs Ac Bw   TAoiucllttciaonol g PuA Danmyta   otNeuunmt Dbueer 00 $ 0T   P9122a5 / 0 / g3117e198。 / 4/211 17 11o6f0   3498-01-6 THITTTPTNoFHHoDC ttEE HDaaDE   lliiAAP ggVXAM-hiTRtTFda A Tueo .....

任何人都知道可能出现什么问题？

Answer 1

我建议您从here尝试PDFBox 1.5.0 - 此版本中的许多文本提取问题都是fixed。

使用apache PDFBox 1.3.1进行PDF提取问题

代码示例

1 个答案: