使用apache PDFBox 1.3.1进行PDF提取问题

时间:2011-03-11 18:25:47

标签: java pdfbox

我在使用apache PDFBox从PDF中提取数据时遇到了一些问题。 使用PDFBox 1.1版,我能够正确提取数据。但是相同的代码在版本1.3.1中提供了不同的输出。仅限少数PDF, 我正面临这个问题。

代码示例

PDDocument document = PDDocument.load(new File("sample.pdf"));
PDFTextStripper stripper = new PDFTextStripper();
stripper.setSortByPosition( true );
System.out.println(stripper.getText(document));

以下是示例输出:

  

1.1版:帐号   xxxxx xxxxxx-xx-x .....

     

版本1.3.1:SCHDoe   SISInrPnnvuttccraareillreuucfczeX   dde,Pt reeF Hr rusdeDiIBc N dsDVeOe   I:PiiTgdtlaYieutais Bll sXPuwF   df ew l er .rdceo dS   mwecritvhaiscte.cso 0 m 2/1 2 -   0431 / 01-1649-9105040.99 MURTgs Ac Bw   TAoiucllttciaonol g PuA Danmyta   otNeuunmt Dbueer 00 $ 0T   P9122a5 / 0 / g3117e198。 / 4/211 17 11o6f0   3498-01-6 THITTTPTNoFHHoDC ttEE HDaaDE   lliiAAP ggVXAM-hiTRtTFda A Tueo .....

任何人都知道可能出现什么问题?

1 个答案:

答案 0 :(得分:0)

我建议您从here尝试PDFBox 1.5.0 - 此版本中的许多文本提取问题都是fixed