我在使用apache PDFBox从PDF中提取数据时遇到了一些问题。 使用PDFBox 1.1版,我能够正确提取数据。但是相同的代码在版本1.3.1中提供了不同的输出。仅限少数PDF, 我正面临这个问题。
PDDocument document = PDDocument.load(new File("sample.pdf"));
PDFTextStripper stripper = new PDFTextStripper();
stripper.setSortByPosition( true );
System.out.println(stripper.getText(document));
以下是示例输出:
1.1版:帐号 xxxxx xxxxxx-xx-x .....
版本1.3.1:SCHDoe SISInrPnnvuttccraareillreuucfczeX dde,Pt reeF Hr rusdeDiIBc N dsDVeOe I:PiiTgdtlaYieutais Bll sXPuwF df ew l er .rdceo dS mwecritvhaiscte.cso 0 m 2/1 2 - 0431 / 01-1649-9105040.99 MURTgs Ac Bw TAoiucllttciaonol g PuA Danmyta otNeuunmt Dbueer 00 $ 0T P9122a5 / 0 / g3117e198。 / 4/211 17 11o6f0 3498-01-6 THITTTPTNoFHHoDC ttEE HDaaDE lliiAAP ggVXAM-hiTRtTFda A Tueo .....
任何人都知道可能出现什么问题?