我将pdfbox从1.8升级到2.0,但是我们发现从同一个paf文件中提取的文本有一些差异,但是我们的重量依赖于1.8版提取的格式化文本,我是否知道如何使PDFTextStripper V2.0兼容PDFTextStripper V1.8?
在V1.8中提取的文本
(Internal List)
Europe GmbH
Shipment Number: 6000047226 6000047226
Carrier: 7000001095 Loading start date: 24.07.2017 00:00:00
在V2.0中提取的文本
(Internal List) Europe GmbH
Shipment Number: 6000047226 6000047226Carrier: 7000001095 Loading start date: 24.07.2017 00:00:00
答案 0 :(得分:0)
感谢Timan Hausherr和mkl的答案。
我已根据PdfBox V2.0提取的新格式化内容更改了我的代码。