如何在PDF中使用PDFBox从PDF中读取文本以进行倾斜文本对齐

时间:2016-09-17 09:03:19

标签: java pdfbox

Sample Image 我使用下面的逻辑使用PDFBox从PDF中提取文本。它为普通PDF提供了良好的输出。

PDFTextStripper stripper = new PDFTextStripper();
stripper.setSortByPosition(false);
stripper.setParagraphStart("$");
stripper.setParagraphEnd("$$");
String output = stripper.getText(pdf);

但是我有一些PDF文本在某个角度倾斜,如附图所示。对于这种类型的PDF,PDFBox提供如下所示的输出

$ Image proc $$

$ essing is pr $$

$ ocessing of im $$

$ ages usin $$

$ g mathe $$

$ matical $$.....

我希望输出为

$ Image processing is processing of images using 
mathematical...................................................
..........................techniques to the input $$

请建议我如何从这些类型的PDF中获得良好的输出。

0 个答案:

没有答案