如何使用PDFBox API

时间:2016-05-30 05:30:28

标签: java pdfbox

我有PDF文件,其文本有四种不同的方向,如水平对齐,垂直对齐和反向对齐。使用PDFBox API从pdf中读取文本时,我获得了水平对齐文本的良好输出,但在其他情况下却没有。 例如,如果"斜体" word是水平对齐的,输出是" italic"。如果它是垂直对齐的,那么输出就会在行之间分割为 "它  一个
 里  c"(这里"它"," a"," li"," c"在不同的行中)。 我想知道即使对于垂直和反向对齐的文本,是否有任何方法可以获得良好的输出。

1 个答案:

答案 0 :(得分:2)

您可以覆盖PDFTextStripper的processTextPosition()方法并编写逻辑以获取每个字符的方向,x和y值。通过根据方向对角色进行分组,您可以单独裁剪它们。