我有PDF文件,其文本有四种不同的方向,如水平对齐,垂直对齐和反向对齐。使用PDFBox API从pdf中读取文本时,我获得了水平对齐文本的良好输出,但在其他情况下却没有。
例如,如果"斜体" word是水平对齐的,输出是" italic"。如果它是垂直对齐的,那么输出就会在行之间分割为
"它
一个
里
c"(这里"它"," a"," li"," c"在不同的行中)。
我想知道即使对于垂直和反向对齐的文本,是否有任何方法可以获得良好的输出。
答案 0 :(得分:2)
您可以覆盖PDFTextStripper的processTextPosition()方法并编写逻辑以获取每个字符的方向,x和y值。通过根据方向对角色进行分组,您可以单独裁剪它们。