使用PdfTextStripper

时间:2018-03-08 11:38:47

标签: java pdf pdfbox

我正在尝试从此file中提取文字。 我正在使用由@mkl here提供的解决方案,对processTextPosition方法进行一些更改 - 作为一个标准,传递字符中心的X(不是开始),所以这样可以避免情况,因为字符被切断因为几个它的分数被修剪:

@Override
protected void processTextPosition(TextPosition text) {
    Matrix textMatrix = text.getTextMatrix();
    Vector start = textMatrix.transform(new Vector(0, 0));
    Vector middle = new Vector(start.getX() + text.getWidth()/2, start.getY());
    PDGraphicsState gs = getGraphicsState();
    Area area = gs.getCurrentClippingPath();
    if (area == null || area.contains(lowerLeftX + middle.getX(), lowerLeftY + middle.getY()))
        super.processTextPosition(text);
} 

但是,在附件中,由于这种情况(从第一个“Rent Roll”令牌开始),仍然会切断很多字符。 是否有任何额外的转变,我应该考虑到? 提前谢谢。

0 个答案:

没有答案