我正在尝试从此file中提取文字。 我正在使用由@mkl here提供的解决方案,对processTextPosition方法进行一些更改 - 作为一个标准,传递字符中心的X(不是开始),所以这样可以避免情况,因为字符被切断因为几个它的分数被修剪:
@Override
protected void processTextPosition(TextPosition text) {
Matrix textMatrix = text.getTextMatrix();
Vector start = textMatrix.transform(new Vector(0, 0));
Vector middle = new Vector(start.getX() + text.getWidth()/2, start.getY());
PDGraphicsState gs = getGraphicsState();
Area area = gs.getCurrentClippingPath();
if (area == null || area.contains(lowerLeftX + middle.getX(), lowerLeftY + middle.getY()))
super.processTextPosition(text);
}
但是,在附件中,由于这种情况(从第一个“Rent Roll”令牌开始),仍然会切断很多字符。 是否有任何额外的转变,我应该考虑到? 提前谢谢。