如何使用Java从PDF中的特定矩形区域提取数据?

时间:2017-12-26 00:21:20

标签: java pdf

我正在尝试从PDF中给出的两个坐标指定的特定矩形区域中提取数据。是可以在PDF中执行此操作还是必须将其转换为图像并使用OCR?如果是这样,PDFBox或iText是否包含通过OCR分析图像的方法?谢谢!

Bank Statement

1 个答案:

答案 0 :(得分:1)

如果该区域是文字。使用pdfbox

PDDocument document = PDDocument.load(new File("target.pdf"));
PDFTextStripperByArea stripper = new PDFTextStripperByArea();
stripper.setSortByPosition(true);
Rectangle rect = new Rectangle(35, 375, 340, 204);
stripper.addRegion("class1", rect);
stripper.extractRegions(document.getPage(1));
System.out.println(stripper.getTextForRegion("class1")