我正在使用pdfbox将页面呈现给BufferedImage。该文件是扫描纸张(A4)。不幸的是,许多这些文件已被扫描,只有OCR我才能在扫描时执行。所以我用tess4j对这些文件进行排序。
try (PDDocument inputPDF = PDDocument.load(pdf)) {
firstPage = new PDFRenderer(inputPDF).renderImageWithDPI(0, 200);
但是,这种渲染方式非常慢。我实际上只需要该pdf第一页的一小部分,因此渲染整个页面毫无意义。 我的问题是: 如何从pdf文档中提取区域为BufferedImage。例如,右上角的提取区域大小为100x100。
谢谢:)