首先,抱歉我的英语不好。
我正在尝试删除PDF页面的页眉和页脚,有必要在分页符处搜索某些单词,但页眉和页脚不可能,因此需要裁剪它然后转换为文本而不是“可能”来搜索单词。
我正在这样做:PDDocument pdDoc = PDDocument.load("document.pdf");
PDPage page = (PDPage) pdDoc.getDocumentCatalog().getAllPages().get(0);
PDRectangle rectangle = new PDRectangle();
rectangle.setUpperRightY(page.findCropBox().getUpperRightY() - 100);
rectangle.setLowerLeftY(page.findCropBox().getLowerLeftY());
rectangle.setUpperRightX(page.findCropBox().getUpperRightY());
rectangle.setLowerLeftX(page.findCropBox().getLowerLeftX());
page.setMediaBox(rectangle);
PDDocument document = new PDDocument();
document.addPage(page);
document.save("newDocument.pdf");
document.close();
但是当我将其更改为HTML时,它会窃取隐藏的文本。有没有办法用破坏区域保存它并正确转换为HTML?
感谢。 最好的关注。