Question

首先，抱歉我的英语不好。

我正在尝试删除PDF页面的页眉和页脚，有必要在分页符处搜索某些单词，但页眉和页脚不可能，因此需要裁剪它然后转换为文本而不是“可能”来搜索单词。

我正在这样做：

PDDocument pdDoc = PDDocument.load("document.pdf");

PDPage page = (PDPage) pdDoc.getDocumentCatalog().getAllPages().get(0);

PDRectangle rectangle = new PDRectangle();
rectangle.setUpperRightY(page.findCropBox().getUpperRightY() - 100);
rectangle.setLowerLeftY(page.findCropBox().getLowerLeftY());
rectangle.setUpperRightX(page.findCropBox().getUpperRightY());
rectangle.setLowerLeftX(page.findCropBox().getLowerLeftX());

page.setMediaBox(rectangle);

PDDocument document = new PDDocument();
document.addPage(page);
document.save("newDocument.pdf");
document.close();

但是当我将其更改为HTML时，它会窃取隐藏的文本。有没有办法用破坏区域保存它并正确转换为HTML？

感谢。最好的关注。

PDFBox更改页面大小并再次保存

0 个答案: