使用PDFBox从特定页面读取文本

时间:2012-11-26 11:01:02

标签: java pdfbox

我知道如何使用PDFTextStripper.getText(PDDocument)使用PDFBox读取整个pdf文件的文本。

我还有一个关于如何使用PDDocumentCatalog.getAllPages().get(i)获取特定页面的对象引用的示例。

如何使用PDFBox获取一个页面的文本,因为我在PDPage类上没有看到任何此类方法?

1 个答案:

答案 0 :(得分:20)

您可以在PDFTextStripper上设置参数以读取特定页面:

PDDocument doc; // document
int i; // page no.

PDFTextStripper reader = new PDFTextStripper();
reader.setStartPage(i);
reader.setEndPage(i);
String pageText = reader.getText(doc);

据我所知,PDPage更多地用于表示屏幕上的页面,而不是提取文本。因此,我不建议使用它来提取文本。