如何在java中的pdfbox API中获取pdf中包含特定单词的页码?
我能用以下内容阅读:
PDFTextStripper s = new PDFTextStripper();
String contents = s.getText(pdoc);
if(contents.contains("SUBSCRIPTION DETAILS")){
...
}
但无法找到包含此词的页码
提前致谢。
答案 0 :(得分:1)
PDFTextStripper
可让您阅读确切的页面。因此,您需要遍历所有页面并检查页面是否包含某些字符串:
PDDocument pdoc = ...;
for(int pageNumber = 1; pageNumber < pdoc.getPageCount(); i++){
PDFTextStripper s = new PDFTextStripper();
s.setStartPage(pageNumber);
s.setEndPage(pageNumber);
String pageText = reader.getText(pdoc);
String contents = s.getText(pdoc);
if(contents.contains("SUBSCRIPTION DETAILS")){
...
}
}