我目前正在阅读PDF文件中的页面。我总是希望从页面中提取特定文本。如果我知道PDF的内部结构,我可以轻松地做到这一点吗?如果有,怎么样?以下是我的内容:
public void read(PdfReader reader) throws IOException{
StringBuilder sb = new StringBuilder();
sb.append(PdfTextExtractor.getTextFromPage(reader, 1));
System.out.println(sb.toString());
System.out.println("Text Line: " + sb.toString().substring(43,47));
}
该行
System.out.println("Text Line: " + sb.toString().substring(43,47));
是我所关注的。除了使用子字符串之外,还有更好的方法吗?
PDF文字摘录:
SUPPLEMENT # :
1
RC :
2
D :
0
R :
2
W: TOTAL :
0 0