我尝试过按顺序提供数据的PDFBox API和按顺序提供图像的iText API。现在,我的问题是有一种方法可以通过使用相同的API按顺序获取(图像和文本)吗?
答案 0 :(得分:1)
iText API也可用于提取文本。
以下代码可用于从PDF获取文本。
FileWriter fw = new FileWriter("Test.txt");
BufferedWriter bw = new BufferedWriter(fw);
PdfReader pr = new PdfReader("Test.pdf");
int pNum = pr.getNumberOfPages();
for (int page = 1; page <= pNum; page++) {
String text = PdfTextExtractor.getTextFromPage(pr, page);
bw.write(text);
bw.newLine();
}
bw.flush();
bw.close();
希望这会按顺序检索文本。