我们应该使用哪种API从PDF中提取文本和图像,但是提取的图像和文本应该按顺序排列?

时间:2015-05-19 09:58:47

标签: java

我尝试过按顺序提供数据的PDFBox API和按顺序提供图像的iText API。现在,我的问题是有一种方法可以通过使用相同的API按顺序获取(图像和文本)吗?

1 个答案:

答案 0 :(得分:1)

iText API也可用于提取文本。

以下代码可用于从PDF获取文本。

FileWriter fw = new FileWriter("Test.txt");
    BufferedWriter bw = new BufferedWriter(fw);
    PdfReader pr = new PdfReader("Test.pdf");
    int pNum = pr.getNumberOfPages();
    for (int page = 1; page <= pNum; page++) {
        String text = PdfTextExtractor.getTextFromPage(pr, page);
        bw.write(text);
        bw.newLine();
    }
bw.flush();
bw.close();

希望这会按顺序检索文本。