使用itext提取子字符串和超级字符串

时间:2019-06-21 11:07:32

标签: java pdf itext extract

我有包含子字符串和超级字符串之类内容的pdf文件

示例: enter image description here

当我使用itext库逐行阅读时,它将返回

1. Introduction of v section 
ref tm
This is simple word document. Us
working or not.
t tm
1.1 Document Summary 
Here is document summary. 

在上述情况下,您会看到子字符串是否会读取为特定标头的下一行,超字符串是否会读取为特定标头的第一行

如何使用itext jar阅读完整的行内容。

示例代码

public void usingItext() {
    PdfReader pdfReader;
    try {
        pdfReader = new PdfReader("samplewordDoc_pdf_doc_new.pdf");
        int pages = pdfReader.getNumberOfPages();
        for (int i = 1; i < pages; i++) {
            String lines[] = PdfTextExtractor.getTextFromPage(pdfReader, i).split("\\r?\\n");;
             for (int j = 0; j < lines.length; j++) {
                System.out.println(lines[j].toString());
            }
        }
        pdfReader.close();
    } catch (IOException e) {
        e.printStackTrace();
    }
}

0 个答案:

没有答案