如何使用java将多个pdf文件中的信息提取到文本中

时间:2018-06-04 20:45:25

标签: java

我在pdf中有多个银行对帐单,我想将超过30美元的交易提取到文本文件中。这样做的最佳方式是什么?

1 个答案:

答案 0 :(得分:1)

我建议您查看Apache's PdfBox project。 我使用这个库处理我自己的银行对账单。它很容易使用:

这是,如何从PDF文档中提取文本:

    public String getData(String fileName) throws IOException {
        PDFTextStripper pdfStripper;
        PDDocument pdDoc;
        COSDocument cosDoc;
        ClassPathResource accountStatement = new ClassPathResource(fileName);

        PDFParser parser = new PDFParser(accountStatement.getInputStream());
        parser.parse();
        cosDoc = parser.getDocument();
        pdfStripper = new PDFTextStripper();
        pdDoc = new PDDocument(cosDoc);
        pdfStripper.setStartPage(1);
        pdfStripper.setEndPage(2);
        String text = pdfStripper.getText(pdDoc);
        pdDoc.close();
        return text;
}

ClassPathResource类来自Spring Framework,但您可以用类似的东西替换它。