我在pdf中有多个银行对帐单,我想将超过30美元的交易提取到文本文件中。这样做的最佳方式是什么?
答案 0 :(得分:1)
我建议您查看Apache's PdfBox project。 我使用这个库处理我自己的银行对账单。它很容易使用:
这是,如何从PDF文档中提取文本:
public String getData(String fileName) throws IOException {
PDFTextStripper pdfStripper;
PDDocument pdDoc;
COSDocument cosDoc;
ClassPathResource accountStatement = new ClassPathResource(fileName);
PDFParser parser = new PDFParser(accountStatement.getInputStream());
parser.parse();
cosDoc = parser.getDocument();
pdfStripper = new PDFTextStripper();
pdDoc = new PDDocument(cosDoc);
pdfStripper.setStartPage(1);
pdfStripper.setEndPage(2);
String text = pdfStripper.getText(pdDoc);
pdDoc.close();
return text;
}
ClassPathResource类来自Spring Framework,但您可以用类似的东西替换它。