从PDF中提取文本数据

时间:2017-08-18 09:47:30

标签: java pdf

我正在使用Java程序从PDF中提取文本数据。

当我使用这种类型的PDF时,我没有问题:

enter image description here

但是当我使用这种类型时,不会执行提取:

enter image description here

你有任何想法解决这个问题吗?

1 个答案:

答案 0 :(得分:1)

尝试使用iText7并使用以下代码:

File inputFile = new File("path_to_your_pdf");
PdfDocument pdfDocument = new PdfDocument(new PdfReader(inputFile));
String text = PdfTextExtractor.getTextFromPage(pdfDocument.getPage(1));
pdfDocument.close();

让我们知道输出是什么。以及输出是否符合您的期望。

正如@mkl所指出的,这可能只是提取表单字段之间的区别。在任何情况下,非常感谢您的pdf链接。以及一些代码。

但你当然可以使用iText提取两者。

阅读材料: