如何在java中阅读pdf文件

时间:2012-05-31 09:11:43

标签: java pdf

我正在开发一个需要读取pdf文件的java项目。

我知道可以使用一些外部库,如 itext

但是可以在不使用任何外部库的情况下使用java inbuild功能读取pdf文件吗?

2 个答案:

答案 0 :(得分:2)

是的,这是可能的。从java经过Apache PDFBOX读取pdf文件。此PDFBOX允许创建新的PDF文档,处理现有文档以及从文档中提取内容的功能。 Apache PDFBox还包括几个命令行实用程序。

答案 1 :(得分:0)

您可以使用Apache PDFBox恢复PDF文件的文本。在maven项目pom.xml中,我们必须添加依赖

<dependency>
    <groupId>org.apache.pdfbox</groupId>
    <artifactId>pdfbox</artifactId>
    <version>2.0.8</version>
</dependency>

代码:

try {
    DLFileEntry fileEntry = DLFileEntryLocalServiceUtil.getFileEntry(folder.getGroupId(), folder.getFolderId(), fileName);
    File file = DLFileEntryLocalServiceUtil.getFile(themeDisplay.getUserId(), fileEntry.getFileEntryId(), fileEntry.getVersion(), true);
    PDDocument pddDocument=PDDocument.load(file);
    PDFTextStripper textStripper = new PDFTextStripper();
    String text = textStripper.getText(pddDocument);
} catch (Exception e) {
    // TODO Auto-generated catch block
    e.printStackTrace();
}

要阅读/创建PDF,请参阅文档:

https://pdfbox.apache.org/