我正在开发一个需要读取pdf文件的java项目。
我知道可以使用一些外部库,如 itext 。
但是可以在不使用任何外部库的情况下使用java inbuild功能读取pdf文件吗?
答案 0 :(得分:2)
是的,这是可能的。从java经过Apache PDFBOX读取pdf文件。此PDFBOX允许创建新的PDF文档,处理现有文档以及从文档中提取内容的功能。 Apache PDFBox还包括几个命令行实用程序。
答案 1 :(得分:0)
您可以使用Apache PDFBox恢复PDF文件的文本。在maven项目pom.xml中,我们必须添加依赖
<dependency>
<groupId>org.apache.pdfbox</groupId>
<artifactId>pdfbox</artifactId>
<version>2.0.8</version>
</dependency>
代码:
try {
DLFileEntry fileEntry = DLFileEntryLocalServiceUtil.getFileEntry(folder.getGroupId(), folder.getFolderId(), fileName);
File file = DLFileEntryLocalServiceUtil.getFile(themeDisplay.getUserId(), fileEntry.getFileEntryId(), fileEntry.getVersion(), true);
PDDocument pddDocument=PDDocument.load(file);
PDFTextStripper textStripper = new PDFTextStripper();
String text = textStripper.getText(pddDocument);
} catch (Exception e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
要阅读/创建PDF,请参阅文档: