我是这个网站的新手。我决定把问题放在这里,因为我阻止了解决方案的设计。
我正在尝试在PDF文档中找到一个字符串,然后检索它包含的内容。
以下是pdf文档的摘录:
1. Patchs et mises à jour logicielles
1.1 Installer les mises à jour, les correctifs et les logiciels de sécurité supplémentaires (non évalués)
Applicabilité du profil:
Level 1
Description:
Les correctifs périodiques sont publiés pour les logiciels inclus, soit en raison de défauts de sécurité, soit pour inclure des fonctionnalités supplémentaires ....
根据互联网上的搜索,我找到了“pdfbox”库,它有助于提取数据和浏览PDF文档。
所以我应用了这个库,我从FDF文件中提取了数据。这是我的代码:
public Boolean ExtractPDF() {
try {
String filename = "CIS_Ubuntu_12.04_LTS.pdf";
String directory = "src/main/resources/static/pdf";
String filepath = Paths.get(directory, filename).toString();
System.out.println("*********** path file pdf "+filepath);
PDDocument document = null;
document = PDDocument.load(new File(filepath));
document.getClass();
if (!document.isEncrypted()) {
PDFTextStripperByArea stripper = new PDFTextStripperByArea();
stripper.setSortByPosition(true);
PDFTextStripper Tstripper = new PDFTextStripper();
String st = Tstripper.getText(document);
System.out.println("********Text:***** " +st); // I have the text of the PDF document
}
} catch (Exception e) {
e.printStackTrace();
}
return true;
}
感谢您帮助我找到合适的解决方案,