从PDF文档中获取特定数据在java中使用pdfbox

时间:2017-04-10 15:06:52

标签: java

我是这个网站的新手。我决定把问题放在这里,因为我阻止了解决方案的设计。

我正在尝试在PDF文档中找到一个字符串,然后检索它包含的内容。

以下是pdf文档的摘录:

1. Patchs et mises à jour logicielles

1.1 Installer les mises à jour, les correctifs et les logiciels de sécurité supplémentaires (non évalués)

Applicabilité du profil:

Level 1

Description:

Les correctifs périodiques sont publiés pour les logiciels inclus, soit en raison de défauts de sécurité, soit pour inclure des fonctionnalités supplémentaires ....

根据互联网上的搜索,我找到了“pdfbox”库,它有助于提取数据和浏览PDF文档。

所以我应用了这个库,我从FDF文件中提取了数据。这是我的代码:

public Boolean ExtractPDF() {

        try {
        String filename = "CIS_Ubuntu_12.04_LTS.pdf";
        String directory = "src/main/resources/static/pdf";
        String filepath = Paths.get(directory, filename).toString();

         System.out.println("*********** path file pdf "+filepath);

        PDDocument document = null;
        document = PDDocument.load(new File(filepath));
        document.getClass();
        if (!document.isEncrypted()) {

            PDFTextStripperByArea stripper = new PDFTextStripperByArea();
            stripper.setSortByPosition(true);
            PDFTextStripper Tstripper = new PDFTextStripper();
            String st = Tstripper.getText(document);
            System.out.println("********Text:***** " +st); // I have the text of the PDF document
                 }

                } catch (Exception e) {
                  e.printStackTrace();
               }


       return true; 
  }

感谢您帮助我找到合适的解决方案,

0 个答案:

没有答案