PDFBox提取表格pdf的标签

时间:2016-03-14 12:28:21

标签: java pdfbox pdf-form

我有PDF格式,如图所示。FORM_PDF

在Java中使用PDFBox我已经检索了表单字段的文本。 我的代码:

    File file = new File("example.pdf");
    PDDocument doc = PDDocument.load(file);
    PDDocumentCatalog catalog = doc.getDocumentCatalog();
    PDAcroForm form = catalog.getAcroForm();
    PDFieldTree fields = form.getFieldTree();

    for (PDField field : fields) {
        Object value = field.getValueAsString();
        String name = field.getPartialName();
        System.out.print(name);
        System.out.print(" = ");
        System.out.print(value);
        System.out.println();
    }

输出:

  • 名字文字框= Jignesh
  • 姓氏文字框= Jignesh
  • House nr Text Box = xyz
  • 地址2文本框= pqr

我想在下面检索

  1. 名字:
  2. 姓氏:
  3. 地址1:
  4. as

    • 给定名称文字=给定名称:
    • 姓氏文字=姓氏:
    • House nr Text =地址1:
    • 地址2文字=地址2:

    由于上面是表单字段,所以很容易检索所有字段。我想要提取表单的标签,因为我想要映射它们。

    请帮助。 非常感谢。

0 个答案:

没有答案