需要根据可访问性准则检查PDF标签是否具有属性。 例子:
到目前为止,我能够:
PDDocument.getDocumentInformation().getMetadataKeys();
PDDocument.getDocumentCatalog().getMarkInfo().isMarked();
标志来验证是否可访问PDF 要访问标签,我尝试了以下选项:
getDocumentCatalog().getAcroForm()
返回Null PDDocument.getDocumentCatalog().getPages().get(0).getAnnotations();
返回Null PDDocument.getDocumentCatalog().getStructureTreeRoot().getKids()
,但是它只返回1个StructElem
类型的对象可访问PDF的创建是使用OpenText完成的,因此开发团队不了解PDFBox。 我在这里迷失了如何访问标签/对象(使用MarkedContent或其他方法)。
请建议如何提取单个对象(标签),例如P,H1,表格,图形/图像并验证其属性。 注意:这些属性的手动验证是使用Adobe Acrobat Pro
进行的答案 0 :(得分:1)
基于https://issues.apache.org/jira/browse/PDFBOX-7,看来您可以使用PDFMarkedContentExtractor来获取所需的信息。