Apache Tika仅从PDF XFA表单中提取字段名称,但不提取文本内容

时间:2017-02-14 03:23:54

标签: pdf pdfbox apache-tika xfa

我尝试使用 Apache Tika v1.14 来解析PDF XFA表单中包含的文本。但是,在PDFParserConfig中尝试不同的配置后,我只能获取字段名称,但不能获取这些字段的文本内容。

例如,如果有一个名为“Telephone”的字段,则Tika的部分输出可能是<li fieldName="Telephone">Telephone: </li>(其他字段的重复次数也相同)。但是,如果我使用 pdfbox API遍历DOM树以访问名为“Telephone”的节点,那么我可以使用getNodeValue()来获取我想要的文本内容。

我知道setExtractAcroFormContent()中的设置setIfXFAExtractOnlyXFA()PDFParserConfig,并对其进行了实验,但我仍然没有获得文字内容。

所以我的问题是

  • 我是否错误配置了Tika,以至于它没有提供正确的输出?或者,
  • 这是Apache Tika的实现意图吗?或者,
  • 实施是否仍处于开发阶段?

我很抱歉这些表格包含患者的医疗信息,因此我无法将其作为例子附上。

非常感谢。

P.S。我也知道Tika的Jira问题https://issues.apache.org/jira/browse/TIKA-973https://issues.apache.org/jira/browse/TIKA-1857所以我认为这个功能已经实现。

0 个答案:

没有答案