应用错误收集

我尝试使用 Apache Tika v1.14 来解析PDF XFA表单中包含的文本。但是，在PDFParserConfig中尝试不同的配置后，我只能获取字段名称，但不能获取这些字段的文本内容。

例如，如果有一个名为“Telephone”的字段，则Tika的部分输出可能是<li fieldName="Telephone">Telephone: </li>（其他字段的重复次数也相同）。但是，如果我使用 pdfbox API遍历DOM树以访问名为“Telephone”的节点，那么我可以使用getNodeValue()来获取我想要的文本内容。

我知道setExtractAcroFormContent()中的设置setIfXFAExtractOnlyXFA()和PDFParserConfig，并对其进行了实验，但我仍然没有获得文字内容。

所以我的问题是

我是否错误配置了Tika，以至于它没有提供正确的输出？或者，
这是Apache Tika的实现意图吗？或者，
实施是否仍处于开发阶段？

我很抱歉这些表格包含患者的医疗信息，因此我无法将其作为例子附上。

非常感谢。

P.S。我也知道Tika的Jira问题https://issues.apache.org/jira/browse/TIKA-973和https://issues.apache.org/jira/browse/TIKA-1857所以我认为这个功能已经实现。

Apache Tika仅从PDF XFA表单中提取字段名称，但不提取文本内容

0 个答案: