我尝试使用 Apache Tika v1.14 来解析PDF XFA表单中包含的文本。但是,在PDFParserConfig
中尝试不同的配置后,我只能获取字段名称,但不能获取这些字段的文本内容。
例如,如果有一个名为“Telephone”的字段,则Tika的部分输出可能是<li fieldName="Telephone">Telephone: </li>
(其他字段的重复次数也相同)。但是,如果我使用 pdfbox API遍历DOM树以访问名为“Telephone”的节点,那么我可以使用getNodeValue()
来获取我想要的文本内容。
我知道setExtractAcroFormContent()
中的设置setIfXFAExtractOnlyXFA()
和PDFParserConfig
,并对其进行了实验,但我仍然没有获得文字内容。
所以我的问题是
我很抱歉这些表格包含患者的医疗信息,因此我无法将其作为例子附上。
非常感谢。
P.S。我也知道Tika的Jira问题https://issues.apache.org/jira/browse/TIKA-973和https://issues.apache.org/jira/browse/TIKA-1857所以我认为这个功能已经实现。