Question

我正在尝试为识别复杂xpath表达式的tika构建自定义xpath contentHandler，使用org / apache / tika / sax / BodyContentHandler.java中的代码（因为我使用tika作为其他东西）

此xpath有效

/xhtml:html/xhtml:body/descendant:node()

但这不是

//xhtml:div[@id='someid']/descendant:node()

我想整合tika的contentHandler（因为它修复了html内容不平衡标签和无效字符）和来自javax.xml.xpath的xpath评估器。这样做的正确方法是什么。有没有办法在tika评估和修复HTML内容后获得输入源？

Answer 1

Tika中包含的XPath功能仅支持XPath功能的子集（有关详细信息，请参阅XPathParser）。对于更复杂的XPath查询，我建议使用类似javax.xml.xpath的内容。