我正在尝试为识别复杂xpath表达式的tika构建自定义xpath contentHandler, 使用org / apache / tika / sax / BodyContentHandler.java中的代码(因为我使用tika作为其他东西)
此xpath有效
/xhtml:html/xhtml:body/descendant:node()
但这不是
//xhtml:div[@id='someid']/descendant:node()
我想整合tika的contentHandler(因为它修复了html内容不平衡标签和无效字符)和来自javax.xml.xpath的xpath评估器。这样做的正确方法是什么。有没有办法在tika评估和修复HTML内容后获得输入源?
答案 0 :(得分:2)
Tika中包含的XPath功能仅支持XPath功能的子集(有关详细信息,请参阅XPathParser)。对于更复杂的XPath查询,我建议使用类似javax.xml.xpath的内容。