使用tika自定义xpath表达式

时间:2011-08-23 20:15:37

标签: apache-tika

我正在尝试为识别复杂xpath表达式的tika构建自定义xpath contentHandler, 使用org / apache / tika / sax / BodyContentHandler.java中的代码(因为我使用tika作为其他东西)

此xpath有效

/xhtml:html/xhtml:body/descendant:node()

但这不是

//xhtml:div[@id='someid']/descendant:node()

我想整合tika的contentHandler(因为它修复了html内容不平衡标签和无效字符)和来自javax.xml.xpath的xpath评估器。这样做的正确方法是什么。有没有办法在tika评估和修复HTML内容后获得输入源?

1 个答案:

答案 0 :(得分:2)

Tika中包含的XPath功能仅支持XPath功能的子集(有关详细信息,请参阅XPathParser)。对于更复杂的XPath查询,我建议使用类似javax.xml.xpath的内容。