使用XPath包含Java中的HTML

时间:2012-01-26 17:07:13

标签: java xpath html-parsing

我正在使用java程序中的XPath从HTML页面中抓取值来获取特定标记,偶尔使用正则表达式来清理我收到的数据。

经过一些研究,我使用HTML Cleaner(http://htmlcleaner.sourceforge.net/)作为将原始HTML解析为良好XML格式的最可靠方法。但是,HTML Cleaner只支持XPath 1.0,我发现自己需要像'contains'这样的功能。例如,在这段XML中:

<div>
  <td id='1234 foo 5678'>Hello</td>
</div>

我希望能够通过以下XPath获取文本'Hello':

//div/td[contains(@id, 'foo')]/text()

有没有办法获得此功能?我有几个想法,但如果我不需要,我宁愿不重新发明轮子:

  • 如果有办法调用HTML Cleaner的evaluateXPath并返回TagNode(我还没有找到),我可以在返回的TagNode上使用XML序列化器并将XPath链接在一起以实现所需的功能。
  • 我可以使用HTML Cleaner清理XML,将其序列化为字符串,并将其与其他XPath库一起使用,但我找不到适用于字符串的优秀java XPath求值程序。
  • 使用像getElementsByAttValue这样的TagNode函数,我基本上可以重新创建XPath评估并使用String.contains插入包含功能

简短问题:有没有办法在现有Java库中使用HTML包含HTML?

1 个答案:

答案 0 :(得分:34)

关于这个:

  

我可以使用HTML Cleaner清理XML,将其序列化为   字符串,并使用与另一个XPath库,但我找不到   适用于字符串的优秀java XPath评估程序。

完全我会做什么(除了你不需要操作字符串(见下文))。

许多HTML解析器尝试做太多。例如,HTMLCleaner没有正确/完全实现XPath 1.0规范(contains(例如) an XPath 1.0 function)。好消息是你不需要它。 HTMLCleaner所需要的只是解析格式错误的输入。完成后,最好使用标准XML接口来处理生成的(现在格式良好的)文档。

首先将文档转换为标准org.w3c.dom.Document,如下所示:

TagNode tagNode = new HtmlCleaner().clean(
        "<div><table><td id='1234 foo 5678'>Hello</td>");
org.w3c.dom.Document doc = new DomSerializer(
        new CleanerProperties()).createDOM(tagNode);

然后使用标准的JAXP接口进行查询:

XPath xpath = XPathFactory.newInstance().newXPath();
String str = (String) xpath.evaluate("//div//td[contains(@id, 'foo')]/text()", 
                       doc, XPathConstants.STRING);
System.out.println(str);

输出:

Hello