Xalan使用XPATH的问题(非闭合标签)

时间:2011-04-10 22:57:26

标签: xpath htmlunit xalan

问候,

我遇到以下技术堆栈的问题:JWebUnit - > HtmlUnit - > Xalan的。 我试图通过XPATH找到一个元素,但HTML文档非常错误。

当我到达XPATH上的/body元素时,Xalan停止查找元素。我相信这是因为该文档包含两个<body>标签,一个是未公开的。

一切适用于/html/head/html。但是,当我尝试/html/body(或/html/body[1]//body[1]或这些标记内的任何内容时,我只能从Xalan获得null。

有没有办法解决这个问题?我只是无法改变html文件。谢谢你的关注。

祝你好运, 蒂亚戈

1 个答案:

答案 0 :(得分:1)

HtmlUnit必须使用某些东西将HTML转换为XML。也许你可以告诉它使用jsoup或tagsoup,它们非常容忍凌乱的HTML?

您也可以编写代码将XML树转储到文件中,以便查看其中的内容。