问候,
我遇到以下技术堆栈的问题:JWebUnit - > HtmlUnit - > Xalan的。 我试图通过XPATH找到一个元素,但HTML文档非常错误。
当我到达XPATH上的/body
元素时,Xalan停止查找元素。我相信这是因为该文档包含两个<body>
标签,一个是未公开的。
一切适用于/html/head
或/html
。但是,当我尝试/html/body
(或/html/body[1]
,//body[1]
或这些标记内的任何内容时,我只能从Xalan获得null。
有没有办法解决这个问题?我只是无法改变html文件。谢谢你的关注。
祝你好运, 蒂亚戈
答案 0 :(得分:1)
HtmlUnit必须使用某些东西将HTML转换为XML。也许你可以告诉它使用jsoup或tagsoup,它们非常容忍凌乱的HTML?
您也可以编写代码将XML树转储到文件中,以便查看其中的内容。