如何跳过格式良好的检查XML

时间:2009-02-10 18:18:16

标签: java html xml xpath

我正在使用Xpath(和java)从某些网站中提取信息。但是我的问题是,由于其中一些网站格式不正确,我无法处理它们。有没有办法避免格式良好检查,或者指定不应该检查格式良好的标签?

由于 RP

4 个答案:

答案 0 :(得分:5)

使用Tidy进行预处理。

答案 1 :(得分:3)

查看http://nekohtml.sourceforge.net/以将HTML转换为DOM对象

答案 2 :(得分:2)

TagSoup是一个用Java编写的兼容SAX的解析器,可以处理所有类型的破坏HTML。尝试使用TagSoup作为XML解析器,然后通过Xpath处理输出。

答案 3 :(得分:1)

您可能不希望使用XML解析器来解析HTML。您最好使用HtmlUnitHtmlParser等库。