应用错误收集

如何跳过格式良好的检查XML

时间：2009-02-10 18:18:16

标签： java html xml xpath

我正在使用Xpath（和java）从某些网站中提取信息。但是我的问题是，由于其中一些网站格式不正确，我无法处理它们。有没有办法避免格式良好检查，或者指定不应该检查格式良好的标签？

由于 RP

4 个答案:

答案 0 :(得分：5)

使用Tidy进行预处理。

答案 1 :(得分：3)

查看http://nekohtml.sourceforge.net/以将HTML转换为DOM对象

答案 2 :(得分：2)

TagSoup是一个用Java编写的兼容SAX的解析器，可以处理所有类型的破坏HTML。尝试使用TagSoup作为XML解析器，然后通过Xpath处理输出。

答案 3 :(得分：1)

您可能不希望使用XML解析器来解析HTML。您最好使用HtmlUnit或HtmlParser等库。