我正在使用Xpath(和java)从某些网站中提取信息。但是我的问题是,由于其中一些网站格式不正确,我无法处理它们。有没有办法避免格式良好检查,或者指定不应该检查格式良好的标签?
由于 RP
答案 0 :(得分:5)
使用Tidy进行预处理。
答案 1 :(得分:3)
查看http://nekohtml.sourceforge.net/以将HTML转换为DOM对象
答案 2 :(得分:2)
TagSoup是一个用Java编写的兼容SAX的解析器,可以处理所有类型的破坏HTML。尝试使用TagSoup作为XML解析器,然后通过Xpath处理输出。
答案 3 :(得分:1)
您可能不希望使用XML解析器来解析HTML。您最好使用HtmlUnit或HtmlParser等库。