如何在java中处理/解析格式错误的HTML到DOM?

时间:2009-07-14 19:05:42

标签: java html dom parsing

我正在使用NekoHtml。它无法将html从像mercurynews.com这样的网站解析为DOM。该问题的任何解决方案?

7 个答案:

答案 0 :(得分:5)

您是否考虑过Tag Soup?

http://home.ccil.org/~cowan/XML/tagsoup/

答案 1 :(得分:3)

除了切换到other parsers之外?如果站点具有一致的错误模式,您可以通过一系列正则表达式对它们进行热修复,然后再传递给解析器。

答案 2 :(得分:0)

您可以考虑使用Swing HTML解析器。

http://www.rkcole.com/articles/swing/HTMLParser.html

答案 3 :(得分:0)

我使用了“Lobo Project”(http://lobobrowser.org/cobra.jsp)中的Cobra渲染器来解析不太友好的HTML并且运行良好。它的API也很容易使用。

希望这有帮助。

答案 4 :(得分:0)

在解析之前使用JTidy整理它,或者更好地将其用作解析器

答案 5 :(得分:0)

我不知道“网站喜欢”是什么意思,但MercuryNews.com和大多数新闻网站都有RSS interface

答案 6 :(得分:0)

我尝试过jsoup - http://jsoup.org - 。

它是一个开源Java库,用于实际的HTML解析和DOM操作,使用类似jquery的方法。