应用错误收集

时间：2009-07-14 19:05:42

标签： java html dom parsing

我正在使用NekoHtml。它无法将html从像mercurynews.com这样的网站解析为DOM。该问题的任何解决方案？

答案 0 :(得分：5)

您是否考虑过Tag Soup？

答案 1 :(得分：3)

除了切换到other parsers之外？如果站点具有一致的错误模式，您可以通过一系列正则表达式对它们进行热修复，然后再传递给解析器。

答案 2 :(得分：0)

您可以考虑使用Swing HTML解析器。

答案 3 :(得分：0)

我使用了“Lobo Project”（http://lobobrowser.org/cobra.jsp）中的Cobra渲染器来解析不太友好的HTML并且运行良好。它的API也很容易使用。

希望这有帮助。

答案 4 :(得分：0)

在解析之前使用JTidy整理它，或者更好地将其用作解析器

答案 5 :(得分：0)

我不知道“网站喜欢”是什么意思，但MercuryNews.com和大多数新闻网站都有RSS interface。

答案 6 :(得分：0)

我尝试过jsoup - http://jsoup.org - 。

它是一个开源Java库，用于实际的HTML解析和DOM操作，使用类似jquery的方法。