我正在使用NekoHtml。它无法将html从像mercurynews.com这样的网站解析为DOM。该问题的任何解决方案?
答案 0 :(得分:5)
您是否考虑过Tag Soup?
答案 1 :(得分:3)
除了切换到other parsers之外?如果站点具有一致的错误模式,您可以通过一系列正则表达式对它们进行热修复,然后再传递给解析器。
答案 2 :(得分:0)
您可以考虑使用Swing HTML解析器。
答案 3 :(得分:0)
我使用了“Lobo Project”(http://lobobrowser.org/cobra.jsp)中的Cobra渲染器来解析不太友好的HTML并且运行良好。它的API也很容易使用。
希望这有帮助。
答案 4 :(得分:0)
在解析之前使用JTidy整理它,或者更好地将其用作解析器
答案 5 :(得分:0)
我不知道“网站喜欢”是什么意思,但MercuryNews.com和大多数新闻网站都有RSS interface。
答案 6 :(得分:0)
我尝试过jsoup - http://jsoup.org - 。
它是一个开源Java库,用于实际的HTML解析和DOM操作,使用类似jquery的方法。