如何在使用HTML单元解析HTML之前清理HTML

时间:2014-01-22 13:22:17

标签: web-scraping htmlunit jtidy

我正在使用HtmlUnit抓取html,但html格式错误,标签很少,因此HtmlUnit会给出错误的结果。所以我需要在将它传递给HtmlUnit之前清理它。

我该怎么做。

赞赏一个简短的代码片段或教程

1 个答案:

答案 0 :(得分:0)

我相信你可以通过实施自己的WebConnectionWrapper来实现这一目标。然后你必须找到一些正确修复它的HTML库(如果可能的话)。您应该做的就是确保包装器将内容发送到库,以便当它到达HTMLUnit的解析器时,HTML内容已经被处理。