处理特殊实体,如& NBSP; ,&磅;在HtmlCleaner中

时间:2010-11-30 16:26:06

标签: java jsp web-crawler web-scraping

我正在使用HtmlCleaner库进行html内容提取。它工作正常,但没有什么限制。

它无法处理特殊字符,例如& pound或quotes等。对于e.x. 对于url:http://www.basicelegancefurnishings.co.uk/alaska-3-and-2-seater-sofa-setspan-classukmadespan-p-280.html,在给xpath价格时,它给了我“& pound;”取代£

我们可以在htmlcleaner中设置任何属性来处理这个或任何其他解决方案。

由于

Jitendra

3 个答案:

答案 0 :(得分:4)

不,我不相信HtmlCleaner可以做到这一点。但是,您可以使用Apache Commons StringEscapeUtils“unes​​cape”html,如下所示:

StringEscapeUtils.unescapeHtml("£679.00");

将生成£679.00

我建议您尝试JSoup

,而不是HtmlCleaner

答案 1 :(得分:1)

我使用的htmlcleaner版本是2.2,而org.htmlcleaner.CleanerProperties - setTransSpecialEntitiesToNCR(true)对我很有用。虽然我必须使用string.replace(" ", " ")制作html内容,但我完全正确。

答案 2 :(得分:-1)

现在可以通过org.htmlcleaner.CleanerProperties - setTransSpecialEntitiesToNCR(true)来完成。