我正在使用HtmlCleaner库进行html内容提取。它工作正常,但没有什么限制。
它无法处理特殊字符,例如& pound或quotes等。对于e.x. 对于url:http://www.basicelegancefurnishings.co.uk/alaska-3-and-2-seater-sofa-setspan-classukmadespan-p-280.html,在给xpath价格时,它给了我“& pound;”取代£
我们可以在htmlcleaner中设置任何属性来处理这个或任何其他解决方案。
由于
Jitendra
答案 0 :(得分:4)
不,我不相信HtmlCleaner可以做到这一点。但是,您可以使用Apache Commons StringEscapeUtils“unescape”html,如下所示:
StringEscapeUtils.unescapeHtml("£679.00");
将生成£679.00
。
我建议您尝试JSoup。
,而不是HtmlCleaner答案 1 :(得分:1)
我使用的htmlcleaner版本是2.2,而org.htmlcleaner.CleanerProperties - setTransSpecialEntitiesToNCR(true)
对我很有用。虽然我必须使用string.replace(" ", " ")
制作html内容,但我完全正确。
答案 2 :(得分:-1)
现在可以通过org.htmlcleaner.CleanerProperties - setTransSpecialEntitiesToNCR(true)来完成。