Question

我正在使用HtmlCleaner库进行html内容提取。它工作正常，但没有什么限制。

它无法处理特殊字符，例如＆amp; pound或quotes等。对于e.x. 对于url：http://www.basicelegancefurnishings.co.uk/alaska-3-and-2-seater-sofa-setspan-classukmadespan-p-280.html，在给xpath价格时，它给了我“＆amp; pound;”取代£

我们可以在htmlcleaner中设置任何属性来处理这个或任何其他解决方案。

由于

Jitendra

Answer 1

不，我不相信HtmlCleaner可以做到这一点。但是，您可以使用Apache Commons StringEscapeUtils“unescape”html，如下所示：

StringEscapeUtils.unescapeHtml("&pound;679.00");

将生成£679.00。

我建议您尝试JSoup。

，而不是HtmlCleaner

Answer 2

我使用的htmlcleaner版本是2.2，而org.htmlcleaner.CleanerProperties - setTransSpecialEntitiesToNCR(true)对我很有用。虽然我必须使用string.replace(" ", " ")制作html内容，但我完全正确。

Answer 3

现在可以通过org.htmlcleaner.CleanerProperties - setTransSpecialEntitiesToNCR（true）来完成。

处理特殊实体，如＆amp; NBSP; ，＆amp;磅;在HtmlCleaner中

3 个答案: