应用错误收集

Jsoup解析双引号为＆＃34;单引号为双引号

时间：2018-03-26 20:47:17

标签： java html parsing jsoup double-quotes

我正在尝试解析HTML文档。在文件中，有 span-data-personalization =＆＃39; {＆＃34; one＆＃34;：[＆＃34; two＆＃34;]}＆＃39; 转换为解析时， span-data-personalization =＆＃34; {＆amp; quotone＆amp; quot：[＆amp; quottwo＆amp; quot]}＆＃34; 。双引号转换为＆amp; quot和单引号为双引号。我还使用了doc.outputSettings（）。prettyPrint（false）;没有成功。此外，在jsoup - stop jsoup from making quotes into &中建议进行更改仍然无效。而且，我也尝试更新Jsoup版本。似乎没什么用。有人有什么建议吗？

谢谢。

1 个答案:

答案 0 :(得分：0)

JSoup Parser类有一个内置的unescapeEntities方法。来自JSoup documentation：

public static String unescapeEntities（String string，                                         boolean inAttribute）

从字符串中取消HTML实体的实用方法

参数：

字符串 - HTML转义字符串

inAttribute - 如果要在严格模式下转义字符串（作为属性）

返回：   未转义的字符串