我正在尝试解析HTML文档。在文件中,有 span-data-personalization =' {" one":[" two"]}' 转换为 解析时, span-data-personalization =" {& quotone& quot:[& quottwo& quot]}" 。双引号转换为& quot和单引号为双引号。我还使用了doc.outputSettings()。prettyPrint(false);没有成功。此外,在jsoup - stop jsoup from making quotes into &中建议进行更改仍然无效。而且,我也尝试更新Jsoup版本。似乎没什么用。有人有什么建议吗?
谢谢。
答案 0 :(得分:0)
JSoup Parser
类有一个内置的unescapeEntities
方法。来自JSoup documentation:
public static String unescapeEntities(String string, boolean inAttribute)
从字符串中取消HTML实体的实用方法
参数:
字符串 - HTML转义字符串
inAttribute - 如果要在严格模式下转义字符串(作为属性)
返回: 未转义的字符串