Question

我有一个我从网页上解析过的JSON字符串，我正在尝试使用json.loads()将其转换为Python字典。但是，JSON字符串中的某些值包含双引号，例如

'{"title": "The "Star Wars Kid": Where is he now?"}'

显然这不是一个合适的JSON字符串，json.loads()抱怨。使用像string.replace('"', '\\"')之类的东西也不起作用，因为这是一个单独的字符串，这样做会影响正确的双引号和坏引号。

顺便说一下，这在抓取时不会导致HtmlXPathSelector错误，因为在网页上，错误的引号是这样编码的

'{"title": "The &#34;Star Wars Kid&#34;: Where is he now?"}'

如何使用json.loads()正确解析此字符串？

编辑：我知道在解码编码引号之前解析字符串很简单（如第二个例子），所以我想我真正想问的是如何从python HtmlXPathSelector获取这种类型的静态编码结果。

如果我正在抓取的HTML文档包含此字符串

'{"title": "The &#34;Star Wars Kid&#34;: Where Is He Now?"}'

如何在不解码编码引号的情况下让HtmlXPathSelector返回那个确切的字符串？

Answer 1

{"title": "The &#34;Star Wars Kid&#34;: Where is he now?"}

以下是您要解码JSON的时间。然后在以后替换“坏报价”。