我正在使用request.get从Google Ngrams检索数据。
我遇到一个问题,当我在网站上查询带有重音符的字符串(在这种情况下,我正在搜索"marcher d'un pas lourd"
)时,它将返回"marcher d' un pas lourd"
的信息。
如您在返回的字符串中看到的那样,撇号已被替换为撇号的四位数Unicode。
由于我使用原始的字符串查询("marcher d'un pas lourd"
)从返回的数据中找到所需的数据,因此这弄乱了我的其余代码。
是否有任何函数或程序可以搜索并转换以其他普通字符组成的字符串中的四位数Unicode?请注意,我不想删除这些特殊字符,而希望在我的代码中将它们恢复为正确的表示形式。
答案 0 :(得分:1)
这些称为HTML实体,可以通过以下方式取消转义:
>>> s="marcher d' un pas lourd"
>>> import html
>>> html.unescape(s)
"marcher d' un pas lourd"