标签: python html string-decoding
在网页来源中,我可以看到如下字:abac%c3%a0浏览器(chrome)显示为abacà。 现在,我已经使用urllib2下载了页面,并且我使用python(在mac os x上为2.7)解析页面源以获得一些关键字:我想要使用重音字符而不是%c3%a0但是使用str.decode (“utf8”)没有用(我试过,因为那些似乎是\ xc3 \ xa0 utf8代码)。
我应该尝试在词典中添加重音词?
顺便说一下,html页面没有任何关于源
感谢
答案 0 :(得分:1)
这些字符是经过网址编码的(它们是网址的一部分吗?),您可以使用urllib.unquote撤消这些字符。