使用python从html获取重音字符

时间:2014-06-04 07:07:53

标签: python html string-decoding

在网页来源中,我可以看到如下字:abac%c3%a0浏览器(chrome)显示为abacà。
现在,我已经使用urllib2下载了页面,并且我使用python(在mac os x上为2.7)解析页面源以获得一些关键字:我想要使用重音字符而不是%c3%a0但是使用str.decode (“utf8”)没有用(我试过,因为那些似乎是\ xc3 \ xa0 utf8代码)。

我应该尝试在词典中添加重音词?

顺便说一下,html页面没有任何关于源

中编码的指示

感谢

1 个答案:

答案 0 :(得分:1)

这些字符是经过网址编码的(它们是网址的一部分吗?),您可以使用urllib.unquote撤消这些字符。