python字符串编码unicode

时间:2016-06-26 22:08:24

标签: python unicode encoding

我正在使用python 2.7,我在将“ä”等字符转换为“ae”时遇到了一些问题。

我正在使用以下网址检索网页内容:

req = urllib2.Request(url + str(questionID))
response = urllib2.urlopen(req)
data = response.read()

之后我正在做一些提取物,我的问题就出现了。

extractedStr = pageContent[start:end] // this string contains the "ä" !
extractedStr = extractedStr.decode("utf8") // here I get the error, tried it with encode aswell
extractedStr = extractedStr.replace(u"ä", "ae")

- > 'utf8'编解码器无法解码位置13中的字节0xe4:无效的连续字节

但是:我的简单试用工作正常......:

someStr = "geräusch"
someStr = someStr.decode("utf8")
someStr = someStr.replace(u"ä", "ae")

我有这种感觉,它与我尝试使用.decode()函数有关...我在几个位置尝试过,没有成功:(

1 个答案:

答案 0 :(得分:-1)

请改用.decode("latin-1")。这就是你要解码的内容。