恢复扭曲的中文格式并识别原始的中文编码

时间:2014-04-29 22:34:43

标签: python encoding utf-8 gbk

我正在处理一个已阅读中文维基百科内容的文件,显然已经转换为UTF-8 但不正确。

import re,urllib
st=u'1492: Conquest ▒�¢â▒��¬â▒�▒¹of Paradise'
st1= urllib.unquote(st).encode('UTF-8') 
st2= urllib.unquote(st) 
print st
print st1
print st2

输出

1492: Conquest ▒�¢â▒��¬â▒�▒¹of Paradise
1492: Conquest ▒�¢â▒��¬â▒�▒¹of Paradise
1492: Conquest ▒�¢â▒��¬â▒�▒¹of Paradise

编辑(发现额外信息)
我发现原始格式(无论是什么),都经历了以下转换过程

  line[1]=urllib.quote(line[1])
  try:
      st=urllib.unquote(line[1]).decode("utf-8")
  except UnicodeDecodeError:
      st=urllib.unquote(line[1]).decode("latin1")

我不知道原始编码(可能是GBK或GB18030),所以我不确定如何恢复正确的文本。这是可以恢复的吗?

1 个答案:

答案 0 :(得分:1)

根据您显示的代码来解码传入的字节......

尝试解码来自utf-8的字节可能会失败,因为在utf-8中有很多字节组合无效。因此,您的Unicode字符串可能来自解码latin1

还有许多字节不是有效的latin1字符,但Python 2.7中的快速测试表明它无论如何都要对它们进行解码。这意味着保留了输入字节,但print无法显示它们。

for x in range(256):
    if chr(x).decode('latin1').encode('latin1') != chr(x):
        print x

如果您将正确的代码页放入decode部分,以下应该能够恢复它们并解码到正确的代码页:

st1 = st.encode('latin1').decode('gb18030')
print st1