在度数符号之前获得一个字符

时间:2013-08-05 18:50:42

标签: python python-2.7 word

我正在尝试将度数符号连接到字符串,以便将其写入word文档。我试过这样做。

degreeChar = u'\N{DEGREE SIGN}'
print degreeChar.encode('UTF-8')

我从中得到的输出是°,我不确定为什么会出现Â。我究竟做错了什么?非常沮丧!

感谢。

3 个答案:

答案 0 :(得分:5)

执行此操作时:

>>> degreeChar = u'\N{DEGREE SIGN}'

degreeChar是一个单字符的Unicode字符串 - 特别是u'°'

>>> len(degreeChar)
1
>>> ord(degreeChar)
176

当您将其编码为UTF-8时,您将获得一个2字节的UTF-8字节字符串:

>>> dc = degreeChar.encode('UTF-8')
>>> len(dc)
2
>>> ord(dc[0]), ord(dc[1])
(194, 176)

作为UTF-8,该对字节表示u'°'。但是,比如拉丁语-1或cp1252,完全相同的字节对意味着u'°'。这就是不同编码的重点 - 相同的字节序列在不同的编码中意味着不同的东西。要查看详细信息:

>>> dc2 = dc.decode('latin-1')
>>> len(dc2)
2
>>> ord(dc2[0]), ord(dc2[1])
(194, 176)

那么,如果您尝试将print UTF-8字符串发送到cp1252终端会发生什么?或者将其保存为二进制文件,然后将其作为cp1252文本文件打开?那么,你当然得到°


那么,你是如何解决这个问题的?

好吧,只是不要尝试将UTF-8编码的字节打印到cp1252终端!如果Python已经成功猜到了终端的编码,那么首先将其打印为Unicode字符串:

>>> print u'°'
°

如果没有,您需要修复配置,以便Python 正确猜测终端的编码(在大多数* nix系统上很容易,而不是在Windows上轻松...),或者手动指定它,或者只需编码为编码而不是错误的编码:

>>> print u'°'.encode('cp1252')
°

答案 1 :(得分:0)

degreeChar = u'\N{DEGREE SIGN}'
print degreeChar

它应该没关系...至少在Windows 7上这个命令按预期工作

答案 2 :(得分:0)

°所在的文档使用UTF-8编码,但是解释器认为它与众不同。

就我而言,我只是在该文档中添加了UTF-8 BOM标记,因此解释器意识到了内容编码。