如何存储非英文文本?

时间:2016-05-01 13:06:19

标签: python encoding character-encoding python-2.x

我有一个文本文件。它由许多非英语字符组成。我想将此文件存储为数字序列,如ascii。

我如何代表非英语角色?

My Text here

1 个答案:

答案 0 :(得分:1)

您必须先使用正确的编码方案decode,然后您将获得该字符的序数值,因为ord返回一个字符的整数值 string:

>>> s = 'ç'
>>> s
'\xc3\xa7'
>>> print s
ç
>>> len(s)
2
>>> s.decode('utf-8')
u'\xe7'
>>> len(s.decode('utf-8'))
1
>>> ord(s.decode('utf-8'))
231