PYTHON中的希腊语编码

时间:2012-11-22 19:29:41

标签: python encoding

我正在尝试存储一个字符串,然后在python中使用nltk对其进行标记化。但是我无法理解为什么在对其进行标记后(它创建一个列表)我无法看到列表中的字符串.. 任何人都可以帮助我吗?

以下是代码:

#a="Γεια σου"
#b=nltk.word_tokenize(a)
#b
['\xc3\xe5\xe9\xe1', '\xf3\xef\xf5']

我只是希望能够定期查看列表的内容..

提前谢谢

2 个答案:

答案 0 :(得分:5)

您正在使用Python 2,其中未加前缀的引号表示字节而不是字符字符串(如果您不确定差异,{{3} })。切换到已修复此问题的Python 3,或者使用u为所有字符串添加前缀并打印字符串(而不是显示它们的repr,这在Python 2.x中有所不同):

>>> import nltk
>>> a = u'Γεια σου'
>>> b = nltk.word_tokenize(a)
>>> print(u'\n'.join(b))
Γεια
σου

答案 1 :(得分:0)

你可以看到字符串。由于您的终端编码设置,字符由转义序列表示。将终端配置为接受输入,并以UTF-8显示输出。