如何在python / nltk中打印标记化的阿拉伯语文本?

时间:2013-03-07 00:31:38

标签: python encoding nltk arabic

我正在对阿拉伯语进行情感分析,我正在使用python / nltk和梦饼壳,当我应用标记化功能时会出现这个问题,如何显示这些单词?

>>> import nltk
>>> sentence = "مصادمات عنيفه في"
>>> tokens = nltk.word_tokenize(sentence)
>>> tokens
['\xd9\x85\xd8\xb5\xd8\xa7\xd8\xaf\xd9\x85\xd8\xa7\xd8\xaa', '\xd8\xb9\xd9\x86\xd9\x8a\xd9\x81\xd9\x87', '\xd9\x81\xd9\x8a']

1 个答案:

答案 0 :(得分:1)

通过打印令牌,您可以打印列表,\x...是字节码表示。如果要打印出阿拉伯语表单,只需遍历列表并逐个打印令牌。

>>> import nltk
>>> sentence = "مصادمات عنيفه في"
>>> tokens = nltk.word_tokenize(sentence)
>>> tokens
['\xd9\x85\xd8\xb5\xd8\xa7\xd8\xaf\xd9\x85\xd8\xa7\xd8\xaa', '\xd8\xb9\xd9\x86\xd9\x8a\xd9\x81\xd9\x87', '\xd9\x81\xd9\x8a']
>>> for i in tokens:
...     print i
... 
مصادمات
عنيفه
في