如何在我的python代码中输入阿拉伯语文本?

时间:2013-03-04 07:09:46

标签: python unicode encoding utf-8

我的项目是用阿拉伯语识别正面或负面(情绪分析)的情绪,为了完成这个任务,我使用NLTK和python,当我输入阿拉伯语的推文时发生错误

>>> pos_tweets = [(' أساند كل عون أمن شريف', 'positive'),
              ('ما أحلى الثورة التونسية', 'positive'),
              ('أجمل طفل في العالم', 'positive'),
              ('الشعب يحرس', 'positive'),
              ('ثورة شعبنا هي ثورة الكـــرامة وثـــورة الأحــــرار', 'positive')]
Unsupported characters in input

我该如何解决这个问题?

2 个答案:

答案 0 :(得分:3)

您的问题来自IDLE shell。 AFAIK IDLE不会以交互模式接受UTF-8输入。

我建议你使用替代(和更好)的shell,例如DreamPiePythonWin

答案 1 :(得分:3)

我通常会将UTF-8输入到我的python代码中。我不知道为什么它可以工作但它接受unicode字符串并在我添加这些行后顺利运行脚本:

#! /usr/local/bin/python  -*- coding: UTF-8 -*-

pos_tweets = [(u' أساند كل عون أمن شريف', 'positive'), 
(u'ما أحلى الثورة التونسية', 'positive'), 
(u'أجمل طفل في العالم', 'positive'), 
(u'الشعب يحرس', 'positive'), 
(u'ثورة شعبنا هي ثورة الكـــرامة وثـــورة الأحــــرار', 'positive')] 

for i in pos_tweets:
  print i[0], i[1]