我的项目是用阿拉伯语识别正面或负面(情绪分析)的情绪,为了完成这个任务,我使用NLTK和python,当我输入阿拉伯语的推文时发生错误
>>> pos_tweets = [(' أساند كل عون أمن شريف', 'positive'),
('ما أحلى الثورة التونسية', 'positive'),
('أجمل طفل في العالم', 'positive'),
('الشعب يحرس', 'positive'),
('ثورة شعبنا هي ثورة الكـــرامة وثـــورة الأحــــرار', 'positive')]
Unsupported characters in input
我该如何解决这个问题?
答案 0 :(得分:3)
答案 1 :(得分:3)
我通常会将UTF-8
输入到我的python代码中。我不知道为什么它可以工作但它接受unicode字符串并在我添加这些行后顺利运行脚本:
#! /usr/local/bin/python -*- coding: UTF-8 -*-
pos_tweets = [(u' أساند كل عون أمن شريف', 'positive'),
(u'ما أحلى الثورة التونسية', 'positive'),
(u'أجمل طفل في العالم', 'positive'),
(u'الشعب يحرس', 'positive'),
(u'ثورة شعبنا هي ثورة الكـــرامة وثـــورة الأحــــرار', 'positive')]
for i in pos_tweets:
print i[0], i[1]