使用python进行语料库utf-8编码

时间:2017-04-30 22:51:44

标签: python

我已经使用 movie_reviews 语料库进行情绪分析。我用阿拉伯语文本文件替换了现有的文本文件,但我无法阅读和打印它们;我在编码方面遇到了问题。

我的代码:

import nltk
from nltk.corpus import movie_reviews

documents = []

for category in movie_reviews.categories():
    for fileid in movie_reviews.fileids(category):
        documents.append([movie_reviews.words(fileid),category])   

print(documents[0])

我有这个错误:

UnicodeDecodeError: 'ascii' codec can't decode byte 0xef in position 0: ordinal not in range(128)

0 个答案:

没有答案