我已经使用 movie_reviews 语料库进行情绪分析。我用阿拉伯语文本文件替换了现有的文本文件,但我无法阅读和打印它们;我在编码方面遇到了问题。
我的代码:
import nltk
from nltk.corpus import movie_reviews
documents = []
for category in movie_reviews.categories():
for fileid in movie_reviews.fileids(category):
documents.append([movie_reviews.words(fileid),category])
print(documents[0])
我有这个错误:
UnicodeDecodeError: 'ascii' codec can't decode byte 0xef in position 0: ordinal not in range(128)