读取包含非ascii字符的文件集合的问题

时间:2015-05-01 19:57:01

标签: python scikit-learn

我正在尝试使用以下代码段构建单词向量

DIR = "C:\Users\Desktop\data\\rec.sport.hockey"
posts = [open(os.path.join(DIR,f)).read() for f in os.listdir(DIR)]
x_train = vectorizer.fit_transform(posts)

但是,代码返回以下错误消息

UnicodeDecodeError: 'utf8' codec can't decode byte 0x80 in position 240: invalid start byte

我认为它与一些非ascii字符有关。如何解决这个问题?

0 个答案:

没有答案