我正在尝试使用以下代码段构建单词向量
DIR = "C:\Users\Desktop\data\\rec.sport.hockey"
posts = [open(os.path.join(DIR,f)).read() for f in os.listdir(DIR)]
x_train = vectorizer.fit_transform(posts)
但是,代码返回以下错误消息
UnicodeDecodeError: 'utf8' codec can't decode byte 0x80 in position 240: invalid start byte
我认为它与一些非ascii字符有关。如何解决这个问题?