Question

我正在使用scikit-learn作为项目。在执行特征提取（working_with_text_data教程）时，我得到UnicodeDecodeError：＆＃39; utf8＆＃39;编解码器无法解码字节。

使用python 2.7.8并使用make构建scikit-learn。

from sklearn.feature_extraction.text import CountVectorizer
count_vect = CountVectorizer()
X_train_counts = count_vect.fit_transform(dataset.data)
print(X_train_counts.shape)

请帮忙解决问题？

Answer 1

使用load_files函数时，编码应为latin1

twenty_train = load_files('path/to/folder',encoding='latin1')

在sklearn / datasets / twenty_newscroups.py

function _download_20newsgroups
...
load_files(train_path, encoding='latin1')

UnicodeDecodeError：＆＃39; utf8＆＃39;编解码器不能解码位置894中的字节0xb5：无效的起始字节

1 个答案: