Question

train = pd.read_csv('./train_vec.csv', header=None,sep=',',names=['label', 'vec', 'vec_with_sims'])

得到以下错误：

UnicodeDecodeError：“ utf-8”编解码器无法解码位置的字节0xaf 3：无效的起始字节

起初我以为编码格式有问题，但是当我尝试仅读取数据集的一部分时（例如，仅读取10000行），

train = pd.read_csv('./train_vec.csv',nrows=10000,header=None,sep=',',names=['label', 'vec', 'vec_with_sims'])

错误消失了！

是因为训练集太大（2.4G）吗？我的系统配置： Ubuntu16.04，GTX1070、16G内存我认为就足够了！更奇怪的是，每次计算机重新启动时，训练集都可以正常加载，但是过一会儿，尝试再次加载训练集会得到相同的错误。

Answer 1

请尝试添加 encoding ='unicode_escape'

例如：

train = pd.read_csv（r'./ train_vec.csv'，header = None，sep ='，'，names = ['label'，'vec'，'vec_with_sims']，encoding =' unicode_escape'）