train = pd.read_csv('./train_vec.csv', header=None,sep=',',names=['label', 'vec', 'vec_with_sims'])
得到以下错误:
UnicodeDecodeError:“ utf-8”编解码器无法解码位置的字节0xaf 3:无效的起始字节
起初我以为编码格式有问题,但是当我尝试仅读取数据集的一部分时(例如,仅读取10000行),
train = pd.read_csv('./train_vec.csv',nrows=10000,header=None,sep=',',names=['label', 'vec', 'vec_with_sims'])
错误消失了!
是因为训练集太大(2.4G)吗?我的系统配置: Ubuntu16.04,GTX1070、16G内存 我认为就足够了! 更奇怪的是,每次计算机重新启动时,训练集都可以正常加载,但是过一会儿,尝试再次加载训练集会得到相同的错误。
答案 0 :(得分:0)
请尝试添加 encoding ='unicode_escape'
例如:
train = pd.read_csv(r'./ train_vec.csv',header = None,sep =',',names = ['label','vec','vec_with_sims'],encoding =' unicode_escape')