使用pd.read_csv

时间:2019-02-22 14:38:55

标签: python pandas unicode

train = pd.read_csv('./train_vec.csv', header=None,sep=',',names=['label', 'vec', 'vec_with_sims'])

得到以下错误:

  

UnicodeDecodeError:“ utf-8”编解码器无法解码位置的字节0xaf   3:无效的起始字节

起初我以为编码格式有问题,但是当我尝试仅读取数据集的一部分时(例如,仅读取10000行),

train = pd.read_csv('./train_vec.csv',nrows=10000,header=None,sep=',',names=['label', 'vec', 'vec_with_sims'])

错误消失了!

是因为训练集太大(2.4G)吗?我的系统配置: Ubuntu16.04,GTX1070、16G内存 我认为就足够了! 更奇怪的是,每次计算机重新启动时,训练集都可以正常加载,但是过一会儿,尝试再次加载训练集会得到相同的错误。

1 个答案:

答案 0 :(得分:0)

请尝试添加 encoding ='unicode_escape'

例如:

train = pd.read_csv(r'./ train_vec.csv',header = None,sep =',',names = ['label','vec','vec_with_sims'],encoding =' unicode_escape')