熊猫不考虑分离器 - utf-8'编解码器不能解码字节0xe0

时间:2018-04-11 13:49:04

标签: python-3.x pandas import

晚上好,

我正在尝试使用以下方法从txt文件导入数据集:

df = pd.read_csv(path, sep= ";", encoding = "latin1") 

但它创建了一个单独的列(而不是几个),如下所示:

print(df.head())

col1;col2;col3;col4; (...)

000003;2017;01;02;08;39;13;04;01;020582033    ;V1;T;00001;E;0000011900;000000000;10;01;L   ; ;             ;00001;00000;venp2010;ant;00000; ;S;000001         ; ;     product300MG 3ML

不幸的是,我的数据集是245mb,Excel不允许我打开文件进行转换。

如果尝试使用(cfr。python pandas read_csv delimiter in column data)导入它:

with open(path, "r", newline="") as fp:
    reader = csv.reader(fp, delimiter=";")
    rows = [x[:1] + [';'.join(x[1:-2])] + x[-2:] for x in reader] 
    df = pd.DataFrame(rows)

报告以下错误:

'utf-8' codec can't decode byte 0xe0 in position 136: invalid continuation byte

如何解决此问题,以便正确导入?

0 个答案:

没有答案