晚上好,
我正在尝试使用以下方法从txt文件导入数据集:
df = pd.read_csv(path, sep= ";", encoding = "latin1")
但它创建了一个单独的列(而不是几个),如下所示:
print(df.head())
col1;col2;col3;col4; (...)
000003;2017;01;02;08;39;13;04;01;020582033 ;V1;T;00001;E;0000011900;000000000;10;01;L ; ; ;00001;00000;venp2010;ant;00000; ;S;000001 ; ; product300MG 3ML
不幸的是,我的数据集是245mb,Excel不允许我打开文件进行转换。
如果尝试使用(cfr。python pandas read_csv delimiter in column data)导入它:
with open(path, "r", newline="") as fp:
reader = csv.reader(fp, delimiter=";")
rows = [x[:1] + [';'.join(x[1:-2])] + x[-2:] for x in reader]
df = pd.DataFrame(rows)
报告以下错误:
'utf-8' codec can't decode byte 0xe0 in position 136: invalid continuation byte
如何解决此问题,以便正确导入?