我有一个实际上是两个表的表。表中的每一行是表A的行和表B的行,以“ |”分隔。每列中的列均以','分隔。
这是一个巨大的表(200 GB),所以我需要高效地完成它。
样本数据:
0.0,0|586,abc,6
0.4,2|416,efg,3
1.0,8|007,hik,1
我想将表A作为熊猫表,将表B作为独立的熊猫表。
答案 0 :(得分:2)
“这是一个巨大的表(200 GB),所以我需要高效地完成它。” -然后不要使用pandas
。
如果必须的话,您可以首先将数据作为单个数据帧读取:
df = pd.read_csv('test.txt', header=None, sep='[,|]')
然后根据需要分离数据:
df1 = df.iloc[:, 0:3]
df2 = df.iloc[:, 3:5]
del df
这处理分离,并且只加载一次数据,但是您应该使用其他工具来处理这种大小的东西...