我有2个gzip压缩文件IMFBOP2017_1.csv.gz
和IMFBOP2017_2.csv.gz
在两个文件中都有相同的列,"Location, Indicator, Measure, Unit, Frequency, Date"
。
总行数6,000万+
我想比较文件和文件显示IMFBOP2017_1
中不存在的IMFBOP2017_2
行。
我的计划是将两个文件都导入数据框,添加一个额外的列"比较"两个数据帧并通过所有字段更新它,如
位置|指标|测量|单位|频率|日期和不运行。
我认为这是一个代价高昂的过程,对此有什么简单的解决方案吗?
答案 0 :(得分:1)
Pandas可以使用普通pandas.read_csv()
读取gzip压缩数据文件。 Pandas: Diff of two Dataframes中描述了如何在两个数据帧之间进行差异。