Python 3.6:比较两个大的gzip压缩文件&获取差异记录

时间:2017-08-01 06:37:43

标签: python python-3.x dataframe gunzip

我有2个gzip压缩文件IMFBOP2017_1.csv.gzIMFBOP2017_2.csv.gz在两个文件中都有相同的列,"Location, Indicator, Measure, Unit, Frequency, Date"

总行数6,000万+

我想比较文件和文件显示IMFBOP2017_1中不存在的IMFBOP2017_2行。

我的计划是将两个文件都导入数据框,添加一个额外的列"比较"两个数据帧并通过所有字段更新它,如

  

位置|指标|测量|单位|频率|日期和不运行。

我认为这是一个代价高昂的过程,对此有什么简单的解决方案吗?

1 个答案:

答案 0 :(得分:1)

Pandas可以使用普通pandas.read_csv()读取gzip压缩数据文件。 Pandas: Diff of two Dataframes中描述了如何在两个数据帧之间进行差异。