应用错误收集

Python 3.6：比较两个大的gzip压缩文件＆amp;获取差异记录

时间：2017-08-01 06:37:43

标签： python python-3.x dataframe gunzip

我有2个gzip压缩文件IMFBOP2017_1.csv.gz和IMFBOP2017_2.csv.gz在两个文件中都有相同的列，"Location, Indicator, Measure, Unit, Frequency, Date"。

总行数6,000万+

我想比较文件和文件显示IMFBOP2017_1中不存在的IMFBOP2017_2行。

我的计划是将两个文件都导入数据框，添加一个额外的列＆＃34;比较＆＃34;两个数据帧并通过所有字段更新它，如

位置|指标|测量|单位|频率|日期和不运行。

我认为这是一个代价高昂的过程，对此有什么简单的解决方案吗？

1 个答案:

答案 0 :(得分：1)

Pandas可以使用普通pandas.read_csv()读取gzip压缩数据文件。 Pandas: Diff of two Dataframes中描述了如何在两个数据帧之间进行差异。