如何有效地分割gz csv文件的数据字段

时间:2017-02-06 21:07:30

标签: python-2.7 hive etl

我有一个非常大的gzip压缩文件。我想根据特定列中的字符串模式将其拆分为两个gz文件。我知道可以循环遍历内容并创建两个文件,但是在效率方面有没有更好的方法在python中实现?

此外,原始文件有一个行标题。我想在两个结果文件的每一个中都有标题,或者完全删除标题。

0 个答案:

没有答案