标签: python-2.7 hive etl
我有一个非常大的gzip压缩文件。我想根据特定列中的字符串模式将其拆分为两个gz文件。我知道可以循环遍历内容并创建两个文件,但是在效率方面有没有更好的方法在python中实现?
此外,原始文件有一个行标题。我想在两个结果文件的每一个中都有标题,或者完全删除标题。