每天添加到镶木地板数据集中

时间:2020-04-09 19:39:13

标签: pandas parquet pyarrow

我每天都会收到许多传入的数据提要。每个文件在10-150MB之间。对于每个文件,我都会将其附加到该文件的相关镶木地板数据集中。在实践中,这意味着将几天的新文件读入pandas数据框,将现有的实木复合地板数据集读入数据框,将新数据附加到现有的数据中,然后重写实木复合地板。从我所看到的,没有办法附加到镶木地板数据集上,否则我会做的。鉴于每日文件大小相对较小,我认为将它们作为自己的分区写入数据集会很浪费-我每天会添加2-20MB的镶木地板文件,我的理解是对于镶木地板文件来说这太小了拥有这么多分区将导致严重的窃听。

我已经使用我现有的设置运行了一段时间,并且将现有的镶木地板文件读入内存实际上变得相当昂贵,因为我最终获得了多个GB数据帧。

从这里开始,我的计划是在现有的未分区数据集(例如年或年/季度)上定义一个新分区,然后在运行该过程时,仅读取新数据的相关分区,然后将新数据附加到该分区上,然后仅重写该分区。

我相当确定这可以解决我的问题,但确实要确保它正确运行并扩展到我的所有用途/数据集还需要做一些工作。在继续进行此操作之前,我想看看是否还有其他更简洁的方法可以通过pandas / pyarrow / dask增量地添加到镶木地板数据集中。

0 个答案:

没有答案