清理/合并pyarrow木地板文件?

时间:2020-09-07 15:09:42

标签: pyarrow

我通过提取最近一个小时内已更新/创建的所有记录,从某些来源每小时递增下载数据。这意味着我最终得到的实木复合地板文件非常小,因为它们会按创建的日期进行分区。

我的总数据集有数亿行,但是由于我要频繁下载数据然后对这些数据进行分区,所以最终会有很多文件。

我当时正在考虑使用回调函数来命名镶木地板文件,每次都可能会对其进行覆盖,但是由于每次都仅下载新的/更改的记录,因此这似乎很难。现在,我的文件名只是UUID(默认为pyarrow)。

清理此问题的最佳方法是什么?我在想,也许我应该将此数据集视为登台表,然后从中读取到具有更大分区的新数据集,并使用回调函数覆盖镶木地板文件。但是,这实际上并不能解决在原始数据集中拥有大量文件的问题。目前,我不使用Spark或Dask,而只是使用基本的Pyarrow和熊猫。

0 个答案:

没有答案