应用错误收集

我通过提取最近一个小时内已更新/创建的所有记录，从某些来源每小时递增下载数据。这意味着我最终得到的实木复合地板文件非常小，因为它们会按创建的日期进行分区。

我的总数据集有数亿行，但是由于我要频繁下载数据然后对这些数据进行分区，所以最终会有很多文件。

我当时正在考虑使用回调函数来命名镶木地板文件，每次都可能会对其进行覆盖，但是由于每次都仅下载新的/更改的记录，因此这似乎很难。现在，我的文件名只是UUID（默认为pyarrow）。

清理此问题的最佳方法是什么？我在想，也许我应该将此数据集视为登台表，然后从中读取到具有更大分区的新数据集，并使用回调函数覆盖镶木地板文件。但是，这实际上并不能解决在原始数据集中拥有大量文件的问题。目前，我不使用Spark或Dask，而只是使用基本的Pyarrow和熊猫。