应用错误收集

时间：2019-12-17 16:34:03

标签： apache-spark pyspark apache-spark-sql databricks

我正在处理约16个增量表，其中约1到300万行在数据块中。
因此，当我尝试执行诸如join之类的操作，然后在这些增量表中删除或插入时，会花费很长时间。
我主要要做插入和删除操作。因此，我应该使用平面文件而不是增量表。还是应该尝试将插入的增量表合并。

因此，我对delta的优点有什么疑问？为什么不使用平面文件？

这是一个基本问题，但是我对数据砖还是陌生的，所以任何帮助都很好。

答案 0 :(得分：0)

安迪（Andy），这完全取决于您的需求和期望，但是增量表有助于解决许多数据工程难题。

增量表的行为类似于事务日志，并且在许多情况下（如时间旅行）非常有用。这样就可以回滚，重现一些实验（读取旧版本的数据），允许分析数据版本之间的差异（更改）。

在处理镶木地板时，我们也不必重写整个数据集，而只需写入更新的数据。

如果您不需要任何这些，那么您可能会忘记增量表，而专注于纯性能。