平面文件(orc,csv)是否比Spark中的增量表更有效率

时间:2019-12-17 16:34:03

标签: apache-spark pyspark apache-spark-sql databricks

我正在处理约16个增量表,其中约1到300万行在数据块中。
因此,当我尝试执行诸如join之类的操作,然后在这些增量表中删除或插入时,会花费很长时间。
我主要要做插入和删除操作。 因此,我应该使用平面文件而不是增量表。 还是应该尝试将插入的增量表合并。

因此,我对delta的优点有什么疑问?为什么不使用平面文件?

这是一个基本问题,但是我对数据砖还是陌生的,所以任何帮助都很好。

1 个答案:

答案 0 :(得分:0)

安迪(Andy),这完全取决于您的需求和期望,但是增量表有助于解决许多数据工程难题。

增量表的行为类似于事务日志,并且在许多情况下(如时间旅行)非常有用。这样就可以回滚重现一些实验(读取旧版本的数据),允许分析数据版本之间的差异(更改)。

在处理镶木地板时,我们也不必重写整个数据集,而只需写入更新的数据

如果您不需要任何这些,那么您可能会忘记增量表,而专注于纯性能。