我正在处理约16个增量表,其中约1到300万行在数据块中。
因此,当我尝试执行诸如join之类的操作,然后在这些增量表中删除或插入时,会花费很长时间。
我主要要做插入和删除操作。
因此,我应该使用平面文件而不是增量表。
还是应该尝试将插入的增量表合并。
因此,我对delta的优点有什么疑问?为什么不使用平面文件?
这是一个基本问题,但是我对数据砖还是陌生的,所以任何帮助都很好。
答案 0 :(得分:0)
安迪(Andy),这完全取决于您的需求和期望,但是增量表有助于解决许多数据工程难题。
增量表的行为类似于事务日志,并且在许多情况下(如时间旅行)非常有用。这样就可以回滚,重现一些实验(读取旧版本的数据),允许分析数据版本之间的差异(更改)。
在处理镶木地板时,我们也不必重写整个数据集,而只需写入更新的数据。
如果您不需要任何这些,那么您可能会忘记增量表,而专注于纯性能。