关于三角洲湖的困惑

时间:2020-07-30 09:32:08

标签: delta-lake

我已经尝试阅读许多有关databricks三角洲湖泊的信息。据我了解,它通过增量引擎将ACID事务添加到您的数据存储中并提高了查询性能。如果是这样,为什么我们需要其他不支持ACID事务的数据湖? Delta Lakes声称将数据湖和数据仓库两者结合在一起,我们知道由于其当前的运营支持,它不能替代传统的数据仓库。但是,它应该取代数据湖吗?为什么需要有两个数据副本-一个在数据湖中,一个在三角洲湖中?

2 个答案:

答案 0 :(得分:0)

Delta Lake是产品(如Redshift)而不是概念/方法/理论(如尺寸建模)。 与任何行业的任何产品一样,对该产品提出的某些主张将是真实的,而某些主张将是市场营销活动。所声称的产品利益是否实际上使其优于替代产品,将随用例的不同而变化。

询问为什么除了Delta Lake之外还有其他数据湖解决方案有点像询问为什么世界上有多个DBMS。

答案 1 :(得分:0)

在我个人的情况下,已经有一个数据湖,一个sybase IQ,但与我可以通过spark-delta执行的查询相比,它的性能很差,速度是一个重要因素,而在分区表中,它是非常重要的