Data Lake中的数据保留政策

时间:2017-02-19 11:07:03

标签: azure-data-lake

我是Azure Data Lake世界的新手,因此正在寻找数据湖的规划用例和注意事项。我找到了一个很好的链接,发现安静有用。   http://www.sqlchick.com/entries/2016/7/31/data-lake-use-cases-and-planning

目前,我不确定的一件事是Data Lake中的数据保留政策。有人说数据不应该从数据湖中删除/清除,而很少有人有不同的意见。

那么,对于任何数据湖中的数据保留策略(存档,清除),我们需要遵循哪些具体和基本的考虑因素?我理解用例将是这方面的决定性因素,但在决定之前是否有任何高级别的考虑因素,是我的问题。

谢谢,

2 个答案:

答案 0 :(得分:2)

我认为你的主要因素是:

  1. 是否有法律义务使数据到期?
  2. 数据到期是否有成本原因?
  3. 是否存在陈旧因素,您不再关心旧数据(并且以后愿意被证明是错误的)?

答案 1 :(得分:0)

定价也可能是一个因素:

Azure Data Lake Store上的10TB - 每月390美元

Azure Blob存储上的10TB - 每月152美元

对于与删除碎片相关的问题,类似于RDBMS数据仓库,我不知道任何问题。

去年十月,梅利莎科茨在那篇文章上做得很好。谢谢你的分享。