第一代Azure Data Lake与第二代

时间:2018-08-10 08:46:21

标签: azure azure-data-lake

最近Azure announced Data Lake Gen 2预览。据我所知,Gen 1和Gen 2之间的主要区别(就功能而言)是对象存储和文件系统同时访问同一数据。其他区别包括价格,可用位置等。有人可以解释一下Gen 1和Gen 2之间的其他主要区别是什么吗?

5 个答案:

答案 0 :(得分:4)

基本上,可以将gen2视为gen1的超集,再加上blob存储的所有最佳部分:层,HDFS和对象存储API,大概可以有效处理超过35K文件的管理并有效处理许多小尺寸文件以及更多的trick写类型的操作..加上它更便宜。

我正在尝试在一些细节上弄清楚一些,但同时也没有找到太多尝试这些链接:

https://azure.microsoft.com/en-us/blog/a-closer-look-at-azure-data-lake-storage-gen2/

https://docs.microsoft.com/en-us/azure/storage/data-lake-storage/introduction

答案 1 :(得分:2)

Azure数据湖存储Gen2是Azure数据湖Gen 1的超集。它也被Microsoft称为“不妥协的数据湖”。第2代扩展了Azure blob存储功能,并且针对分析工作负载进行了最佳优化。它支持一次原子文件和文件夹操作,因此可以一次存储数据,并可以通过现有的Blob存储和符合HDFS的文件系统接口进行访问,而在进行数据库操作时无需进行编程更改或复制数据。
目前,仅在美国西部2和美国中西部数据中心可用。但是据微软称,它将在不久的将来扩展到其他数据中心。

答案 2 :(得分:1)

除以下差异外,使用 ADF 连接 Azure 数据湖分析存储帐户时,我们需要为 Linked Service 选择 Gen1,对于 Blob 或存储帐户,我们需要选择 Gen2。

答案 3 :(得分:0)

有一个Microsoft doc在谈论差异。例如:

数据组织:

Gen1

  • 分层命名空间,文件和文件夹支持。

Gen2

  • 分层名称空间,容器,文件和文件夹支持

地理冗余:

Gen1

  • LRS。

Gen2

  • LRS,ZRS,GRS,RA-GRS。

生态系统:

Gen1

  • HDInsight(3.6),Azure Databricks(3.1及更高版本),SQL DW,ADF

Gen2

  • HDInsight(3.6、4.0),Azure Databricks(5.1及更高版本),SQL DW,ADF

答案 4 :(得分:0)

Azure gen1 与 Hdfs 交互。它支持的原因很少,但存储帐户支持所有区域,并且 r 集成和 Microsoft 都发布了名为 zen2 的新版本 Zen2 它是 blob 存储和 zen1 的组合 这意味着 zen2 构建在 azure blob 存储之上 如果你想创建 zen2 帐户需要去一个存储帐户去提前启用 gen2