最近Azure announced Data Lake Gen 2预览。据我所知,Gen 1和Gen 2之间的主要区别(就功能而言)是对象存储和文件系统同时访问同一数据。其他区别包括价格,可用位置等。有人可以解释一下Gen 1和Gen 2之间的其他主要区别是什么吗?
答案 0 :(得分:4)
基本上,可以将gen2视为gen1的超集,再加上blob存储的所有最佳部分:层,HDFS和对象存储API,大概可以有效处理超过35K文件的管理并有效处理许多小尺寸文件以及更多的trick写类型的操作..加上它更便宜。
我正在尝试在一些细节上弄清楚一些,但同时也没有找到太多尝试这些链接:
https://azure.microsoft.com/en-us/blog/a-closer-look-at-azure-data-lake-storage-gen2/
https://docs.microsoft.com/en-us/azure/storage/data-lake-storage/introduction
答案 1 :(得分:2)
Azure数据湖存储Gen2是Azure数据湖Gen 1的超集。它也被Microsoft称为“不妥协的数据湖”。第2代扩展了Azure blob存储功能,并且针对分析工作负载进行了最佳优化。它支持一次原子文件和文件夹操作,因此可以一次存储数据,并可以通过现有的Blob存储和符合HDFS的文件系统接口进行访问,而在进行数据库操作时无需进行编程更改或复制数据。
目前,仅在美国西部2和美国中西部数据中心可用。但是据微软称,它将在不久的将来扩展到其他数据中心。
答案 2 :(得分:1)
除以下差异外,使用 ADF 连接 Azure 数据湖分析存储帐户时,我们需要为 Linked Service 选择 Gen1,对于 Blob 或存储帐户,我们需要选择 Gen2。
答案 3 :(得分:0)
有一个Microsoft doc在谈论差异。例如:
数据组织:
Gen1
Gen2
地理冗余:
Gen1
Gen2
生态系统:
Gen1
Gen2
答案 4 :(得分:0)
Azure gen1 与 Hdfs 交互。它支持的原因很少,但存储帐户支持所有区域,并且 r 集成和 Microsoft 都发布了名为 zen2 的新版本 Zen2 它是 blob 存储和 zen1 的组合 这意味着 zen2 构建在 azure blob 存储之上 如果你想创建 zen2 帐户需要去一个存储帐户去提前启用 gen2