在Azure上的HDInsights群集上使用Data Lake或Blob

时间:2017-11-28 10:15:15

标签: azure hadoop hdinsight azure-data-lake azure-blob-storage

在Azure中创建HDInsights Hadoop集群时,有两个存储选项。 Azure Data Lake Store(ADLS)或Azure Blob存储。

这两个选项之间的真正区别是什么?它们如何影响性能?

我找到了这个页面https://docs.microsoft.com/en-us/azure/data-lake-store/data-lake-store-comparison-with-blob-storage 但它并不是非常具体,只使用非常通用的术语,例如" ADLS针对分析进行了优化"。

这是否意味着它更适合存储HDInsights文件系统?如果ADLS确实更快,那么为什么不将它用于非分析数据?

3 个答案:

答案 0 :(得分:3)

根据此document,Azure存储帐户最多可容纳4.75 TB,但单个blob(或HDInsight透视图中的文件)最多只能达到195 GB。 Azure Data Lake Store可以动态增长以容纳数万亿个文件,单个文件大于1 PB。有关详情,请参阅Understanding blobsData Lake Store

另外,请检查Benefits of Azure StorageUse Data Lake Store以获取更多详细信息和比较。

希望这有帮助。

答案 1 :(得分:1)

除了Ashok的回答:与Azure存储相比,ADLS目前仅在少数地区提供。因此,如果您需要特定区域的HDInsight帐户,则应确保您的存储位于同一区域。

ADLS相对于Azure存储的另一个好处是它在文件/文件夹级别的基于POSIX的安全模型,它使用AAD安全主体而不是共享访问密钥。

您可能不希望将ADLS用于非分析数据的原因主要是成本。由于一些额外的功能,它目前有点贵。

答案 2 :(得分:0)

除了其他答案之外,不能在使用Data Lake作为主存储的HDInsights集群上使用Spark Data Factory活动。此限制适用于ADFv1和v2,如下所示:Minimum system versionhttps://docs.microsoft.com/en-us/azure/data-factory/v1/data-factory-spark