在Azure中创建HDInsights Hadoop集群时,有两个存储选项。 Azure Data Lake Store(ADLS)或Azure Blob存储。
这两个选项之间的真正区别是什么?它们如何影响性能?
我找到了这个页面https://docs.microsoft.com/en-us/azure/data-lake-store/data-lake-store-comparison-with-blob-storage 但它并不是非常具体,只使用非常通用的术语,例如" ADLS针对分析进行了优化"。
这是否意味着它更适合存储HDInsights文件系统?如果ADLS确实更快,那么为什么不将它用于非分析数据?
答案 0 :(得分:3)
根据此document,Azure存储帐户最多可容纳4.75 TB,但单个blob(或HDInsight透视图中的文件)最多只能达到195 GB。 Azure Data Lake Store可以动态增长以容纳数万亿个文件,单个文件大于1 PB。有关详情,请参阅Understanding blobs和Data Lake Store。
另外,请检查Benefits of Azure Storage和Use Data Lake Store以获取更多详细信息和比较。
希望这有帮助。
答案 1 :(得分:1)
除了Ashok的回答:与Azure存储相比,ADLS目前仅在少数地区提供。因此,如果您需要特定区域的HDInsight帐户,则应确保您的存储位于同一区域。
ADLS相对于Azure存储的另一个好处是它在文件/文件夹级别的基于POSIX的安全模型,它使用AAD安全主体而不是共享访问密钥。
您可能不希望将ADLS用于非分析数据的原因主要是成本。由于一些额外的功能,它目前有点贵。
答案 2 :(得分:0)
除了其他答案之外,不能在使用Data Lake作为主存储的HDInsights集群上使用Spark Data Factory活动。此限制适用于ADFv1和v2,如下所示:和https://docs.microsoft.com/en-us/azure/data-factory/v1/data-factory-spark