Azure Data Lake Gen2与存储帐户

时间:2020-06-03 15:19:35

标签: azure azure-storage azure-data-lake azure-databricks

我需要处理一些大数据,并计划部署Databricks集群和存储技术。当前正在评估同时支持对象和文件存储的Data Lake Gen2。存储帐户(blob,文件,表,队列)也具有类似的功能,可以处理基于文件和基于对象的存储需求。由于这些相似之处,我有点不知所措。有人可以澄清以下问题吗?

  1. 除了HDFS支持外,我还应该对存储帐户使用Data Lake Gen2的一个重要功能吗?
  2. 已启用分层名称空间的存储帐户v2 == Data Lake Gen2。如果是这样,我是否可以使用文件系统来创建文件共享并将其像在Storage acc的文件系统中一样安装到我的VM中?
  3. 对于从Databricks访问数据,这两种方法中的哪一种将更适合大数据工作负载。我可以看到存储帐户也可以作为DBFS挂载,它仍然可以利用分布式处理。

1 个答案:

答案 0 :(得分:1)

除了对HDFS的支持外,我还应该做哪些重要功能? 对存储帐户使用Data Lake Gen2?

答案:还有其他好处。简而言之,好处是性能/管理/安全性以及成本。有关更多详细信息,请参阅this official article

已启用分层名称空间的存储帐户v2 ==数据湖 Gen2。如果是这样,我可以使用文件系统创建文件共享并挂载吗? 它们在我的VM中就像存储acc的文件系统一样?

答案:当然,ADLS Gen2支持文件共享挂载,就像blob存储一样。

要从Databricks访问数据,这两个将是其中之一 更适合大数据工作负载。我可以看到存储帐户也可以 作为DBFS安装,仍然可以利用分布式处理。

答案:ADLS Gen2也可以是mounted as DBFS。根据答案1,最好是ADLS Gen2。