我需要处理一些大数据,并计划部署Databricks集群和存储技术。当前正在评估同时支持对象和文件存储的Data Lake Gen2。存储帐户(blob,文件,表,队列)也具有类似的功能,可以处理基于文件和基于对象的存储需求。由于这些相似之处,我有点不知所措。有人可以澄清以下问题吗?
答案 0 :(得分:1)
除了对HDFS的支持外,我还应该做哪些重要功能? 对存储帐户使用Data Lake Gen2?
答案:还有其他好处。简而言之,好处是性能/管理/安全性以及成本。有关更多详细信息,请参阅this official article。
已启用分层名称空间的存储帐户v2 ==数据湖 Gen2。如果是这样,我可以使用文件系统创建文件共享并挂载吗? 它们在我的VM中就像存储acc的文件系统一样?
答案:当然,ADLS Gen2支持文件共享挂载,就像blob存储一样。
要从Databricks访问数据,这两个将是其中之一 更适合大数据工作负载。我可以看到存储帐户也可以 作为DBFS安装,仍然可以利用分布式处理。
答案:ADLS Gen2也可以是mounted as DBFS。根据答案1,最好是ADLS Gen2。