Azure数据湖分析和天蓝色数据库都可用于批处理。有谁可以帮我理解何时选择一个而不是另一个?
答案 0 :(得分:27)
在我的拙见中,很多都归结为现有的技能组合。如果你有一个经验丰富的Spark,Java,Python,r或Scala团队,那么Databricks很自然。另一方面,如果你有一个拥有现有SQL和c#技能的团队,那么使用U-SQL的学习曲线将不那么陡峭。
除此之外,还有其他问题可以消除分歧:
2018年10月更新:
据我所知,U-SQL目前不支持ADLS Gen 2,它会反对它(很乐意纠正)。我会更新帖子 if 以及何时添加该支持。
2019年1月更新: 自Spring 2018以来,U-SQL没有任何有意义的更新。
HTH
答案 1 :(得分:1)
数据块 具有更多语言选项,允许具有不同技能的专业人员来处理数据。此外,借助数据块,您还可以使用高性能的内存群集来运行作业。
在一个项目中,我们更多地使用数据湖作为存储,并通过databricks笔记本完成所有工作(ETL,分析)。在数据湖中存储数据要便宜一些。
回到您的问题,如果复杂的批处理作业和其他类型的专业人员可以处理您的数据。您可以选择Azure Data Lake + Databricks体系结构。否则,Azure数据湖将满足您的需求。
看看这2篇文章会有所帮助。 https://databricks.com/glossary/data-lake https://visualbi.com/blogs/microsoft/azure/etl-azure-databricks-vs-data-lake-analytics/