我可以有任何关于Azure Data Lake Internals的书吗?

时间:2017-02-22 10:57:23

标签: azure-data-lake u-sql

我不想将ADL和ADLA用作黑匣子。我需要了解齿轮如何旋转发动机罩以便以有效的方式使用它。

我可以在哪里找到描述内部信息的信息:

  1. 如何处理U-SQL查询
  2. 如何处理并行性
  3. 如何在ADL中以低级别组织存储
  4. 如何在ADL中以低级别(是行存储或列存储)组织DB的存储
  5. 分区的组织方式
  6. 有很多书和whitepapper描述了RDBMS引擎的内部结构。 ADL / ADLA是否存在?

    有很多人在Azure工作。你能否按原样发布任何草稿/白纸(无声)。

2 个答案:

答案 0 :(得分:6)

我们提供的演示文稿中提供了部分信息。例如,您可以在我的slidehare帐户中找到其中一些演示文稿:http://www.slideshare.net/MichaelRys

回答上面的一些问题:

U-SQL表的当前聚簇索引版本存储在结构化为所谓的结构化流文件的目录文件夹中。这些是高度可压缩的扩展文件,它们使用具有自包含元数据和统计信息的行导向结构(可以创建更详细的统计信息)。表构造提供2级分区:可寻址分区和内部分配方案(HASH,RANGE等)。两者都有助于并行化,尽管分配方案更多地用于性能,而分区更多用于数据生命周期管理。它们没有限制,尽管每个分配桶的最佳点是1GB到4GB。

1 AU基本上是1个容器。并且ADLS在架构上不是HDFS,而是提供WebHDFS API以实现兼容性。

答案 1 :(得分:1)

这是一个非常广泛的问题。我假设你已经开始使用有关ADLA和U-SQL的现有文档了吗? https://docs.microsoft.com/en-us/azure/data-lake-analytics/ https://msdn.microsoft.com/library/azure/mt591959

2016年11月的ADLA GA与1987年的SQL Server相比 - 这是苹果和橘子的比较。

也许我们可以从您的具体问题开始?