从Data Lake Store

时间:2018-04-08 12:36:37

标签: azure-data-lake azure-analysis-services

我是分析服务和数据湖的新手,在POC上工作。我已经使用数据工厂从blob存储中提取一些TSV数据,blob存储在逻辑上被组织为小的“分区”blob(数千个blob)。我有一个根文件夹,可以被认为包含整个表,包含逻辑上代表客户分区的子文件夹 - 这些子文件夹包含逻辑上表示按照日期对客户数据进行分区的子文件夹。我想将整个文件夹/ blob结构建模为Analysis Services中的一个表,但似乎无法弄清楚如何。我已经看过从单个ADLS文件创建单个AAS表的博客文章和示例,但有关其他数据文件布局的信息似乎很少。我的做法是错误的,还是我错过了一些明显的东西?

1 个答案:

答案 0 :(得分:0)

blog post提供有关将多个blob附加到单个表中的说明。

然后part 3 blog post 描述了创建一些Analysis Services分区以提高处理性能。

最后,此blog post描述了连接到Azure Data Lake Store(与之前帖子中的Azure Blob存储相对)。

我会使用这些方法在Azure Analysis Services中创建20-200个分区(而不是数千个)。分区通常应至少为800万行,以获得最佳压缩和性能。我假设需要将几个blob附加在一起才能达到这个大小。