Azure Data Lake:如何获取已处理文件

时间:2018-05-02 04:41:45

标签: c# azure azure-data-lake data-lake

我刚刚开始使用Data Lake,我正在尝试找出真正的工作流程步骤以及如何自动化整个过程。 假设我有一些文件作为输入,我想处理它们并下载输出文件,以便进入我的数据仓库或/和SSAS。

我找到了绝对可爱的API,这一切都很好,但我找不到一种方法来获取目录中的所有文件名,以便进一步下载。

请更正我对工作流程的看法。是否有另一种更优雅的方法可以自动将所有已处理的数据(输出)存入存储(如传统的SQL Server,SSAS,数据仓库等)?

如果您有基于Data Lake的工作解决方案,请用几句话描述工作流程(从“原始”文件到最终用户的报告)。

这是我的NET核心应用程序的例子

using Microsoft.Azure.DataLake.Store;
using Microsoft.IdentityModel.Clients.ActiveDirectory;
using Microsoft.Rest.Azure.Authentication;
            var creds = new ClientCredential(ApplicationId, Secret);
            var clientCreds = ApplicationTokenProvider.LoginSilentAsync(Tenant, creds).GetAwaiter().GetResult();
            var client = AdlsClient.CreateClient("myfirstdatalakeservice.azuredatalakestore.net", clientCreds);
            var result = client.GetDirectoryEntry("/mynewfolder", UserGroupRepresentation.ObjectID);

1 个答案:

答案 0 :(得分:1)

  

假设我有一些文件作为输入,我想处理它们并下载输出文件以便进入我的数据仓库或/和SSAS。

如果要将文件从azure datalake下载到本地路径,可以使用以下代码执行此操作。

client.BulkDownload("/mynewfolder", @"D:\Tom\xx"); //local path

但根据我的理解,您可以使用azure datafactory将数据从datalake商店推送到azure storage blob或azure file storge。