使用Azure Data Factory复制和解压缩.tar文件

时间:2018-03-12 12:53:34

标签: azure azure-data-factory azure-data-factory-2

我正在尝试将.tar文件从FTP复制并解压缩到Azure Data Lake Store。 .tar文件包含HTML文件。在复制活动中,在数据集上,我选择压缩类型GZipDeflate,但我想知道我需要使用哪种文件格式?是否支持在没有自定义活动的情况下执行此类操作?

2 个答案:

答案 0 :(得分:2)

不幸的是,Data factory不支持.tar文件的解压缩。支持的ftp类型是GZip,Deflate,BZip2和ZipDeflate。 (如下所示:https://docs.microsoft.com/en-us/azure/data-factory/supported-file-formats-and-compression-codecs#compression-support)。

解决方案可能是将文件保存为其中一种支持的格式,或尝试按此处所述的自定义活动,但我不确定它是否适用于数据工厂v1或v2:{{3} }

希望这有帮助!

答案 1 :(得分:0)

因此,确实无法使用ADF或ADL Analytics解压缩.tar文件,但可以选择从.tar文件中的每个文件中获取内容并将其另存为U-SQL中的输出。 我有一个场景,我需要从.tar文件中的html文件中获取内容,所以我只创建了html提取器,它将获取.tar文件中每个html文件的流内容并保存在U-SQL输出变量中。 也许这可以帮助那些有类似用例的人。 我使用SharpCompress.dll在c#中提取和循环.tar文件。