如何管理从SFTP到HDFS的压缩文件

时间:2018-09-25 16:18:21

标签: azure azure-data-factory-2

我正在建立从SFTP到Azure Data Lake HDFS的复制管道。 SFTP文件已压缩,并包含多个csv文件,因此在“数据集”选项中,我将ZipDeflate设置为压缩类型。 管道正常工作,但是我不明白为什么它在接收器数据集(Azure Data Lake)中使用相同的zip文件名创建了一个文件夹。 我的意思是:如果STFP文件名是foobar.zip,则在Azure Data Lake中,所有csv文件都将复制到/path/to/my/folder/foobar.zip/001.csv、/path/to/my/folder/ foob​​ar.zip/002.csv等。 真正的问题是,我在源SFTP中有几个zip文件,并且我使用通配符将所有zip文件复制,但是我想将所有生成的csv文件存储在单个目标文件夹中,但这似乎不是可能。

例如:

  • SFTP包含:foobar_01.zip,foobar_02.zip
  • 我使用文件通配符:foobar * .zip
  • 我使用压缩类型:ZipDeflate
  • 在Azure数据湖中 文件复制到/path/to/my/folder/foobar_01.zip/*.csv中, /path/to/my/folder/foobar_02.zip/.csv

是否可以解决和收集/path/to/my/folder/*.csv中的所有csv文件?

谢谢

0 个答案:

没有答案