在嵌套文件夹datalake gen2中查找最新文件

时间:2020-10-19 18:25:44

标签: java azure azure-functions azure-data-factory azure-data-factory-pipeline

我将.csv文件手动加载到嵌套目录结构vi中的Azure数据湖Gen2中。

myfolder / yyyy / mm / dd / example.csv

我需要以这样的方式查找最新文件,例如存在2020和2021,并且已经复制了2020 / MM / dd中的.csv文件,然后我首先要检查2021是否当前->进入该目录--->列出月份目录->获取自上次复制以来的最新月份--->进入该列表,并获取自上次复制以来的最新一天--->然后复制.csv文件在里面。

例如,我从2020文件夹复制,然后在2023年复制,然后我需要从年份开始复制每个目录中的2021 / MM / dd和2022 / MM / dd,依此类推,例如从2021年的月份和自上次修改以来存在层层数据的日期

总之从yyyy

  • 获取自上一副本以来的最新年份
  • 获取最新的月份
  • 获取月份容器中的最新日期
  • 获取文件的名称并输出以进行进一步的处理

是否可以通过datafactory进行此操作,然后将嵌套结构内的.ini / csv文件名的输出文件/列表提供给azure函数,以便我随后可以解析该文件?

0 个答案:

没有答案