我正在尝试在Azure数据工厂管道中实现以下流程:
第一步很简单,使用“复制数据”步骤,将“ SFTP”作为源,将“文件系统”作为接收器。
正在复制文件,但是在此步骤的输出中,我看不到任何文件信息。
我也看不到使用上一步中的数据创建文件的选项。
也许我使用了错误的技术? 我使用Azure Data Factory的原因之一是因为集成运行时,它使我们可以使用单个固定IP来连接到外部SFTP。 (更轻松的防火墙配置)
是否可以实施第2步?
感谢您的见解!
答案 0 :(得分:1)
没有内置功能可以实现这一目标。
您需要将ADF与其他服务一起使用,我想您首先要使用azure函数检查文件,然后再进行复制。
结构应如下所示:
您可以获取文件的大小并将其保存到csv文件中:
获取文件大小(python):
How to fetch sizes of all SFTP files in a directory through Paramiko
并使用熊猫将邮件另存为csv(python):
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_csv.html
Writing a pandas DataFrame to CSV file
azure函数的简单http触发器(python):
(将处理逻辑放在azure函数的主体中。基本上,您可以在azure函数的主体中做任何您想做的事情,除了图形界面和一些不受支持的事情。您可以选择熟悉的语言,但总之,ADF中没有一个功能可以满足您的想法。)