我们从多个客户处提取数据,并且无法控制数据格式。数据属于同一主题,但是文件名,列名,标题和行标题都是可变的。 数据流映射中的模式漂移功能看起来像它将处理变量文件和列名,但是我不确定如何最好地处理列标题可能位于第1或2或10等行这一事实。 以前我们使用一些Python代码来解决这个问题,Data Factory中是否有任何功能可以适应这种程度的可变性?
答案 0 :(得分:0)
您将需要一个规则来确定具有标题的行。然后,您可以使用Filter转换从数据行中过滤出标题行。
但是,如果您需要流中标头的名称,则需要首先通过单独的数据流运行该文件,该数据流将标头行作为第一行来重写文件。
您可以通过在数据流中添加2个源(均指向同一文件)来实现。然后,从一个来源过滤掉标题行,然后在第二个来源过滤掉标题行。
将这两个流合并在一起,并写入接收器中的新文件。