如何在azure数据工厂中处理可变列标题(行位置)

时间:2019-06-03 15:04:30

标签: azure azure-data-factory azure-data-factory-2

我们从多个客户处提取数据,并且无法控制数据格式。数据属于同一主题,但是文件名,列名,标题和行标题都是可变的。 数据流映射中的模式漂移功能看起来像它将处理变量文件和列名,但是我不确定如何最好地处理列标题可能位于第1或2或10等行这一事实。 以前我们使用一些Python代码来解决这个问题,Data Factory中是否有任何功能可以适应这种程度的可变性?

1 个答案:

答案 0 :(得分:0)

您将需要一个规则来确定具有标题的行。然后,您可以使用Filter转换从数据行中过滤出标题行。

但是,如果您需要流中标头的名称,则需要首先通过单独的数据流运行该文件,该数据流将标头行作为第一行来重写文件。

您可以通过在数据流中添加2个源(均指向同一文件)来实现。然后,从一个来源过滤掉标题行,然后在第二个来源过滤掉标题行。

将这两个流合并在一起,并写入接收器中的新文件。