Azure Data Factory V1-如何在一个管道活动中处理多个脚本

时间:2018-06-27 11:45:19

标签: azure azure-data-factory azure-data-lake u-sql

当前,我正在尝试读取和取消透视Microsoft Azure上具有未知列名的csv文件。因此,我正在使用一个具有两个数据湖分析活动的数据工厂:第一个活动生成一个脚本来读取和取消透视数据,第二个活动只是该脚本的执行。 我的问题是,有时第一个活动生成的脚本太大了

  

”提供的U-SQL脚本长6449969字节,超过了   尺寸         限制为2097152字节。”

我的想法是将它们拆分,但是我认为在1个活动中不能运行1个以上的脚本。由于我不知道该脚本将在多少个聚会中显示,所以我不能仅添加固定数量的活动。

有什么建议吗?

1 个答案:

答案 0 :(得分:1)

目前解决此限制的唯一方法是编写自定义提取器。但是,您将不得不将数据公开而不是字符串,而是字节[]。

如果您使用仅读取字节数组的自定义提取器,则可以增加到4MB。

通常,如果您需要解析行,则编写自定义提取器而不是使用内置提取器,然后编写另一个或两个U-SQL转换来解析数据可能会更快。 (再次)。

您可以参考此仓库以获取一些见解-https://github.com/Azure/usql/tree/mrys-json