应用错误收集

时间：2018-06-27 11:45:19

标签： azure azure-data-factory azure-data-lake u-sql

当前，我正在尝试读取和取消透视Microsoft Azure上具有未知列名的csv文件。因此，我正在使用一个具有两个数据湖分析活动的数据工厂：第一个活动生成一个脚本来读取和取消透视数据，第二个活动只是该脚本的执行。我的问题是，有时第一个活动生成的脚本太大了

”提供的U-SQL脚本长6449969字节，超过了尺寸限制为2097152字节。”

我的想法是将它们拆分，但是我认为在1个活动中不能运行1个以上的脚本。由于我不知道该脚本将在多少个聚会中显示，所以我不能仅添加固定数量的活动。

有什么建议吗？

答案 0 :(得分：1)

目前解决此限制的唯一方法是编写自定义提取器。但是，您将不得不将数据公开而不是字符串，而是字节[]。

如果您使用仅读取字节数组的自定义提取器，则可以增加到4MB。

通常，如果您需要解析行，则编写自定义提取器而不是使用内置提取器，然后编写另一个或两个U-SQL转换来解析数据可能会更快。（再次）。

您可以参考此仓库以获取一些见解-https://github.com/Azure/usql/tree/mrys-json