当前,我正在尝试读取和取消透视Microsoft Azure上具有未知列名的csv文件。因此,我正在使用一个具有两个数据湖分析活动的数据工厂:第一个活动生成一个脚本来读取和取消透视数据,第二个活动只是该脚本的执行。 我的问题是,有时第一个活动生成的脚本太大了
”提供的U-SQL脚本长6449969字节,超过了 尺寸 限制为2097152字节。”
我的想法是将它们拆分,但是我认为在1个活动中不能运行1个以上的脚本。由于我不知道该脚本将在多少个聚会中显示,所以我不能仅添加固定数量的活动。
有什么建议吗?
答案 0 :(得分:1)
目前解决此限制的唯一方法是编写自定义提取器。但是,您将不得不将数据公开而不是字符串,而是字节[]。
如果您使用仅读取字节数组的自定义提取器,则可以增加到4MB。
通常,如果您需要解析行,则编写自定义提取器而不是使用内置提取器,然后编写另一个或两个U-SQL转换来解析数据可能会更快。 (再次)。
您可以参考此仓库以获取一些见解-https://github.com/Azure/usql/tree/mrys-json