应用错误收集

我在Azure Data Lake商店中有一个非常大的文件（257 gb），当我试图在它上面做一个简单的提取时，我得到了以下错误

顶点运行超过5小时后终止。带有guid的顶点SV1_Extract_Partition [0] [53] .v0的输入大小 {2F8802B8-F93A-47EE-80E2-274590BD76A5}是1.171594 GB。多数情况这种情况，这是由数据偏差引起的，例如一个数据分区包含大部分数据。使用不同的分区方案或重新分区数据可以解决此类问题。

所以我非常确定发生的事情是U-SQL没有正确地对我的文件进行分区。我使用的是自定义书面提取器，但我不知道为什么会出现问题。

如何确保对文件进行分区。这个错误花了我很多钱（超过2000美元），所以我真的不希望再次运行这个规模的任何东西，然后才能确保我的文件在作业运行时被正确分区。

我是否真的必须手动将文件拆分为较小的文件？

USQL查询大文件

1 个答案: