USQL查询大文件

时间:2017-02-21 11:45:42

标签: azure-data-lake u-sql

我在Azure Data Lake商店中有一个非常大的文件(257 gb),当我试图在它上面做一个简单的提取时,我得到了以下错误

  

顶点运行超过5小时后终止。带有guid的顶点SV1_Extract_Partition [0] [53] .v0的输入大小   {2F8802B8-F93A-47EE-80E2-274590BD76A5}是1.171594 GB。多数情况   这种情况,这是由数据偏差引起的,例如一个数据分区   包含大部分数据。使用不同的分区方案或   重新分区数据可以解决此类问题。

所以我非常确定发生的事情是U-SQL没有正确地对我的文件进行分区。我使用的是自定义书面提取器,但我不知道为什么会出现问题。

如何确保对文件进行分区。这个错误花了我很多钱(超过2000美元),所以我真的不希望再次运行这个规模的任何东西,然后才能确保我的文件在作业运行时被正确分区。

我是否真的必须手动将文件拆分为较小的文件?

1 个答案:

答案 0 :(得分:1)

大约1GB的分区大小似乎正常。问题可能在于您的自定义提取器,它确实处理了超过5小时的数据。

我建议调查一下你的提取器在文件的特定分区上做了什么。