应用错误收集

使用count（）与collect（）时行数不一致

时间：2019-11-13 07:29:03

标签： amazon-web-services pyspark

我正在使用pyspark处理来自S3存储桶的数据。当我在数据框上使用count（）时，输出约为450万行。但是，使用len（df.collect（））返回的计数为130万行。可能是什么问题？

已编辑以显示代码，尽管我不知道它将有多大帮助编辑2：一个接一个地执行会导致此问题吗？

df.count()
# prints out 4513909

a = df.collect()
print(len(a))
# prints out 1405367

0 个答案:

没有答案