使用count()与collect()时行数不一致

时间:2019-11-13 07:29:03

标签: amazon-web-services pyspark

我正在使用pyspark处理来自S3存储桶的数据。当我在数据框上使用count()时,输出约为450万行。但是,使用len(df.collect())返回的计数为130万行。可能是什么问题?

已编辑以显示代码,尽管我不知道它将有多大帮助 编辑2:一个接一个地执行会导致此问题吗?

df.count()
# prints out 4513909

a = df.collect()
print(len(a))
# prints out 1405367

0 个答案:

没有答案