标签: amazon-web-services pyspark
我正在使用pyspark处理来自S3存储桶的数据。当我在数据框上使用count()时,输出约为450万行。但是,使用len(df.collect())返回的计数为130万行。可能是什么问题?
已编辑以显示代码,尽管我不知道它将有多大帮助 编辑2:一个接一个地执行会导致此问题吗?
df.count() # prints out 4513909 a = df.collect() print(len(a)) # prints out 1405367