我有一个包含大约1 Gb数据的数据框df
。为什么命令df.count()
需要相对较长的时间才能完成,而df.filter(...)
要快得多?有没有更好的方法来估算df
中比df.count()
'
答案 0 :(得分:5)
df.count()
是正确的方法。
请注意,df.filter(...)
是转换,这意味着它很懒,即过滤代码尚未执行。只有在向过滤后的结果中添加{strong> actiton (如count
或collect
)时,才会执行此操作。然后运行时应该类似于对count
的原始调用。