计算数据框中条目数的更快方法是什么?

时间:2017-05-24 08:23:01

标签: scala apache-spark apache-spark-sql

我有一个包含大约1 Gb数据的数据框df。为什么命令df.count()需要相对较长的时间才能完成,而df.filter(...)要快得多?有没有更好的方法来估算df中比df.count()'

更快的条目数

1 个答案:

答案 0 :(得分:5)

df.count()是正确的方法。 请注意,df.filter(...)转换,这意味着它很懒,即过滤代码尚未执行。只有在向过滤后的结果中添加{strong> actiton (如countcollect)时,才会执行此操作。然后运行时应该类似于对count的原始调用。