应用错误收集

计算数据框中条目数的更快方法是什么？

时间：2017-05-24 08:23:01

标签： scala apache-spark apache-spark-sql

我有一个包含大约1 Gb数据的数据框df。为什么命令df.count()需要相对较长的时间才能完成，而df.filter(...)要快得多？有没有更好的方法来估算df中比df.count()＆＃39;

更快的条目数

1 个答案:

答案 0 :(得分：5)

df.count()是正确的方法。请注意，df.filter(...)是转换，这意味着它很懒，即过滤代码尚未执行。只有在向过滤后的结果中添加{strong> actiton （如count或collect）时，才会执行此操作。然后运行时应该类似于对count的原始调用。