如何在不使用count的情况下查找rdd中的记录数?

时间:2016-11-22 10:56:59

标签: scala apache-spark

val sc = new SparkContext("local[*],"name")
val data = sc.textFile(filepath)
println(data.count)

如果我的数据超过一个gb并且我正在使用更多的函数,并且我还使用“rdd.count”再次计算相同数据的子集。我认为它变得很慢。所以有任何解决方案找到记录的数量而不是计数,并且应该比rdd.count

更快

0 个答案:

没有答案