标签: scala apache-spark
val sc = new SparkContext("local[*],"name") val data = sc.textFile(filepath) println(data.count)
如果我的数据超过一个gb并且我正在使用更多的函数,并且我还使用“rdd.count”再次计算相同数据的子集。我认为它变得很慢。所以有任何解决方案找到记录的数量而不是计数,并且应该比rdd.count