我需要使用数据帧计数作为除数来计算百分比。
这就是我在做什么:
scala> val df = Seq(1,1,1,2,2,3).toDF("value")
scala> val overallCount = df.count
scala> df.groupBy("value")
.agg( count(lit(1)) / overallCount )
但是我想避免执行操作df.count
,因为它将立即进行评估。
累加器将无济于事,因为它们将被提前评估。
是否可以对数据帧执行延迟计数?
答案 0 :(得分:3)
除了使用Dataset.count
之外,您还可以使用简单的查询
val overallCount = df.select(count($"*") as "overallCount")
及以后的crossJoin
df
.groupBy("value")
.agg(count(lit(1)) as "groupCount")
.crossJoin(overallCount)
.select($"value", $"groupCount" / $"overallCount")