在Apache Spark中通过PySpark进行计算时,在数据帧上执行groupBy

时间:2016-01-07 11:55:09

标签: python apache-spark dataframe pyspark apache-spark-sql

我正在玩Apache spark并遇到以下情况。我有一个名为'数据'的Spark数据帧。看起来像这种格式

Name Grade Count
X     A     10
Y     A     8
X     B     2
Y     B     4

现在,我想通过' Name'分组这个数据框。在计算A级和B级之间的比例时。对于' X'的例子,它将是10/2=5

Name Ratio
X     5
Y     4

PySpark 1.3.0版

1 个答案:

答案 0 :(得分:4)

使用when的简单聚合应该可以正常工作:

from pyspark.sql.functions import col, sum, when

a_count = sum(when(col("grade") == "A", col("count")))
b_count = sum(when(col("grade") == "B", col("count")))

data.groupBy("name").agg((a_count / b_count).alias("ratio"))

join

a = (data_agg.where(col("grade") == "A")
  .groupby("name")
  .agg(sum("count").alias("cnt"))
  .alias("a"))

b = (data_agg.where(col("grade") == "B")
  .groupby("name")
  .agg(sum("count").alias("cnt"))
  .alias("b"))


(a.join(b, col("a.name") == col("b.name"))
    .select(col("a.name"), (col("a.cnt") / col("b.cnt"))).alias("ratio"))