Pyspark - 多列聚合

时间:2016-03-27 18:28:08

标签: python python-2.7 apache-spark pyspark

我有如下数据。文件名:babynames.csv。

year    name    percent     sex
1880    John    0.081541    boy
1880    William 0.080511    boy
1880    James   0.050057    boy

我需要根据年份和性别对输入进行排序,我希望输出汇总如下(此输出将分配给新的RDD)。

year    sex   avg(percentage)   count(rows)
1880    boy   0.070703         3

我不确定在pyspark中执行以下步骤后如何继续。需要你的帮助

testrdd = sc.textFile("babynames.csv");
rows = testrdd.map(lambda y:y.split(',')).filter(lambda x:"year" not in x[0])
aggregatedoutput = ????

1 个答案:

答案 0 :(得分:18)

  1. 按照the README的说明添加spark-csv package
  2. 加载数据

    df = (sqlContext.read
        .format("com.databricks.spark.csv")
        .options(inferSchema="true", delimiter=";", header="true")
        .load("babynames.csv"))
    
  3. 导入所需的功能

    from pyspark.sql.functions import count, avg
    
  4. 分组依据和汇总(可选择使用Column.alias

    df.groupBy("year", "sex").agg(avg("percent"), count("*"))
    
  5. <强>替代地

    • percent投射到数字
    • 重塑为一种格式((yearsex),percent
    • aggregateByKey使用pyspark.statcounter.StatCounter