将按ID将多个文件分组的计数存储到单独的数据框scala中

时间:2019-07-12 01:08:52

标签: apache-spark dataframe

我有一组8个文件,我想基于某一列的分组依据来获取计数,并且我想将基于id的每个计数的结果存储在单独的数据框中

PartitionFileList.par.foreach(fileName => {

      val df: DataFrame = sqlContext.read
        .format("com.databricks.spark.csv")
        .option("header", true) // Use first line of all files as header
        .option("delimiter", TILDE)
        .option("inferSchema", "true") // Automatically infer data types
        .load(fileName._2)

      val aGrpCountsIds = df.groupBy("agrpid").count()

}

每个文件都有agrpid列

因此,在此循环结束时,我希望另一个数据框看起来像这样,我如何实现这一目标

agrpid loccount propertycount det1count det2count
   1            10      20          0       30
   2            20      12          9       12      
   3            23      2           2       3

每个计数均通过agrpid表示来自文件组的计数。谢谢

0 个答案:

没有答案