我有一组8个文件,我想基于某一列的分组依据来获取计数,并且我想将基于id的每个计数的结果存储在单独的数据框中
PartitionFileList.par.foreach(fileName => {
val df: DataFrame = sqlContext.read
.format("com.databricks.spark.csv")
.option("header", true) // Use first line of all files as header
.option("delimiter", TILDE)
.option("inferSchema", "true") // Automatically infer data types
.load(fileName._2)
val aGrpCountsIds = df.groupBy("agrpid").count()
}
每个文件都有agrpid列
因此,在此循环结束时,我希望另一个数据框看起来像这样,我如何实现这一目标
agrpid loccount propertycount det1count det2count
1 10 20 0 30
2 20 12 9 12
3 23 2 2 3
每个计数均通过agrpid表示来自文件组的计数。谢谢