SPARK DataFrame:如何根据相同的列值有效地分割每个组的数据帧

时间:2017-01-15 17:19:51

标签: scala apache-spark apache-spark-sql spark-dataframe parquet

我生成的DataFrame如下:

df.groupBy($"Hour", $"Category")
  .agg(sum($"value").alias("TotalValue"))
  .sort($"Hour".asc,$"TotalValue".desc))

结果如下:

+----+--------+----------+
|Hour|Category|TotalValue|
+----+--------+----------+
|   0|   cat26|      30.9|
|   0|   cat13|      22.1|
|   0|   cat95|      19.6|
|   0|  cat105|       1.3|
|   1|   cat67|      28.5|
|   1|    cat4|      26.8|
|   1|   cat13|      12.6|
|   1|   cat23|       5.3|
|   2|   cat56|      39.6|
|   2|   cat40|      29.7|
|   2|  cat187|      27.9|
|   2|   cat68|       9.8|
|   3|    cat8|      35.6|
| ...|    ....|      ....|
+----+--------+----------+

我想基于col("Hour")的每个唯一值创建新的数据帧,即

  • 为小时组== 0
  • 表示小时组== 1
  • 表示小时组== 2 等等...

所以期望的输出是:

df0 as:

+----+--------+----------+
|Hour|Category|TotalValue|
+----+--------+----------+
|   0|   cat26|      30.9|
|   0|   cat13|      22.1|
|   0|   cat95|      19.6|
|   0|  cat105|       1.3|
+----+--------+----------+

df1 as:
+----+--------+----------+
|Hour|Category|TotalValue|
+----+--------+----------+
|   1|   cat67|      28.5|
|   1|    cat4|      26.8|
|   1|   cat13|      12.6|
|   1|   cat23|       5.3|
+----+--------+----------+

同样地,

df2 as:

+----+--------+----------+
|Hour|Category|TotalValue|
+----+--------+----------+
|   2|   cat56|      39.6|
|   2|   cat40|      29.7|
|   2|  cat187|      27.9|
|   2|   cat68|       9.8|
+----+--------+----------+

非常感谢任何帮助。

编辑1:

我尝试过:

df.foreach(
  row => splitHour(row)
  )

def splitHour(row: Row) ={
    val Hour=row.getAs[Long]("Hour")

    val HourDF= sparkSession.createDataFrame(List((s"$Hour",1)))

    val hdf=HourDF.withColumnRenamed("_1","Hour_unique").drop("_2")

    val mydf: DataFrame =df.join(hdf,df("Hour")===hdf("Hour_unique"))

    mydf.write.mode("overwrite").parquet(s"/home/dev/shaishave/etc/myparquet/$Hour/")
  }

这个策略存在的问题:

在一个数据帧df上运行需要8个小时,该数据帧有超过100万行,并且在单个节点上为10 GB RAM提供了火花作业。因此,join变得非常低效。

警告:我必须将每个数据框mydf写为镶木地板,其中包含需要维护(不展平)的嵌套模式。

4 个答案:

答案 0 :(得分:6)

正如我的评论中所指出的,解决这个问题的一个可能很容易的方法是使用:

df.write.partitionBy("hour").saveAsTable("myparquet")

如上所述,文件夹结构为myparquet/hour=1myparquet/hour=2,...,myparquet/hour=24,而不是myparquet/1myparquet/2,... ,myparquet/24

要更改文件夹结构,您可以

  1. 可以在显式HiveContext中使用Hive配置设置hcat.dynamic.partitioning.custom.pattern;有关HCatalog DynamicPartitions的更多信息。
  2. 另一种方法是在执行df.write.partitionBy.saveAsTable(...)命令之后直接更改文件系统,例如for f in *; do mv $f ${f/${f:0:5}/} ; done,这将删除文件夹名称中的Hour=文本。
  3. 请务必注意,通过更改文件夹的命名模式,当您在该文件夹中运行spark.read.parquet(...)时,Spark将不会自动理解动态分区,因为它缺少partitionKey(即{{1} })信息。

答案 1 :(得分:3)

答案 2 :(得分:1)

另一种可能的解决方案:

df.write.mode("overwrite").partitionBy("hour").parquet("address/to/parquet/location")

这类似于第一个答案,除了使用 parquet 和使用 mode("overwrite")

答案 3 :(得分:-1)

//If you want to divide a dataset into n number of equal datasetssets
double[] arraySplit = {1,1,1...,n}; //you can also divide into ratio if you change the numbers.

List<Dataset<String>> datasetList = dataset.randomSplitAsList(arraySplit,1);