在spark中拆分,操作和联合数据帧

时间:2017-05-03 05:17:12

标签: apache-spark apache-spark-sql apache-spark-mllib

我们如何拆分数据框并对单个拆分进行操作并将所有单个数据帧的结果联合起来?

假设我的数据框有以下列。我需要根据通道拆分数据帧并对各个拆分进行操作,这会添加一个名为bucket的新列。然后我需要将结果联合起来。

帐号,信道,NUMBER_OF_VIEWS

groupBy只允许简单的聚合操作。在每个拆分的数据帧上,我需要进行特征提取。

目前,spark-mllib的所有特征变换器仅支持单个数据帧。

1 个答案:

答案 0 :(得分:-1)

你可以像这样随机分组

val Array(training_data, validat_data, test_data) = raw_data_rating_before_spilt.randomSplit(Array(0.6,0.2,0.2))

这将创建3 df然后d你想要做什么然后你可以加入或联合

val finalDF = df1.join(df2, df1.col("col_name")===df2.col("col_name"))

你也可以同时加入多个df。 这就是你想要的或其他任何东西。??