应用错误收集

使用group by到spark数据帧后，如何在每个组内使用MinMaxscaler进行规范化？

时间：2017-01-20 07:38:07

标签： scala apache-spark dataframe

通过使用group by，我们得到一个GroupedData，我怎样才能分别实现每组数据的规范化？或者例如，现在我做了类似

的事情

val df_list = trans.map(s => {
             println(s._1.toString)
             val scalerModel = scaler.fit(s._2)
             val scaledData = scalerModel.transform(s._2)
             scaledData})

其中trans是（string，df）的数组，df是带有＆＃34;特征的数据帧＆＃34 ;;我可以通过这种方式实现，但效率不高。有没有更好的主意？

0 个答案:

没有答案