使用group by到spark数据帧后,如何在每个组内使用MinMaxscaler进行规范化?

时间:2017-01-20 07:38:07

标签: scala apache-spark dataframe

通过使用group by,我们得到一个GroupedData,我怎样才能分别实现每组数据的规范化?或者例如,现在我做了类似

的事情
val df_list = trans.map(s => {
             println(s._1.toString)
             val scalerModel = scaler.fit(s._2)
             val scaledData = scalerModel.transform(s._2)
             scaledData})

其中trans是(string,df)的数组,df是带有"特征的数据帧&#34 ;;我可以通过这种方式实现,但效率不高。有没有更好的主意?

0 个答案:

没有答案