我有一个带距离列的数据框:
+++++++++++++++++++
| distance |
+++++++++++++++++++
| 12.25 |
| 14.2 |
| 1.22 |
| 7.158 |
++++++++++++++++++++
我想将数据分为测试数据和训练数据。 我使用了这段代码
val splits = df_f.cache().randomSplit(Array(0.6, 0.4), seed = 11L)
val training = splits(0)
val test = splits(1)
并计算训练数据和变换测试数据的平均值和标准偏差。
如何使用scala计算训练数据的平均值和标准偏差并将其应用于测试数据