Spark中的相关性

时间:2018-11-16 19:17:43

标签: pyspark databricks

我正在尝试获取自变量与目标(y)的相关性。 我正在使用Spark的ML libray。

具体地说,我有一个运行VectorAssembler的spark数据框。我最后有两列:目标,功能 目标(与y相同)由浮点数组成,用于线性回归。

此代码有效:

from pyspark.ml.stat import Correlation
corr_matrix = Correlation.corr(df, "features")

这将给我一个矩阵num_features x num_features。我想在目标和所有功能之间建立关联,以便最终得到大小为1 x num_features的向量。

我真的不能进入for循环,因为我有上千种功能,而且它永远都在花。 我可以自己编写函数来计算相关性,但是我想让所有事情都保持活力,而不必使用numpy或在数组中提取数据。

有人对如何进行有想法吗?谢谢您的帮助

0 个答案:

没有答案