我正在尝试获取自变量与目标(y)的相关性。 我正在使用Spark的ML libray。
具体地说,我有一个运行VectorAssembler的spark数据框。我最后有两列:目标,功能 目标(与y相同)由浮点数组成,用于线性回归。
此代码有效:
from pyspark.ml.stat import Correlation
corr_matrix = Correlation.corr(df, "features")
这将给我一个矩阵num_features x num_features。我想在目标和所有功能之间建立关联,以便最终得到大小为1 x num_features的向量。
我真的不能进入for循环,因为我有上千种功能,而且它永远都在花。 我可以自己编写函数来计算相关性,但是我想让所有事情都保持活力,而不必使用numpy或在数组中提取数据。
有人对如何进行有想法吗?谢谢您的帮助