汇总密集向量的数据帧列

时间:2019-04-22 19:13:34

标签: apache-spark pyspark apache-spark-mllib

我正在寻找一个数据帧的列的总和,其中每一行都具有相同维的密集向量。我想要的输出是该尺寸的numpy数组。

使用ml.feature.VectorAssembler,我发现我的任务在通话过程中被杀死:

>>> dataframe.select('feature_vector').rdd.reduce(sum)

feature_vector输出VectorAssembler列的位置。但是当我使用ml.linalg.VectorUDT之类的东西缩放特征向量然后求和时:

>>> dataframe.select('scaled_feature_vector').rdd.reduce(sum)

我的任务不会被杀死,但是要花很长时间才能完成。我应该如何在pySpark中处理向量,以便有效地执行这类归约?

0 个答案:

没有答案