Question

我需要了解如何在Spark中创建任意大小的DenseVectors的单位矩阵。我试图从mllib.linalg.distributed模块做一些事但无济于事。我需要的是一个数据框，其中有一列“特征”，其行为DenseVectors，其中每一行是单位矩阵中的对应行。

Answer 1

简单明了pyspark.mllib.linalg.distributed：

from pyspark.mllib.linalg.distributed import MatrixEntry, CoordinateMatrix
from pyspark import SparkContext

def identity(n: int, sc: SparkContext) -> CoordinateMatrix:
    return CoordinateMatrix(
        sc.range(n).map(lambda i: MatrixEntry(i, i, 1.0)), n, n)

使用DataFrames和DenseVectors没有多大意义。首先，DataFrames不是有序的，不支持代数运算。此外，使用DenseVectors将导致任何大小的矩阵的内存问题，使用分布式数据结构是合理的。

创建密集向量的单位矩阵作为Spark数据帧

1 个答案: