我需要了解如何在Spark中创建任意大小的DenseVectors
的单位矩阵。我试图从mllib.linalg.distributed
模块做一些事但无济于事。我需要的是一个数据框,其中有一列“特征”,其行为DenseVectors
,其中每一行是单位矩阵中的对应行。
答案 0 :(得分:2)
简单明了pyspark.mllib.linalg.distributed
:
from pyspark.mllib.linalg.distributed import MatrixEntry, CoordinateMatrix
from pyspark import SparkContext
def identity(n: int, sc: SparkContext) -> CoordinateMatrix:
return CoordinateMatrix(
sc.range(n).map(lambda i: MatrixEntry(i, i, 1.0)), n, n)
使用DataFrames
和DenseVectors
没有多大意义。首先,DataFrames
不是有序的,不支持代数运算。此外,使用DenseVectors
将导致任何大小的矩阵的内存问题,使用分布式数据结构是合理的。