将本地向量转换为RDD [Vector]

时间:2015-10-05 08:12:46

标签: scala apache-spark

我是Spark和Scala的新手,我正在尝试阅读有关MLlib的文档。

http://spark.apache.org/docs/1.4.0/mllib-data-types.html上的教程,

import org.apache.spark.mllib.linalg.Vector
import org.apache.spark.mllib.linalg.distributed.RowMatrix

val rows: RDD[Vector] = ... // an RDD of local vectors
// Create a RowMatrix from an RDD[Vector].
val mat: RowMatrix = new RowMatrix(rows)

// Get its size.
val m = mat.numRows()
val n = mat.numCols()

没有显示如何从局部向量列表构造RD​​D [Vector](变量行)。

例如,我已经在spark-shell中执行了(作为我探索的一部分)

val v0: Vector = Vectors.dense(1.0, 0.0, 3.0)
val v1: Vector = Vectors.sparse(3, Array(1), Array(2.5))
val v2: Vector = Vectors.sparse(3, Seq((0, 1.5),(1, 1.8)))

如果'合并'看起来像这个矩阵

1.0  0.0  3.0
0.0  2.5  0.0
1.5  1.8  0.0

那么,如何将向量v0v1v2转换为rows

1 个答案:

答案 0 :(得分:8)

通过使用并行化序列的Spark Context的属性,我们可以实现你想要的东西,因为你已经创建了向量,现在你需要按顺序将它们按顺序排列并通过下面给出的过程进行并行化。

import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.linalg.distributed.RowMatrix

val v0 = Vectors.dense(1.0, 0.0, 3.0)
val v1 = Vectors.sparse(3, Array(1), Array(2.5))
val v2 = Vectors.sparse(3, Seq((0, 1.5), (1, 1.8)))

val rows = sc.parallelize(Seq(v0, v1, v2))

val mat: RowMatrix = new RowMatrix(rows)

// Get its size.
val m = mat.numRows()
val n = mat.numCols()