如何使用Scala在Spark中声明稀疏Vector?

时间:2015-12-09 20:45:52

标签: scala apache-spark seq apache-spark-mllib

我试图创建一个稀疏的Vector(mllib.linalg.Vectors类,而不是默认的类),但我无法理解如何使用Seq。我有一个带有三个数字/行的小测试文件,我将其转换为rdd,将文本分成双打,然后按第一列分组。

测试文件

1 2 4
1 3 5    
1 4 8    
2 7 5    
2 8 4    
2 9 10

代码

val data = sc.textFile("/home/savvas/DWDM/test.txt")
val data2 = data.map(s => Vectors.dense(s.split(' ').map(_.toDouble)))
val grouped = data2.groupBy( _(0) )

这导致grouped具有这些值

(2.0,CompactBuffer([2.0,7.0,5.0], [2.0,8.0,4.0], [2.0,9.0,10.0]))
(1.0,CompactBuffer([1.0,2.0,4.0], [1.0,3.0,5.0], [1.0,4.0,8.0]))

但我似乎无法弄清楚下一步。我需要获取grouped的每一行并为其创建一个向量,以便新RDD的每一行都有一个向量,其第三个值由第二个值指定的索引中的CompactBuffer。简而言之,我的意思是我希望我的数据像这样。

[0, 0, 0, 0, 0, 0, 5.0, 4.0, 10.0, 0]
[0, 4.0, 5.0, 8.0, 0, 0, 0, 0, 0, 0]

我知道我需要使用稀疏向量,并且有三种方法来构造它。我尝试过使用带有tuple2(索引,值)的Seq,但我无法理解如何创建这样的Seq。

1 个答案:

答案 0 :(得分:2)

一种可能的解决方案如下所示。首先,我们将数据转换为预期类型:

import org.apache.spark.rdd.RDD

val pairs: RDD[(Double, (Int, Double))] = data.map(_.split(" ") match {
  case Array(label, idx, value) => (label.toDouble, (idx.toInt, value.toDouble))
})

接下来找到一个最大索引(向量的大小):

val nCols = pairs.map{case (_, (i, _)) => i}.max + 1

分组和转换:

import org.apache.spark.mllib.linalg.SparseVector

def makeVector(xs: Iterable[(Int, Double)]) = {
  val (indices, values) = xs.toArray.sortBy(_._1).unzip
  new SparseVector(nCols, indices.toArray, values.toArray)
}

val transformed: RDD[(Double, SparseVector)] = pairs
  .groupByKey
  .mapValues(makeVector)

另一种处理此问题的方法是假设第一个元素可以安全地转换为整数,使用CoordinateMatrix

import org.apache.spark.mllib.linalg.distributed.{CoordinateMatrix, MatrixEntry}

val entries: RDD[MatrixEntry] = data.map(_.split(" ") match {
  case Array(label, idx, value) => 
    MatrixEntry(label.toInt, idx.toInt, value.toDouble)
})

val transformed: RDD[(Double, SparseVector)] = new CoordinateMatrix(entries)
  .toIndexedRowMatrix
  .rows
  .map(row => (row.index.toDouble, row.vector))