将CoordinateMatrix转换为RowMatrix不会保留行顺序

时间:2015-12-24 10:23:22

标签: scala apache-spark apache-spark-mllib

在Spark-shell中,我创建了一个CoordinateMatrix:

import org.apache.spark.mllib.linalg.distributed.{
  CoordinateMatrix, MatrixEntry}
val entries = sc.parallelize(Seq(
  Array(0, 1, 1), Array(0, 2, 2), Array(0, 3, 3), 
  Array(0, 4, 4), Array(1, 2, 5), Array(1, 3, 6),
  Array(1, 4, 7), Array(2, 3, 8), Array(2, 4, 9),
  Array(3, 4, 10))).map(f => MatrixEntry(f(0), f(1), f(2)))

val mat: CoordinateMatrix = new CoordinateMatrix(entries)

是:

0 1 2 3 4
0 0 5 6 7
0 0 0 8 9
0 0 0 0 10

现在我想将其转换为RowMatrix并查看条目:

scala> mat.toRowMatrix.rows.collect
res1: Array[org.apache.spark.mllib.linalg.Vector] = Array((5,[1,2,3,4],[1.0,2.0,3.0,4.0]), (5,[2,3,4],[5.0,6.0,7.0]), (5,[4],[10.0]), (5,[3,4],[8.0,9.0]))

奇怪的是,第三行和第四行在RowMatrix中交换。问题是什么?感谢。

1 个答案:

答案 0 :(得分:1)

这并不奇怪。您可以阅读the API docsRowMatrix

  

表示具有无意义行索引的面向行的分布式矩阵。

此外,将CoordinateMatrix转换为任何其他类型的分布式矩阵需要重新分区,输出行/块的顺序部分取决于矩阵的分区数和维数,但除此之外,它不是确定性的。

如果行的顺序很重要,您应该使用IndexedRowMatrix。它仍然不保证行的顺序,但IndexedRow保留索引,可以在必要时用于重新排序行。