使用RowMatrix在spark(稀疏矩阵与密集矩阵)中执行SVD

时间:2017-10-09 07:06:06

标签: performance apache-spark pyspark bigdata apache-spark-mllib

我有一个概念性的问题。我们可以在Spark中读取稀疏矩阵,并使用Matrices.sparse类中的import org.apache.spark.mllib.linalg.{Matrix, Matrices}方法将它们转换为压缩稀疏列(CSC)格式。如果我将其转换为RowMatrix格式并执行SVD,它会比直接将密集矩阵转换为RowMatrix格式并执行SVD更快更有效吗?

常识可能表明稀疏矩阵会更快但是它确实更快吗?稀疏矩阵的RowMatrix解释是否会提高性能?如果是这样的话?

0 个答案:

没有答案