Spark的PCA实现可以处理多少列?

时间:2017-12-19 16:46:27

标签: apache-spark apache-spark-mllib

我可以计算1,000,000列的主要成分吗?例如?

1 个答案:

答案 0 :(得分:0)

最大列数为65,535。

在RowMatrix中强制执行此限制,我们在此处看到此评论:

This cannot be computed on matrices with more than 65535 columns

https://github.com/apache/spark/blob/master/mllib/src/main/scala/org/apache/spark/mllib/linalg/distributed/RowMatrix.scala#L380