PCA输入错误参数超过65535

时间:2016-04-13 06:58:01

标签: apache-spark pca apache-spark-mllib

在spark.mllib.feature中使用PCA时,输入数据的cols超过65535,但PCA中定义的RowMatrix <65535,是否意味着我不能使用PCA?

1 个答案:

答案 0 :(得分:3)

目前,PCA实现似乎具有在存储器中拟合d ^ 2协方差/格拉姆矩阵条目的限制(d是矩阵的列数/维数)。

目前它固定为65535,因为PCA的当前实现不具备可扩展性。因此,在您的情况下,您实际上无法使用PCA。

参考:source code.

JIRA issue计划实施概率主成分分析算法,该算法应该是可扩展的。