在spark.mllib.feature中使用PCA时,输入数据的cols超过65535,但PCA中定义的RowMatrix <65535,是否意味着我不能使用PCA?
答案 0 :(得分:3)
目前,PCA实现似乎具有在存储器中拟合d ^ 2协方差/格拉姆矩阵条目的限制(d是矩阵的列数/维数)。
目前它固定为65535,因为PCA的当前实现不具备可扩展性。因此,在您的情况下,您实际上无法使用PCA。
参考:source code.
有JIRA issue计划实施概率主成分分析算法,该算法应该是可扩展的。