在运行K时花费大量时间意味着在Python Spark上

时间:2018-10-19 01:44:26

标签: pyspark

我有一个nparray向量,其中0s和1s具有37k行和6k列。 当我尝试在Pyspark中运行Kmeans Clustering时,几乎要花很长时间才能加载,而我无法获得输出。是否有任何方法可以减少处理时间或其他解决此问题的技巧?

1 个答案:

答案 0 :(得分:0)

我认为您可能有太多的列,可能会遇到维度课程Wikipedia link

  

[...]这些问题的共同主题是,当维数增加时,空间的体积增加得如此之快,以至于可用数据变得稀疏。对于任何需要统计意义的方法,这种稀疏性都是有问题的。为了获得统计上合理且可靠的结果,支持该结果所需的数据量通常随维数呈指数增长。 [...]

为了解决此问题,您是否考虑过仅使用相关列来减少列数?再次检查此Wikipedia link

  

[...]特征投影将高维空间中的数据转换为维数较少的空间。像主成分分析(PCA)中一样,数据转换可能是线性的,但也存在许多非线性降维技术。 [...]