应用错误收集

时间：2018-10-19 01:44:26

标签： pyspark

我有一个nparray向量，其中0s和1s具有37k行和6k列。当我尝试在Pyspark中运行Kmeans Clustering时，几乎要花很长时间才能加载，而我无法获得输出。是否有任何方法可以减少处理时间或其他解决此问题的技巧？

答案 0 :(得分：0)

我认为您可能有太多的列，可能会遇到维度课程。 Wikipedia link

[...]这些问题的共同主题是，当维数增加时，空间的体积增加得如此之快，以至于可用数据变得稀疏。对于任何需要统计意义的方法，这种稀疏性都是有问题的。为了获得统计上合理且可靠的结果，支持该结果所需的数据量通常随维数呈指数增长。 [...]

为了解决此问题，您是否考虑过仅使用相关列来减少列数？再次检查此Wikipedia link

[...]特征投影将高维空间中的数据转换为维数较少的空间。像主成分分析（PCA）中一样，数据转换可能是线性的，但也存在许多非线性降维技术。 [...]