VectorSlicer如何在Spark 2.0中运行?

时间:2017-01-08 10:16:38

标签: apache-spark apache-spark-mllib apache-spark-ml

在Spark官方文档中,

  

VectorSlicer是一个变换器,它采用一个特征向量并输出一个带有原始特征子阵列的新特征向量。它对于从向量列中提取要素非常有用。

  • 这会从功能集中选择重要功能吗?

  • 如果是这样的话,如何在不提及因变量的情况下完成?

我正在尝试执行数据集群,我需要一些能够更好地为集群做出贡献的重要功能。我可以使用VectorSlicer吗?

1 个答案:

答案 0 :(得分:2)

  

这会从功能集中选择重要功能吗?

没有。它实际上将矢量切片以仅选择指定的索引。

  

并且需要能够更好地为集群做出贡献的重要功能。

  • 如果您有分类数据,请考虑使用ChiSqSelector

  • 否则,您可以使用PCA之类的降维。它与功能选择不同,但应提供类似的好处(仅保留最重要的信号,丢弃其余信号)。