在Spark官方文档中,
VectorSlicer是一个变换器,它采用一个特征向量并输出一个带有原始特征子阵列的新特征向量。它对于从向量列中提取要素非常有用。
这会从功能集中选择重要功能吗?
如果是这样的话,如何在不提及因变量的情况下完成?
我正在尝试执行数据集群,我需要一些能够更好地为集群做出贡献的重要功能。我可以使用VectorSlicer
吗?
答案 0 :(得分:2)
这会从功能集中选择重要功能吗?
没有。它实际上将矢量切片以仅选择指定的索引。
并且需要能够更好地为集群做出贡献的重要功能。
如果您有分类数据,请考虑使用ChiSqSelector。
否则,您可以使用PCA之类的降维。它与功能选择不同,但应提供类似的好处(仅保留最重要的信号,丢弃其余信号)。