Spark VectorAssembler

时间:2017-04-05 07:17:46

标签: python apache-spark pyspark apache-spark-mllib apache-spark-ml

据我所知,VectorAssembler允许您将多个列组合成一个包含Vector的列。您可以稍后将此列传递给不同的ML算法和预处理实现。

我想知道是否有像“VectorDisassembler”这样的东西,也就是说,一个帮助器会占用一个Vector列并将其值分成多个列(例如在ML管道的末尾)?

如果没有,那么实现这一目标的最佳方法是什么(如果可能的话,最好用Python)?

这就是我的想法:

PcaComponents = Row(*["p"+str(i) for i in range(35)])
pca_features = reduced_dataset_df.map(lambda x: PcaComponents(*x[0].values.tolist())).toDF()

我们可以做得更好吗?

0 个答案:

没有答案