据我所知,VectorAssembler允许您将多个列组合成一个包含Vector的列。您可以稍后将此列传递给不同的ML算法和预处理实现。
我想知道是否有像“VectorDisassembler”这样的东西,也就是说,一个帮助器会占用一个Vector列并将其值分成多个列(例如在ML管道的末尾)?
如果没有,那么实现这一目标的最佳方法是什么(如果可能的话,最好用Python)?
这就是我的想法:
PcaComponents = Row(*["p"+str(i) for i in range(35)])
pca_features = reduced_dataset_df.map(lambda x: PcaComponents(*x[0].values.tolist())).toDF()
我们可以做得更好吗?