如何在PySpark中连接两个LabeledPoints的特征列

时间:2015-12-05 01:06:57

标签: python apache-spark pyspark

我有两个LabeledPoints - lable1label2

label1 = (label,[feature1,feature2,feature3])
label2 = (label,[feature4,feature5])

label中的LabeledPoints列都相同,我想形成一个新的LabeledPoint,其中两个feature列中的LabeledPoints列连在一起:

label_new = (label,[feature1,feature2,feature3,feature4,feature5])

如何将两个LabeledPoints一起添加?

1 个答案:

答案 0 :(得分:2)

正如您在PySpark的{​​{3}}文档中所看到的,LabeledPoint对象有两个属性labelfeatures,因此我们可以使用{实现此目的的{1}}属性。

features

注意,您必须注意标签值!他们可能会有所不同。