标签: apache-spark pyspark
我正在使用pyspark的线性回归算法。准备数据(LabeledPoints的集合)..我可以给出重复的LabeledPoint,我可以为特定的自变量组合提供多个标签值吗?
例如: 案例1: LabeledPoint(1,[1.0,2.0,3.0]), LabeledPoint(1,[1.0,2.0,3.0]),
案例2: LabeledPoint(2,[3.0,4.0,5.0]), LabeledPoint(3,[3.0,4.0,5.0]),