将PySpark数据帧转换为LinearRegression所需的训练数据格式?

时间:2017-04-27 18:24:38

标签: pyspark

线性回归的PySpark docs/examples格式为:

print training

  

DataFrame [label:double,features:vector]

我当前的Spark DataFrame是:

print df

  

DataFrame [_c0:String,col1:double,col2:double,col3:double,... colN:double]

如何将我的DataFrame与PySparks线性回归模块一起使用?

1 个答案:

答案 0 :(得分:1)

虽然某些ML框架(如sklearn)使用一列作为目标而许多列作为要素,但spark ML需要目标列和包含向量的要素列。

为了从许多列到包含列的单个向量,有一个名为VectorAssembler的指定saprk函数。

请参阅文档中的详细信息:http://spark.apache.org/docs/latest/api/python/pyspark.ml.html?highlight=vector#pyspark.ml.feature.VectorAssembler